Количество и качество информации

 

Исследованием методов передачи, хранения и приема информации занимается теория информации, инструментами которой служат теория случайных процессов, теория кодирования, математическая статистика, теория вероятностей. Внимание к проблеме передачи и количественной оценки информации было привлечено фундаментальными работами Н. Винера и К. Шеннона (США), положившими начало теории информации. Значительный вклад в теорию информации внесли отечественные ученые А.Н. Колмогоров, A.A. Харкевич, В.А. Котельников, работы которых хорошо известны специалистам во всем мире.

Важнейшим этапом в теории развития информации явилась количественная оценка информации. Только принимая за основу новизну сведений, можно дать количественную оценку информации, так как новизна сведений является следствием неопределенности сведений об объекте, процессе, явлении, а неопределенность поддается измерению. Например, сообщение имени победившего на выборах в президенты, если было всего два кандидата, несет меньшее количество информации по сравнению со случаем, если бы выборы происходили в конкурентной борьбе пяти кандидатов.

Основываясь на идее, что информация устраняет некоторую неопределенность, т. е. незнание, описание любого события или объекта формально можно рассматривать как указание на то, в каком из возможных состояний находится описываемый объект. Тогда протекание событий во времени есть не что иное, как смена состояний, выбранных с некоторой вероятностью из числа всех возможных. Чем выше уровень неопределенности выбора, тем требуется больший объем информации, и результат выбора имеет значительную степень неожиданности. Вот почему в теории информации количество информации является мерой снятия неопределенности одной случайной величины в результате наблюдения за другой. Если величины независимы, то количество информации равно нулю.

Самым простейшим случаем является выбор альтернативы из двух событий. Поэтому за единицу информации целесообразно принять количество информации, заключенное в выборе одного из двух равновероятных событий. Эта единица называется двоичной единицей, или битом (binary digit, bit). Итак, при любой неопределенности сужение области выбора вдвое дает одну единицу информации. В физике существует понятие энтропии, которая характеризует степень неупорядоченности (хаотичности) физической системы. Неупорядоченность может быть интерпретирована в смысле того, насколько мало известно наблюдателю о данной системе. Как только наблюдатель выявил что-нибудь в физической системе, так энтропия системы снизилась, ибо для наблюдателя система стала более упорядоченной. И если максимум энтропии соответствует абсолютно случайному состоянию системы, то максимум информации характеризует полностью упорядоченную (детерминированную) систему. Одним словом, энтропия системы выражает степень ее неупорядоченности, а информация дает меру ее организации.

Формулу измерения количества информации можно получить эмпирически: для снятия неопределенности в ситуации из двух равновероятных событий необходим один бит информации; при неопределенности, состоящей из четырех событий, достаточно двух бит информации, чтобы угадать искомый факт. Это рассуждение можно продолжить: 3 бита информации соответствуют неопределенности из 8 равновероятных событий, 4 бита - 16 равновероятных событий и т. д. Таким образом, если сообщение указывает на один из n равновероятных вариантов, то оно несет количество информации, равное Iog2 n. Действительно, из наших примеров Iog216 = 4, Iog28 = 3 и т. д. Ту же формулу можно словесно выразить иначе: количество информации равно степени, в которую необходимо возвести 2, чтобы получить число равноправных вариантов выбора, т. е. 2i = 16, где i = 4 бита.

Будем различать понятия «информация» и «сообщение». Под сообщением обычно подразумевают информацию, выраженную в определенной форме и подлежащую передаче. Сообщение - это форма представления информации. Есть одна особенность, которая связана с количеством хранимой или переданной информации, представленной в двоичных единицах, и количеством информации, заключенным в данном сообщении. С точки зрения теории информации, неопределенность, снимаемая в результате передачи одной страницы текста примерно из 2000 знаков, может составлять всего несколько бит (неинформативное сообщение), в то время как эта же страница при кодировании букв 8-элементными кодовыми комбинациями будет содержать 16 х 103 бит, хотя это не есть количество информации, заключенное вданном тексте.

Измерение только количества информации не отвечает насущным потребностям современного общества — необходима мера ценности информации. Проблема определения ценности информации исключительно актуальна в настоящее время, когда уже трудно даже с помощью компьютеров обрабатывать мощные информационные, потоки. Разработанные методы определения ценности информации, призваны сыграть существенную роль в получении человеком необходимой информации.

Вообще, оценка значимости информации производится человеком часто интуитивно на основе использования интеллекта и опыта. Информация называется полезной, если она уменьшает неопределенность решающего алгоритма. По мнению М.М. Бонгарда, не имеет смысла говорить о полезной информации, содержащейся в сигнале, если не указаны задача, которая решается, начальное состояние решающего алгоритма и свойства декодирующего алгоритма. Американским ученым Н. Винером предпринята попытка построить семантическую теорию информации. Суть ее состоит в том, что для понимания и использования информации ее получатель должен обладать определенным запасом знаний. Действительно, полное незнание предмета не позволяет извлечь существенной научной информации из принятого сообщения об этом предмете. По мере роста наших знаний о предмете растет и количество научной информации, извлекаемой из сообщения.

Если назвать имеющиеся у получателя знания сданном предмете тезаурусом (т. е. неким сводом слов, понятий, названий объектов, связанных смысловыми связями), то количество информации, содержащейся в некотором сообщении, можно оценить степенью изменения индивидуального тезауруса под воздействием данного сообщения. Иными словами, количество семантической информации, извлекаемой получателем из поступающих сообщений, зависит от степени подготовленности его тезауруса для восприятия такой информации. В связи с этим появилось понятие общечеловеческого тезауруса, относительно которого можно было бы измерять семантическую ценность научной информации. Это сделано в попытках найти такую меру ценности информации, которая не зависела бы от состояния ее индивидуального приемника.

Пока можно сделать вывод, что задача определения ценности информации при достаточной степени формализации, которая требуется при компьютеризованной оценке, еще не решена, однако это не означает невозможности ее решения в будущем.