Измерение информации

Для практического использования понятия информации необходимо научиться ее измерять. Это можно сделать по аналогии с методикой численного измерения иных фундаментальных понятий, таких как материя (масса), энергия или пространство, для этого требуется установить, что принимается за меру количественной оценки информации и что принимать за единицу измерения этой меры. Под мерой количественной оценки понимают некоторое явление или объект, которые однозначно (пропорционально) связаны с определяемым первичным понятием и которые могут характеризовать количественное содержание этого понятия.

Таблица 1.1 иллюстрирует общепринятую методику измерения первичных понятий, таких как масса, пространство и т. п.

 

Таблица 1.1

Первичное понятие. Мера количественной оценки. Ед. измер. меры кол. оценки.
Материя. Вес. Грамм, тонна и т.д.
Пространство. Расстояние. Метр, километр и т.д.
Информация ? ?

 

Традиционно сложилось три основных подхода к выбору меры количественной оценки информации.

1. Структурный подход, при котором количественная оценка информации о событии оценивается путем определения объективной возможности этого события, входящего в некоторую полную группу событий.

2. Статистический подход, при котором количественная оценка информации о принятом сообщении производится на основе меры неопределенности, снимаемой с исследуемого информационного процесса (события) при получении данного сообщения.

3. Семантический подход, который в основном учитывает ценность полученной информации с точки зрения конкретного получателя этой информации.

Очевидно, что, для точного, технического, объективного использования, семантический подход не приемлем, так как он сугубо субъективен и не может дать общепринятой количественной меры информации, хотя этот подход и может быть использован в сфере гуманитарных и общественных наук.

Применительно к точным и техническим наукам для определения меры количественной оценки информации используют структурный и статистический подходы.

Выбор критерия для количественной оценки информации, независимо от выбранного полхода, должен удовлетворять условиям, вытекающим из практического опыта:

— сообщению большей длины (при одном и том же объеме алфавита) соответствует большее количество информации;

— большее количество информации содержится в тех сообщениях (одинаковой длины), которые составлены из символов большего алфавита;

— символы в сообщении могут появляться с различными вероятностями и могут быть статистически зависимыми.

Учитывая это, меру количественной оценки информации можно ввести исходя из следующих соображений. Предположим, что какое-то событие имеет m равновероятных исходов, например, появление какого-либо символа из алфавита, содержащего m таких символов. Измерить количество информации, содержащееся в сообщении из n таких символов можно, определив число N всех возможных сообщений, которые могут быть составлены из символов этого алфавита. Если сообщение формируется из одного символа, то N=m, если из двух, то , если из n символов, то . Полученную меру количественной оценки информации можно понимать как меру неопределенности получения конкретного заданного сообщения, состоящего из n символов алфавита. Однако эта мера количественной оценки информации не совсем удобна. Действительно, при (т.е. алфавит состоит из одного символа) неопределенности не существует и появление этого символа не несет никакой информации, однако значение N в этом случае (N=1n) не обращается в нуль. Кроме этого, из практических соображений, целесообразно считать, что количество информации, полученное от двух независимых источников, равно сумме количеств информации, получаемых от каждого источника, а предлагаемая мера количества информации дает в этом случае произведение , где — число возможных сообщений от двух источников сообщений. Эти неудобства легко преодолимы, если в качестве меры количественной оценки информации ( ) взять логарифм по какому-либо основанию от общего числа возможных сообщений

(1.1)

или логарифм вероятности появления конкретного сообщения (Р)

(1.2)

при условии, что все сообщения равновероятны, т.е.

.

Определенная по формулам (1.1) и (1.2) мера количественной оценки информации (I) называется количеством информации. Количество информации как мера количественной оценки информации может быть вписана в соответствующую графу таблицы 1.1.

В случае если сообщения не равновероятны, мера неопределенности будет зависеть не только от общего числа возможных сообщений, но и от распределения вероятности между возможными сообщениями.

В общем случае, при наличии шумов, понятие количества информации может быть определено из следующих соображений.

Если поступило сообщение о событии, априорная вероятность, которого равна характеризует состояние системы до получения сообщения, т.е. до опыта), а после приема сообщения апостериорная вероятность этого события стала для получателя ( характеризует состояние системы после получения сообщения), то прирост количества информации (I), связанный с приемом сообщения о событии, определяется выражением

. (1.3)

Это выражение часто называют основным соотношением теории информации.

В частном случае, когда шумы при передаче и приеме сообщения отсутствуют, событие после приема сообщения о нем становится достоверным, т.е. и выражение (1.3) принимает вид:

. (1.4)

Таким образом, количество информации, содержащееся в сообщении, зависит от вероятности события до приема сообщения , и чем меньше эта вероятность, т.е. чем больше неопределенность исхода, тем больше количество информации о нем получается в результате приема сообщения. Поскольку Р £ 1, то определяемое формулой (1.4) количество информации всегда положительно. Следовательно, приём какого-либо сообщения никоим образом не может уменьшить количество уже имеющейся информации.

Единицы измерения количества информации определяются выбором основания логарифмов в выражениях (1.1) - (1.4). Если основание логарифмов берется равным 2, то получаем единицу количества информации бит (от английского binary digit, - двоичное число). Таким образом, один бит это количество информации, получаемое при приеме одного из двух равновероятных символов сообщения.

Если основание логарифмов равно 10, то единица количества информации носит название дит, а если используются натуральные логарифмы (по основанию е) – то нат.

Использование выше указанных формул часто бывает затруднено, поэтому на их основе получают иные выражения для определения количества информации, которые более просты и практичны, однако применимы лишь к конкретным видам сообщений.