Алфавитный подход к определению количества информации

Определение количества информации на основе уменьшения неопределенности нашего знания рассматривает информацию с точки зрения содержания, ее понятности и новизны для человека. С этой точки зрения в опыте по бросанию монеты одинаковое количество информации содержится и в зрительном образе упавшей монеты, и в коротком сообщении «орел», и в длинной фразе «Монета упала на поверхность земли той стороной вверх, на которой изображен орел».

Однако при хранении и передаче информации с помощью технических устройств целесообразно отвлечься от содержания информации и рассмотреть ее как последовательность символов – знаков (букв, цифр, кодов цветов точек изображения и т.д.).

Набор символов знаков системы (алфавит) можно рассматривать как различные возможные состояния (события.)

Тогда, если считать, что появление символов в сообщении равновероятно, по формуле N = 2i можно рассчитать, какое количество информации несет каждый символ. Информационная емкость знаков зависит от их количества в алфавите (мощности алфавита), чем больше их количество, тем большее количество информации несет один знак.

Информационная емкость буквы в русском алфавите, если не использовать «ё» составляет: 32 = 2i , т.е. I = 5 бит.

На основании алфавитного подхода можно подсчитать количество информации в сообщении Ic , для этого необходимо умножить количество информации, которое несет один символ I , на количество символов К в сообщении: Ic = I·К.

Практическое задание «Определение количества информации в тексте».Система оптического распознавания символов позволяет преобразовать отсканированные изображения страниц документа в текстовой формат со скоростью 4 страницы в минуту и использует алфавит мощностью 65 536 символов. Какое количество информации будет нести текстовый документ, каждая страница которого содержит 40 строк по 50 символов, после 10 минут работы приложения?

По формуле: N = 2i определим информационную емкость символа алфавита: 65536 = 2i => 216 = 2i => I = 16 бит.

По формуле: Ic = I·К определим количество информации на странице: 16 бит·40·50 = 32000 бит = 4000 байт.

Определим количество информации, которое будет нести текстовый документ: 4000 байт·4·10 = 160000 байт. 156 Кбайт.

 

Формула Шеннона

Существует множество ситуаций, когда возможные события имеют различные вероятности реализации. Например, если монета несимметричная (одна сторона тяжелее другой), то при ее бросании вероятности выпадения «орла» и «решки» будут различаться.

Формулу для вычисления количества информации для событий с различными вероятностями предложил К. Шеннон в 1948 году. В этом случае количество информации определяется по формуле:

,

где I - количество информации,

N – количество возможных событий,

pi – вероятности отдельных событий.

Для частного, но широко распространенного и рассматриваемого выше случая, когда события равновероятны (pi = 1/N), величину информации I можно рассчитать по формуле:

Практическое задание «Бросание пирамидки».Определить количество информации, которую мы получаем в результате бросания несимметричной и симметричной пирамидок.

При бросании несимметричной четырехгранной пирамидки вероятности отдельных событий равны: p1 =1/2, p2 = 1/4 , p3 = 1/8, p4 = 1/8.

Количество информации, которую мы получим после бросания несимметричной пирамидки, можно рассчитать по формуле :

I = - (1/2· log21/2 + 1/4·log21/4 + 1/8·log21/8 + 1/8·log21/8) бит = (1/2·log22 + 1/4·log24 + 1/8·log28 + 1/8·log28) бит = (1/2 + 2/4 + 3/8 +3/8) бит = 14,8 бит = 1,75 бит.

При бросании симметричной четырехгранной пирамидки вероятности отдельных событий равны между собой: p1 = p2 = p3 = p4 = 1/4.

Количество информации, которую мы получим после бросании симметричной пирамидки, можно рассчитать по формуле : I = log24 = 2 бита.

Таким образом, при бросании симметричной пирамидки, когда события равновероятны, мы получим большее количество информации (2 бита), чем при бросании несимметричной пирамидки, когда события неравновероятны (1,75 бита).

Выбор правильной стратегии в игре «угадай число». На получение максимального количества информации строится выбор правильной стратегии в игре «Угадай число», в которой первый участник загадывает целое число (например, 3) из заданного интервала (например, от 1 до 16), а второй должен «угадать» задуманное число. Если рассмотреть эту игру с информационной точки зрения, то начальная неопределенность знания для второго участника составляет 16 возможных событий (вариантов загаданных чисел).

При правильной стратегии интервал чисел всегда должен делиться пополам, тогда количество возможных событий (чисел) в каждом из полученных интервалов будет одинаково и их отгадывание равновероятно. В этом случае на каждом шаге ответ первого игрока («Да» или «Нет») будет нести максимальное количество информации (1 бит).

Как видно из таблицы, угадывание числа 3 произошло за четыре шага, на каждом из которых неопределенность знания второго участника уменьшалась в два раза за счет получения сообщения от первого участника, содержащего 1 бит информации. Таким образом, количество информации, необходимой для отгадывания одного из 16 чисел, составило 4 бита.

 

Информационная модель игры «Угадай число»

Вопрос второго участника Ответ первого участника Неопределенность знания (количество возможных событий) Полученное количество информации
Число больше 8? Нет 1 бит
Число больше 4? Нет 1 бит
Число больше 2? Да 1 бит
Это число 3? Да 1 бит

Практическое задание «Определение количества информации».В непрозрачном мешочке хранятся 10 белых, 20 красных, 30 синих и 40 зеленых шариков. Какое количество информации будет содержать зрительное сообщение о цвете вынутого шарика?

Так как количество шариков различных цветов неодинаково, то вероятности зрительных сообщений о цвете вынутого из мешочка шарика также различаются и равны количеству шариков данного цвета, деленному на общее количество шариков: pб = 0,1 ; pк = 0,2; pз =0,3; pс= 0,4

События неравновероятны, поэтому для определения количества информации, содержащейся в сообщении о цвете шарика, воспользуемся формулой:

I = - (0,1·log2 0,1 + 0,2· log2 0,2 + 0,3· log20,3 + 0,4· log20,4) = 1,85 бита