Измерение информации в теории информации (информация как снятая неопределенность)

Пылкий влюбленный, находясь в разлуке с объектом своей любви, посылает телеграмму «Любишь?». В ответ приходит не менее лаконичная телеграмма: -«Да»- Сколько информации несет ответная телеграмма? Альтернатив здесь две — либо «да», либо «нет». Их можно обозначить символами двоичного кода — 1 и 0. Таким образом, ответную телеграмму можно было бы закоди­ровать всего одним двоичным символом.

Можно ли сказать, что ответная телеграмма несет одну единицу информации? Получение информации (ее увеличение) одновременно означает увеличение знания, что, в свою очередь, означает уменьшение незнания или информационной неопределенности

Книга лежит на одной из двух полок — верхней или нижней. Сообщение о том, что книга лежит на верхней полке, уменьшает неопределенность ровно вдвое. В простейшем случае выбор одного из двух сообщений («да» или «нет», 1 или О) принимают за единицу информации. Она названа бит, что означает двоичная цифра. Вопрос ценности этой информации для получателя — это уже из иной области.

Сообщение о том, как упала монета после броска орлом или решкой несет 1 бит информации.

Известно, что Иванов живет на улице Весенней. Сообщение о том, что номер его дома есть число четное, уменьшило неопределенность. Получив такую информацию, мы стали знать больше, но информационная неопределенность осталась, хотя и уменьшилась.

Почему в этом случае мы не можем сказать, что первоначальная неопределенность уменьшилась вдвое (иными словами, что мы получили 1 бит информации)?

Если вы не знаете ответа на этот вопрос, представьте себе улицу, на четной стороне которой, например, четыре дома, а на нечетной — двадцать. Такие улицы не такая уж большая редкость.

Сообщение о том, что на светофоре красный сигнал, несет в себе информации больше чем 1 бит. Попробуйте объяснить почему.

Пусть имеется колода из 32 игральных карт (от семерок до тузов). Задумывается одна из карт. Необходимо, задавая вопросы, на которые будут даны ответы «да» или «нет», угадать задуманную карту.

Первый вопрос: «Задумана карта черной масти?» Ответ: «Нет».
Ответ уменьшает неопределенность вдвое и приносит отгадывающему 1 бит информации.

Второй вопрос: «Задумана карта бубновой масти?» Ответ: «Да». Это еще один бит информации, исходная неопределенность уменьшилась в 4 раза.

Третий вопрос: «Задумана карта — картинка?» Ответ: «Нет».

Третий бит информации, первоначальная неопределенность уменьшилась в 8 раз.

Четвертый вопрос: «Задуманная карта младше девятки?» Ответ «Да». Еще один бит информации, первоначальная неопределенность уменьшилась в 16 раз.

Пятый вопрос: «Задумана восьмерка бубновая?» Ответ: «Нет». Отгадывающий получил пятый бит информации, исходная неопределенность уменьшилась в 32раза. Последний ответ позволяет с уверенностью сказать, что была задумана бубновая семерка. Неопределенности не осталось.

Очень приближенно можно считать, что в количество информации в сообщении о каком-то событии совпадает с количеством вопросов, которые необходимо задать, чтобы получить ту же информацию. Ответ на эти вопросы может либо «да», либо «нет». Причем событие, о котором идет речь, должно иметь равновероятные исходы. Монета может упасть только «орлом» или «решкой» - два равновероятных исхода.

Данное определение количества информации упрошено.

Вернемся к примеру о влюбленном если он уверен в положительном ответе, то ответ «да» почти не даст ему никакой новой информации. Но внезапный отказ уверенному влюбленному несет сравнительно много информации, настолько много, что радикально изменяется все дальнейшее поведение влюбленного. Таким образом, количество информации зависит от вероятности получения данного ответа. Причем, чем больше вероятность событии, тем меньше количества информации в сообщении о таком событии.

Руководитель сообщил, что как обычно после этого урока будет перемена. (Так как вероятность этого события велика, то количество информации в нем мало. Руководитель сообщил вам, что на перемене будут раздавать апельсины, бананы, ананасы. Т.к. данное событие маловероятно, то количество информации в нем велико.

 

Для абсолютно достоверного события (событие обязательно произойдет, поэтому его вероятность равна 1) количество неопределенности в сообщении о нем равно 0. Чем более невероятное событие, тем большую информацию о нем несет сообщение.

 

Итак, вы поняли, что, если оценивать информацию как снятую неопределенность, количество информации в сообщении о каком-то событии зависит от вероятности свершения данного события

Научный подход к оценке сообщений был предложен еще в 1928 г. Хартли. Расчетная формула имеет вид:

или

где N — количество равновероятных событий (число возможных выборов), I— количество информации. Если N=2 (выбор из двух возможностей), то N = 1 бит.

Бит выбран в качестве единицы количества информации потому, что принято считать, что двумя двоичными словами исходной длины k или словом длины 2k можно, передать в 2 раза больше информации, чем одним исходным словом. Число возможных равновероятных выборов при этом увеличивается в 2k раз, тогда как I удваивается.

Иногда формула Хартли записывается иначе. Так как наступление каждого из N возможных событий имеет одинаковую вероятность р = 1/N то N = 1/р и формула имеет вид

Познакомимся с более общим случаем вычисления количества информации в сообщении об одном из N, но уже неравновероятных событий. Этот подход был предложен К. Шенноном в 1945 г.

Пусть имеется строка текста, содержащая тысячу букв. Буква «о» в тексте встречается примерно 90 раз, буква «р» - 40 раз, буква «ф» - 2 раза, буква «а» - 200 раз. Поделив 200 на 1000, мы получим величину 0.2, которая представляет собой среднюю частоту, с которой в рассматриваемом тексте встречается буква «а» Вероятность появления буквы «а» в тексте (ра) можем считать приблизительно равной 0.2. Аналогично, рр = 0.04, рф = 0.002, ро = 0.09.

Далее поступаем согласно К. Шеннону. Берем двоичный логарифм от величины 0.2 и называем то, что получилось, количеством информации, которую переносит одна единственная буква «а» в рассматриваемом тексте. Точно такую же операцию проделаем для каждой буквы. Тогда количество собственной информации, переносимой одной буквой, равно

, где р— вероятность появления в сообщении i-го символа алфавита.

Удобнее в качестве меры количества информации пользоваться не значением hi а средним значением количества информации, приходящейся на один символ алфавита

Значение h достигаетет максимума при равновероятных событиях, т.е. при равенстве всех pi . В этом случае формула Шеннона превращается в Формулу Хартли

На памятнике немецкому ученому Л. Больцману высечена формула, выведенная в 1877 г. и связывающая вероятность состояния физической системы и величину энтропии этой системы. Энтропия — физическая величина, характеризующая тепловое состояние тела или системы, меру внутренней неупорядоченности системы. Так вот, формула для энтропии Больцмана совпадает с формулой, предложенной Шенноном для среднего количества информации, приходящейся на один символ в сообщении. Совпадение это произвело столь сильное впечатление, что Шеннон назвал количество информации энтропией. С тех пор слово энтропия стало чуть ли не синонимом слова «информация».

Чем больше энтропия системы, тем больше степень ее неопределенности. Поступающее сообщение полностью или частично снимает эту неопределенность. Следовательно, количество информации можно измерять тем, насколько понизилась энтропия системы после поступления сообщения. За меру количества информации принимается та же энтропия, но с обратным знаком.