Алфавитный подход к измерению информации.
Лабораторная работа №1
«Измерение информации»
В информатике используются различные подходы к измерению информации:
Количество информации- это мера уменьшения неопределенности.
Содержательный подход к измерению информации.
Сообщение – информативный поток, который в процессе передачи информации поступает к приемнику. Сообщение несет информацию для человека, если содержащиеся в нем сведения являются для него новыми и понятными Информация - знания человека ? сообщение должно быть информативно. Если сообщение не информативно, то количество информации с точки зрения человека = 0. (Пример: вузовский учебник по высшей математике содержит знания, но они не доступны 1-класснику).
Пусть в некотором сообщении содержатся сведения о том, что произошло одно из N равновероятных событий. Количество информации i, содержащееся в сообщении о том, что произошло одно из N равновероятных событий, можно определить из формулы Хартли:
Данная формула является показательным уравнением относительно неизвестного i. Из математики известно, что решение такого уравнения имеет вид:
Если N равно целой степени двойки (2,4,8,16 и т. д.), то такое уравнение можно решить «в уме».
Пример:
Шахматная доска состоит из 64 полей: 8 столбцов на 8 строк. Какое количество бит несет сообщение о выборе одного шахматного поля?
Решение.
Поскольку выбор любой из 64 клеток равновероятен, то количество бит находится из формулы:
Алфавитный подход к измерению информации.
Алфавит -множество используемых символов в языке.
Обычно под алфавитом понимают не только буквы, но и цифры, знаки препинания и пробел.
Мощность алфавита(N)-количество символов, используемых в алфавите.
Например, мощность алфавита из русских букв равна 32 (буква ё обычно не используется).
Если допустить, что все символы алфавита встречаются в тексте с одинаковой частотой (равновероятно), то количество информации, которое несет каждый символ, вычисляется по формуле Хартли:
где N - мощность алфавита.
Формула Хартли задает связь между количеством возможных событий N и количеством информацииi:
Из базового курса информатики известно, что в компьютерах используется двоичное кодирование информации. Для двоичного представления текстов в компьютере чаще всего используется равномерный восьмиразрядный код. С его помощью можно закодировать алфавит из 256 символов, поскольку 256=28.
В стандартную кодовую таблицу (например, ASCII) помещаются все необходимые символы: английские и русские прописные и строчные буквы, цифры, знаки препинания, знаки арифметических операций, всевозможные скобки и пр.
В двоичном коде один двоичный разряд несет одну единицу информации, которая называется 1 бит.
Например, в 2-символьном алфавите каждый символ «весит» 1 бит (log22=1); в 4-символьном алфавите каждый символ несет 2 бита информации (log24=2); в 8-символьном - 3 бита (log28=3) и т. д.
Один символ из алфавита мощностью 256 (28) несет в тексте 8 битов информации. Такое количество информации называется байтом.
1байт=8битов
Информационный объем текста в памяти компьютера измеряется в байтах. Он равен количеству знаков в записи текста.
Для измерения информации используются и более крупные единицы:
Название единицы измерения | Численная величина в байтах | Точное количество байтов |
Килобайт (Кбайт) | 1024 байт | |
Мегабайт (Мбайт) | 1024 килобайт 1 048 576 байт | |
Гигабайт(Гбайт) | 1024 мегабайт 1 073 741 824 байт | |
Терабайт (Тбайт) | 1024 гигабайт 099 511 627 776 байт | |
Петабайт (Пбайт) | 1024 терабайт 1 125 899 906 842 624 байт | |
Эксабайт (Эбайт) | 1024 петабайт 1 152 921 504 606 846 976 байт | |
Зеттабайт(Збайт) | 1024 эксабайт 1 180 591 620 717 411 303 424байт | |
Йоттабайт(Йбайт) | 1024 зеттабайт 1208925819614629174706176 байт |
Если весь текст состоит из K символов, то при алфавитном подходе объём V содержащейся в нем информации равен:
где i - информационный вес одного символа в используемом алфавите.
Зная, что i=log2N, данную выше формулу можно представить в другом виде:
если количество символов алфавита равно N, а количество символов в записи сообщения - K, то информационный объем V данного сообщения вычисляется по формуле:
При алфавитном подходе к измерению информации информационный объем текста зависит только от размера текста и от мощности алфавита, а не от содержания. Поэтому нельзя сравнивать информационные объемы текстов, написанных на разных языках, по размеру текста.
Пример:
Считая, что каждый символ кодируется одним байтом, оцените информационный объем следующего предложения:Белеет Парус Одинокий В Тумане Моря Голубом!
Решение.
Так как в предложении 44 символа (считая знаки препинания и пробелы), то информационный объем вычисляется по формуле:
V=44⋅1 байт=44 байта=44⋅8 бит=352 бита