Единицы количества информации: вероятностный и объемный подходы
Определить понятие «количество информации» довольно сложно. В решении этой проблемы существуют два основных подхода. В конце 40-х годов XX века один из основоположников кибернетики, американский математик Клод Шеннон, развил вероятностный подходк измерению количества информации, а работы по созданию ЭВМ привели к «объемному» подходу.
Вероятностный подход
Рассмотрим в качестве примера опыт, связанный с бросанием правильной игральной кости, имеющей N граней. Результаты данного опыта могут быть следующие: выпадение грани с одним из следующих знаков: 1, 2, ..., N
Численная величина, измеряющая неопределенность — энтропия(обозначим Н). В случае равновероятного выпадания каждой из граней величины N и Н связаны между собой формулой Хартли Н = log2N.Очевидно, Н = 1 при N = 2. В качестве единицы принимается количество информации, связанное с проведением опыта, состоящего в получении одного из двух равновероятных исходов (примером такого опыта может служить бросание монеты, при котором возможны два исхода: «орел», «решка»). Такая единица количества информации называется «бит».
В случае, когда вероятности Р неодинаковы, имеет место формула Шеннона:
где Pi – вероятность того, что система находится в i-м состоянии.
Для случая, когда все состояния системы равновероятны, т.е. их вероятности равны , ее энтропия определяется соотношением.
Часто информация кодируется числовыми кодами в той или иной системе счисления, особенно это актуально при представлении информации в компьютере. Естественно, что одно и то же количество разрядов в разных системах счисления может передать разное число состояний отображаемого объекта, что можно представить в виде соотношения
где N – число всевозможных отображаемых состояний;
т – основание системы счисления (разнообразие символов, применяемых в алфавите);
п – число разрядов (символов) в сообщении.
Пример 3. По каналу связи передается n-разрядное сообщение, использующее т различных символов. Так как количество всевозможных кодовых комбинаций будет N = mn, то при равновероятности появления любой из них количество информации, приобретенной абонентом в результате получения сообщения, будет I = logN = п log т – формула Хартли.
Пример 4. Определим количество информации, связанное с появлением
каждого символа в сообщениях, записанных на русском языке. Русский алфавит состоит из 33 букв и знака «пробел» для разделения слов. По формуле Хартли Н = log2 34 = 5,09 бит.
Рассмотрим алфавит, состоящий из двух знаков 0 и 1. Если считать, что со знаками 0 и 1 в двоичном алфавите связаны одинаковые вероятности их появления
(Р(0) = Р(\) = 0,5), то количество информации на один знак при двоичном кодировании будет равно Н = log22 = 1 бит.
Объемный подход
В двоичной системе счисления знаки 0 и 1 называют битами(bit — от английского выражения Binary digiTs — двоичные цифры). В компьютере бит является наименьшей возможной единицей информации. Объем информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации, подсчитывается просто по числу требуемых для такой записи двоичных символов.
Так, двоичное слово из восьми знаков содержит один байт информации.1024 байта образуют килобайт (Кбайт), 1024 килобайта — мегабайт (Мбайт), а 1024 мегабайта — гигабайт (Гбайт).
1 байт=8 бит
1 Кбайт=1024 байт
1 Мбайт=1024Кбайт
1 Гбайт=1024Мбайт.
Таблица 1. Двоичные совокупности
Количество двоичных разрядов в группе | 8*1024 | 8*10242 | 8*10243 | 8*10244 | |||
Наименование единицы измерения | Бит | Байт | Параграф | Килобайт (Кбайт) | Мегабайт (Мбайт) | Гигабайт (Гбайт) | Терабайт (Тбайт) |
Последовательность нескольких битов или байтов часто называют полем данных. Биты в числе (в слове, в поле и т.п.) нумеруются справа налево, начиная с 0-го разряда.
В ПК могут обрабатываться поля постоянной и переменной длины.
Поля постоянной длины:
слово – 2 байта двойное слово – 4 байта
полуслово – 1 байт расширенное слово – 8 байт
слово длиной 10 байт – 10 байт
Кодирование информации
Кодирование-это выражение данных одного типа через данные другого типа.
Пример 5.
· языки - кодирование мыслей речью;
· азбуки – кодирование компонентов языка с помощью графических символов;
· морская флажковая азбука;
· телеграфная азбука и т.д.
Код строится на базе алфавита, состоящего из букв, цифр и других символов. Код характеризуется:
· длиной – число позиций в коде;
· структурой – порядок расположения в коде символов, используемых для обозначения классификационного признака.
Процедура присвоения объекту кодового обозначения называется кодированием.
Способ кодирования чисел называется системой счисления (СС). Система счисления– это способ наименования и изображения чисел с помощью символов, имеющих определенные количественные значения Системы счисления (СС) делятся на позиционные и непозиционные.
В позиционных системах счисления количественное значение каждой цифры зависит от ее места в числе.
Если Р- основание системы счисления, т.е. количество используемых цифр, то значения цифр в записи числа лежат в пределах от 0 до Р-1.. В общем случае запись любого смешанного числа в системе счисления с основанием Р будет представлять собой ряд вида:
где нижние индексы определяют местоположение цифры в числе (разряд):
§ положительные значения индексов – для целой части числа (т разрядов);
§ отрицательные значения – для дробной (s разрядов),
В непозиционной системе счисления цифры не меняют своего количественного значения при изменении их расположения в числе. Пользуемся позиционной СС-десятичной. Римская СС – непозиционная, т.е. каждый символ обозначает всегда одно и тоже число; Цифры обозначаются латинскими буквами:
I, V, X, L, C, D, M
(1, 5, 10, 50, 100, 500, 1000)
Например: XXX – 30; XLI - 41
В вычислительных машинах применяются две формы представления двоичных чисел:
§ естественная форма или форма с фиксированной запятой (точкой);
§ нормальная форма или форма с плавающей запятой (точкой).
С фиксированной запятой все числа изображаются в виде последовательности цифр с постоянным для всех чисел положением запятой, отделяющей целую часть от дробной.
В десятичной системе счисления имеются 5 разрядов в целой части числа (до запятой) и 5 разрядов в дробной части числа (после запятой); числа, записанные в такую разрядную сетку, имеют вид:
+00721,35500; +00000,00328; -10301,20260.
Эта форма наиболее проста, естественна, но имеет небольшой диапазон представления чисел и поэтому не всегда приемлема при вычислениях.
С плавающей запятой каждое число изображается в виде двух групп цифр. Первая группа цифр называется мантиссой, вторая – порядком, причем абсолютная величина мантиссы должна быть меньше 1, а порядок – целым числом. В общем виде число в форме с плавающей запятой может быть представлено так:
где М – мантисса числа
r – порядок числа ( r – целое число);
Р – основание системы счисления.
Алгоритм перевода чисел из десятичной системы счисления в систему с основанием Р>1.:
1) если переводится целая часть числа, то она делится на Р, после чего запоминается остаток от деления. Полученное частное вновь делится на Р, остаток запоминается. Процедура продолжается до тех пор, пока частное не станет равным
нулю. Остатки от деления на Р выписываются в порядке, обратном их получению;
2) если переводится дробная часть числа, то она умножается на Р, после чего целая часть запоминается и отбрасывается. Вновь полученная дробная часть умножается на Р и т.д. Процедура продолжается до тех пор, пока дробная часть не
станет равной нулю. Целые части выписываются после двоичной запятой в порядке их получения. Результатом может быть либо конечная, либо периодическая двоичная дробь. Поэтому, когда дробь является периодической, приходится обрывать умножение на каком-либо шаге и довольствоваться приближенной записью исходного числа в системе с основанием Р.
Десятичнаясистема счисления
• Основание системы – число 10;
• Содержит 10 цифр: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9;
• Любое десятичное число можно представить в виде суммы степеней числа 10 – основания системы;
Двоичнаясистема счисления имеет основание Р=2 и использует для представления информации всего две цифры: 0 и 1.
• Основание системы – 2;
• Содержит 2 цифры: 0; 1;
• Любое двоичное число можно представить в виде суммы степеней числа 2 – основания системы;
• Примеры двоичных чисел: 11100101; 10101;
1. Пправило перехода из десятичной СС в двоичную СС:
• Разделить десятичное число на 2. Получится частное и остаток.
• Частное опять разделить на 2. Получится частное и остаток.
• Выполнять деление до тех пор, пока последнее частное не станет меньшим 2.
• Записать последнее частное и все остатки в обратном порядке. Полученное число и будет двоичной записью исходного десятичного числа.
Пример.
Задание № 1:
Перевести данное число из десятичной системы счисления в двоичную
(получить пять знаков после запятой в двоичном представлении).
а) 341; 125; 1024; 4095; б) 380,1875(10).
Правило перехода из двоичной системы счисления в десятичную.
Для перехода из двоичной системы счисления в десятичную необходимо двоичное число представить в виде суммы степеней двойки и найти ее десятичное значение.
Пример:
Задание № 2:
Двоичные числа 1011001, 11110, 11011011 перевести в десятичную систему.
Восьмеричная СС
• Основание системы – 8;
• Содержит 8 цифры: 0; 1; 2; 3; 4; 5; 6; 7;
• Любое восьмеричное число можно представить в виде суммы степеней числа 8 – основания системы;
• Примеры восьмеричных чисел: 2105; 73461;
Правило перехода из десятичной системы счисления в восьмеричную
• Разделить десятичное число на 8. Получится частное и остаток.
• Частное опять разделить на 8. Получится частное и остаток.
• Выполнять деление до тех пор, пока последнее частное не станет меньшим 8.
• Записать последнее частное и все остатки в обратном порядке. Полученное число и будет восьмеричной записью исходного десятичного числа.
Примеры:
Задание № 3:
Десятичные числа 421, 5473, 1061 перевести в восьмеричную систему.
Правило перехода из восьмеричной системы счисления в десятичную.
Для перехода из восьмеричной системы счисления в десятичную необходимо восьмеричное число представить в виде суммы степеней восьмерки и найти ее десятичное значение.
Задание № 4:
Восьмеричные числа 41, 520, 306 перевести в десятичную систему
При программировании иногда используется шестнадцатеричная система счисления, перевод чисел из которой в двоичную систему счисления весьма прост – выполняется поразрядно (полностью аналогично переводу из двоично-десятичной системы). Для изображения цифр, больших 9, в шестнадцатеричной системе счисления применяются буквы А = 10, В = 11, С = 12, D = 13, Е = 14, F = 15.
• Основание системы – 16;
• Содержит 16 цифр: от 0 до 9; A; B; C; D; E; F;
• Любое шестнадцатеричное число можно представить в виде суммы степеней числа 16 – основания системы;
• Примеры шестнадцатеричных чисел: 21AF3; B09D;