Единицы количества информации

Читая газеты и журналы, смотря телепередачи, каждый из вас впитывает информацию. В житейском смысле под информацией понимают сведения, знания, события... И чем интереснее сообщаемые сведения, тем больше информации в них содержится.

Не случайно наиболее содержательные телепередачи носят название "информационные". Но лишь на такое понимание информации опираться нельзя. Поэтому, говоря о восприятии информации человеком, нужно помнить, что количество информации существенно зависит от уровня ее понимания и интереса к ней. При этом понимание полученной нами информации сильно зависит от наших знаний. Так, телеграмма, полученная от вашей тети, может содержать одно слово "еду".

Человек, не располагающий всеми перечисленными сведениями, не поймет это сообщение. Итак, с житейской точки зрения количество информации мало связано с текстом, содержащим эту информацию. Но развитие разнообразных средств автоматической передачи, хранения и переработки информации потребовало ввести количественную меру информации, не зависящую от субъективного человеческого восприятия.

Когда речь идет об автоматической передаче информации, ее хранении и переработке, информация - это произвольная последовательность символов, т.е. любое слово. Слово в информатике - это произвольная последовательность символов некоторого алфавита, которым может служить любое множество символов.

Знаковая форма восприятия, хранения и передачи информации означает использование какого-либо языка. Языки делятся на разговорные (естественные) и формальные. Естественные языки носят национальный характер. Формальные языки чаще всего относятся к специальной области человеческой деятельности (например, язык математики, химии и т.п.). Основа любого языка - алфавит, т.е. конечный набор знаков (символов) любой природы, из которых конструируются сообщения на данном языке. Простейшим алфавитом, достаточным для записи (представления) информации, является алфавит из двух символов, допустим 0 и 1.

Итак, информацией становится последовательность символов, т.е. любое слово. Число символов в слове называется его длиной. Каждый новый символ увеличивает количество информации, представленной последовательностью символов выбранного алфавита.

Как же измерить количество информации? Прежде всего нужно выбрать эталон. Например, долгое время эталоном длины служил платиново-иридиевый стержень длиной 1 метр. А сейчас эталон - длина волны излучения газа криптон-86. Эталонным для подсчета количества информации, представленной последовательностью символов, логично считать слово минимальной длины, т.е. состоящего из одного символа. Какое же слово взять в качестве эталона количества информации? Если мы конструируем сообщения, используя двузначный алфавит из двух цифр 0 и 1, то любая из них может стать эталонной единицей количества информации. Эталонным считается слово, состоящее из одного символа такого алфавита. Количество информации, содержащемся в этом слове, принимают за единицу, называемую битом.

Имея эталон количества информации, надо теперь научиться сравнивать любое слово с эталоном. Проще всего сравнивать с эталоном те слова, которые записаны в том же двухсимвольном алфавите. Количество информации, заключенной в таком слове, полагают равным его длине. Чтобы измерить количество информации в произвольном слове, его кодируют в двухсимвольном алфавите, а затем находят длину получившегося слова. Разумеется, количество информации при таком определении зависит от способа кодирования. Если способ кодирования зафиксирован, то количество информации в сообщении определяется однозначно.

В современных ЭВМ каждый вводимый в машину символ кодируется словом длины 8 в двухсимвольном алфавите. Для удобства введены более крупные, чем бит, единицы количества информации. Восемь бит информации называют байтом. Байт - единица количества информации в Международной системе СИ. Значит, вводя в ЭВМ символ, вы передаете машине 1 байт информации. Количество информации в 1024 байта называется килобайтом и обозначается буквой К. Один мегабайт – это 1024 К.

Выбор двухсимвольного алфавита для кодирования информации в ЭВМ объясняется тем, что электронные элементы, из которых строились и строятся ЭВМ, могут находиться только в двух хорошо различимых устойчивых рабочих состояниях. По существу, эти элементы представляют собой обычные выключатели. Как известно, выключатель может быть либо включен, либо выключен. Отличие электронного выключателя от выключателя настольной лампы состоит в том, что электронном выключателе нет механических движущихся частей и, переключается он не рукой, а электрическим сигналом от другого выключателя. Время переключения поэтому оказывается очень малым, порядка 10 в минус девятой степени секунд. Одно из состояний выключателя обозначают цифрой 1, другое цифрой 0.

Рассмотрим поподробнее основные единицы машинной информации. Итак, в ЭВМ информация кодируется с помощью последовательности сигналов двух видов: включено или выключено, высокое или низкое напряжение и т.д. Принято обозначать одно состояние цифрой 0, а другое - цифрой 1. Напоминаем, что такое кодирование называется двоичным кодированием, а цифры 0 и 1 называются битами (от английского bit - binary digit - двоичная цифра). Для представления символов алфавита (вообще, любого символа, напечатанного с помощью клавиатуры компьютера) используется более крупная величина - байт (от английского слова byte).

 
 
1 байт = 8 бит

 

 


Наряду с битами и байтами для измерения количества информации используются и более крупные единицы: килобайт, мегабайт и гигабайт.

 
 
1 Кбайт = 1024 байт @1000 байт 1 Мбайт = 1048576 байт @ 1000000 байт 1 Гбайт = 1073741824 байт @ 1000000000 байт

 

 


Пример. Считается, что на странице листа бумаги (размер А4) умещается 2000 символов (40 строк по 50 символов). Нетрудно подсчитать, что количество информации на странице такого листа бумаги составляет 2000 байт или 16000 бит, или, приблизительно, объем такого информационного сообщения равен 2 Кбайт.

Пример. Печатающее устройство печатает 100 символов за одну секунду. Сколько потребуется времени на распечатку текста, содержащего 12 Кбайт информации? 100 символов составляют 100 байт информации. Т.к. 12 Кбайт приблизительно равны 12000 байт, имеем, что время распечатки равно 120 секунд или 2 минуты.

Пример. Ученик написал домашнее изложение объемом в 5 Кбайт. Сколько страниц текста были написаны учеником? Мы знаем, что 1 страница содержит 2000 байт (2 Кбайт) информации. 5 Кбайт составляют 5000 байт. Следовательно, ученик написал домашнее изложение объемом в 2.5 страницы.