Классификация мер информации

Для измерения информации вводятся два параметра: количество информации I и объем данных Vд

Эти параметры имеют разные выражения и интерпретацию в зависимости от рассматриваемой формы адекватности. Каждой форме адекватности соответствует своя мера количества информации и объема данных (рис. 1.4).

Рис. 1.4. Меры информации

Синтаксическая мера информации. Эта мера количества информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту.

Объем данных Vд, в сообщении измеряется количеством символов (разрядов) в этом сообщении. В различных системах счисления один разряд имеет различный вес и соответственно меняется единица измерения данных:

1) в двоичной системе счисления единица измерения – бит (bit binary digit – двоичный разряд). Бит - это ответ на один двоичный вопрос («да» или «нет»; «О» или «1»), передаваемый по каналам связи с помощью сигнала. Таким образом, содержащееся в сообщении количество информации в битах определяется количеством двоичных слов естественного языка, количеством знаков в каждом слове, количеством двоичных сигналов, необходимых для выражения каждого знака.

Бит – слишком мелкая единица измерения. На практике чаще применяется более крупная единица – байт, равная восьми битам. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=28).

Широко используются также ещё более крупные производные единицы информации:

1 Килобайт (Кбайт) = 1024 байт

1 Мегабайт (Мбайт) = 1024 Кбайт

1 Гигабайт (Гбайт) = 1024 Мбайт

В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:

/ Терабайт (Гбайт) = 1024 Гбайт

1 Петабайт (Пбайт) = 1024 Тбайт

2) за единицу информации можно было бы выбрать количество информации, необходимое для различения, например, десяти равновероятных сообщений. Это будет не двоичная (бит), а десятичная (дит) единица информации.

Количество информацииIна синтаксическом уровне невозможно определить без рассмотрения понятия неопределенности состояния системы (энтропии системы). Действительно, получение информации о какой-либо системе всегда связано с изменением степени неосведомленности получателя о состоянии этой системы, т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы. Рассмотрим это понятие.

Так, американский инженер Р. Хартли (1928 г.) процесс получения информации рассматривает как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации /, содержащееся в выбранном сообщении, определяет как двоичный логарифм N. Расчетная формула Хартли имеет вид:

I = log2N или 2I = N.

Если N= 2 (выбор из двух возможностей), то I = 1 бит.

Иногда формула Хартли записывается иначе. Так как наступление каждого из N возможных событий имеет одинаковую вероятность р = I/N, то N = 1/р и формула имеет вид

I=iog2(1/p)=-log2p.

Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: / = Iog2100 = 6,644. То есть сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единиц информации.

Приведем другие примеры равновероятных сообщений: при бросании монеты: «выпала решка», «выпал орел»; на странице книги: «количество букв чётное», «количество букв нечётное».

Определим теперь, являются ли равновероятными сообщения «первой выйдет из дверей здания женщина» и «первым выйдет из дверей здания мужчина». Однозначно ответить на этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.

Для задач такого рода американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

Формула Шеннона выглядит следующим образом:

I=-(p1 Iog2 p1 +p2 Iog2p2 + . . . +pNlog2pN),

I

где pi – вероятность того, что именно i-e сообщение выделено в наборе из N сообщений.

Легко заметить, что если вероятности p1, ..., pN равны, то каждая из них равна 1/N, и формула Шеннона превращается в формулу Хартли.

Рассмотрим следующую ситуацию. Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе α. Мерой его неосведомленности о системе является функция Н(α), которая в то же время служит и мерой неопределенности состояния системы.

После получения некоторого сообщения β получатель приобрел некоторую дополнительную информацию Iβ(α), уменьшившую его априорную неосведомленность так, что апостериорная (после получения сообщения β) неопределенность состояния системы стала Hβ(α).

Тогда количество информации Iβ(α)о системе, полученной в сообщении β, определится как:

Iβ(α) = H(α) - Hβ(α)

т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы.

Если конечная неопределенность Hβ(α)обратится в нуль, то первоначальное неполное знание заменится полным знанием и количество информации Iβ(α) = H(α). Иными словами, энтропия системы H(α)может рассматриваться как мера недостающей информации.

Энтропия системы H(α), имеющая N возможных состояний, согласно формуле Шеннона, равна:

где Pi – вероятность того, что система находится в i-м состоянии.

Для случая, когда все состояния системы равновероятны, т.е. их вероятности равны Pi = 1/N, ее энтропия определяется соотношением

Часто информация кодируется числовыми кодами в той или иной системе счисления, особенно это актуально при представлении информации в компьютере. Естественно, что одно и то же количество разрядов в разных системах счисления может передать разное число состояний отображаемого объекта, что можно представить в виде соотношения

N=mn

где N–число всевозможных отображаемых состояний;

т – основание системы счисления (разнообразие символов, применяемых в алфавите);

п – число разрядов (символов) в сообщении.

Пример. По каналу связи передается п-разрядное сообщение, использующее т различных символов. Так как'количество всевозможных кодовых комбинаций будет N= тn, то при равновероятности появления любой из них, количество информации, приобретенной абонентом в результате получения сообщения, будет I= log N = n log тформула Хартли. Если в качестве основания логарифма принять т, то I=n. В данном случае количество информации (при условии полного априорного незнания абонентом содержания сообщения) будет равно объему данных I = Vд, полученных по каналу связи. Для неравновероятных состояний системы всегда I < Vд =n.

Наиболее часто используются двоичные и десятичные логарифмы. Единицами измерения в этих случаях будут соответственно бит и дит.

Коэффициент (степень) информативности (лаконичность) сообщения определяется отношением количества информации к объему данных, т.е.

Y= I/Vд, причем 0 < Y < 1

С увеличением Y уменьшаются объемы работы по преобразованию информации (данных) в системе, поэтому стремятся к повышению информативности, для чего разрабатываются специальные методы оптимального кодирования информации.

Семантическая мера информации.Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие тезаурус пользователя.

Тезаурус – это совокупность сведений, которыми располагает пользователь или система.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя Spизменяется количество семантической информации Ic воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан на рис. 1.5. Рассмотрим два предельных случая, когда количество семантической информации Icравно 0:

1) при Sp = 0 пользователь не воспринимает, не понимает поступающую информацию;

2) при Sp = ∞ пользователь все знает, и поступающая информация ему не нужна.

Максимальное количество семантической информации Ic потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом Sp (Sp = Sp opt), когда поступающая информация понятна пользователю и несет ему ранее неизвестные (отсутствующие в его тезаурусе) сведения.

Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным (семантический шум) для пользователя некомпетентного.

Рис. 1.5. Зависимость количества семантической информации, воспринимаемой потребителем, от его тезауруса

Ic=f(SP)

При оценке семантического (содержательного) аспекта информации необходимо стремиться к согласованию величин S и Sp.

Относительной мерой количества семантической информации может служить коэффициент содержательности С, который определяется как отношение количества семантической информации к ее объему.

Прагматическая мера информации.Эта мера определяет полезность информации для достижения пользователем поставленной цели. Эта мера - также величина относительная, обусловленная особенностями использования этой информации в той или иной системе.

В экономической системе прагматические свойства информации можно определить приростом экономического эффекта функционирования, достигнутым благодаря использованию этой информации для управления системой:

I(γ)=П(γ/Р)-П(γ),

где I(γ) – ценность информационного сообщения β для системы управления γ,

П(γ) – априорный ожидаемый экономический эффект функционирования системы управления у,

П(γ/Р)-ожидаемый эффект функционирования системы γпри условии, что для управления использована информация, содержащаяся в сообщении β.

Для сопоставления введенные меры информации представим в табл. 1.1.

будет

Таблица 1.1.