МЕТОДЫ ИЗМЕРЕНИЯ КОЛИЧЕСТВА И КАЧЕСТВА
ИНФОРМАЦИИ
Для теоретической информатики информация играет такую же роль, как и вещество в физике. И подобно тому, как веществу можно приписывать довольно большое количество различных характеристик (массу, заряд, объем и так далее), для информации также можно подобрать набор некоторых характеристик. Каждую из характеристик вещества можно измерить, используя предусмотренные для нее единицы измерения. Например, массу принято измерять в килограммах, заряд – в Кулонах, объем – в м3. Аналогичным образом для характеристик информации также имеются единицы измерения, что позволяет некоторой порции информации приписывать числа – количественные характеристики информации.
В настоящее время различают три основных меры информации: синтаксическая, семантическая и прагматическая.
Синтаксические меры информации. При данном подходе различают количество информации и объем данных.
Объем данных в сообщении измеряется количеством символов (разрядов) принятого алфавита в этом сообщении.
Часто информация кодируется числовыми кодами в той или иной системе счисления. Естественно, что одно и то же количество разрядов в разных системах счисления может передать разное число состояний отображаемого объекта.
Действительно,
N = mn,
где N — число всевозможных отображаемых состояний;
т — основание системы счисления (разнообразие символов, применяемых в
алфавите);
п — число разрядов (символов) в сообщении.
Поэтому в различных системах счисления один разряд имеет различный вес, и соответственно, меняется единица измерения данных. Так, вдвоичной системе счисления единицей измерения служитбит (binary digit, двоичный разряд), в десятичной системе счисления – дат (десятичный разряд).
В вычислительной технике все обрабатываемые и хранимые данные, вне зависимости от их природы (числа, текст, изображение), представляются в двоичной форме. Это связано с тем, что в техническом устройстве наиболее просто реализовать два противоположных физических состояния (например, конденсатор заряженный или незаряженный, магнитный носитель информации намагниченный или ненамагниченный, транзисторный ключ открыт или заперт и т.д.). Следовательно, минимальной единицей измерения объема данныхявляется бит данных.Один бит данных – это один двоичный символ (0 или 1). Единицами измерения большего объема данных являются:
байт = 8 бит;
Кбайт= 210 байт = 1024 байт;
Мбайт = 220 байт = 1024 Кбайт;
Гбайт =230 байт = 1024 Мбайт.
Объем данных, записанных двоичными знаками в памяти компьютера или на внешнем носителе информации, подсчитывается просто по количеству требуемых для такой записи двоичных символов.
Таким образом, объем данных в сообщении представляет собой количество двоичных символов в этом сообщении.
Определениеколичества информации на синтаксическом уровне невозможно без рассмотрения понятия неопределенностисостояния системы (энтропии системы). Действительно, получение информации связано с изменением степени неосведомленности получателя о состоянии системы (объекта, процесса). До получения информации получатель мог иметь некоторые предварительные (априорные) сведения о системе a; мера неосведомленности о системе – Н(a) и является для него мерой неопределенности состояния системы. После получения некоторого сообщения b получатель приобрел дополнительную информацию Ib(a), уменьшившую его априорную неосведомленность так, что апостериорная (после получения сообщения b) неопределенность состояния системы стала Н(a/b). Тогда количество информации Ib(a) о системе a, полученное в сообщении b, будет определено как:
Ib(a ) = H(a) – H(a/b).
Таким образом, количество информации измеряется изменением (уменьшением) неопределенности состояния системы. Если конечная неопределенность H(a/b) обратится в нуль, то первоначальное неполное знание заменится полным знанием и количество информации
Ib(a) = H(a).
Иными словами, энтропия системы Н(a) может рассматриваться как мера недостающей информации. Энтропия системы Н(a), имеющей N возможных состояний, согласно формуле Шеннона равна
(1)
где Рi – вероятность того, что система находится в i-ом состоянии;
N – число возможных состояний системы.
Если все N исходов являются равновероятными, то в этом случае Рi = 1/N и, следовательно, энтропия равна
H(a) = log 2 N.
Количество информации в сообщении определяется тем, насколько уменьшится энтропия после получения сообщения.
Единицей количества информации в данном случае является «бит».
Рассмотрим пример. Пусть имеется колода из 32 различных карт. Необходимо угадать, какая карта выбрана из колоды. Для этого достаточно задать
H = log 2 32 = 5 вопросов. Например:
1. Карта красной масти? Ответ: нет.
2. Трефы? Ответ: нет.
3. Одна из четырех старших? Ответ: да.
4. Одна из двух самых старших? Ответ: нет.
5. Дама? Ответ: да.
Следовательно, угадываемой картой является дама пик.
Таким образом, полученная оценка характеризует число двоичных вопросов, ответы на которые могут быть односложными: «да» или «нет» (1 или 0).
Семантическая мера информации. Синтаксические меры количества информации в общем случае не могут быть непосредственно использованы для измерения смыслового содержания, ибо имеют дело с обезличенной информацией, не выражающей смыслового отношения к объекту. Для измерения смыслового содержания информации, то есть ее количества на семантическом уровне, наибольшее признание получила тезаурусная мераинформации, предложенная Ю.И. Шнейдером, которая связывает семантические свойства информации со способностью пользователя воспринимать поступившее сообщение. При этом используется понятие тезаурус пользователя.
Тезаурус можно трактовать как совокупность сведений, которыми располагает данная система, пользователь.
В зависимости от соотношений между смысловым содержанием информации – S*и тезаурусом пользователя – Sп, изменяется количество семантической информации Ic, воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус:
- при Sп»0 пользователь не воспринимает, не понимает поступающую информацию;
- при Sп ® ¥ пользователь все знает и поступающая информация ему не нужна. И в том и в другом случае Ic »0.
Максимальное значение Ic приобретает при согласовании S*с тезаурусом Sп (рисунок 1), когда поступающая информация понятна пользователю и несет ему ранее не известные (отсутствующие в его тезаурусе) сведения.
Рисунок 1 – Зависимость Ic = f(Sn)
Следовательно, количество семантической информации в сообщении (количество новых знаний, получаемых пользователем) является величиной относительной: одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным – семантическим шумом – для пользователя некомпетентного. В то же время понятная, но известная компетентному пользователю информация представляет собой для него тоже семантический шум. При разработке информационного обеспечения систем управления следует стремиться к согласованию величин S* и Sп так, чтобы циркулирующая в системе информация была понятна, доступна для восприятия и обладала наибольшей содержательностью S, определяемой из соотношения
S = Ic / Vд, (2)
где Vд – объем поступивших данных.
Прагматическая мера информации. Прагматическая мера информации – это полезность информации, ее ценность для пользователя (управления). Эта мера также является величиной относительной, обусловленной особенностями использования информации в той или иной системе управления. Ценность информации целесообразно измерять в тех же самых единицах (или близких к ним), в которых измеряется целевая функция управления системой.
Тогда в системе управления производством, например, ценность информации определяется эффективностью осуществляемого на ее основе экономического управления, или, иначе, приростом экономического эффекта функционирования системы управления, обусловленным прагматическими свойствами информации:
Iпb(a) = П(a/b) – П(a), (3)
где Iпb (a) – ценность информационного сообщения b для системы управления a;
П(a) – априорный ожидаемый экономический эффект функционирования системы управления a;
П(a/b) – ожидаемый эффект функционирования системы a при условии, что для управления будет использована информация, содержащаяся в сообщении b.
Поскольку экономический эффект функционирования системы управления складывается из экономического эффекта решения отдельных функциональных задач, то для вычисления Iп следует определить:
Zb – множество задач, для решения которых используется информация b;
F – частоту решения каждой задачи за период времени, для которого оценивается экономический эффект;
Rb – степень влияния информационного сообщения b на точность решения задачи, 0 < R < 1.
Тогда
(4)
где Пj – экономический эффект от решения j-ой задачи в системе.
В такой постановке единицей измерения ценности экономической информации является рубль.
Информация в системе управления является и предметом труда, и продуктом труда, поэтому от ее качества существенно зависят эффективность и качество функционирования системы.
Качество информации можно определить как совокупность свойств, обусловливающих возможность ее использования для удовлетворения определенных в соответствии с ее назначением потребностей.
Возможность и эффективность использования информации для управления обусловливается такими ее потребительскими показателями качества, как репрезентативность, содержательность, достаточность, доступность, своевременность, устойчивость, точность, достоверность, актуальностьиценность.
Репрезентативность – правильность, качественная адекватность отражения заданных свойств объекта. Репрезентативность информации зависит от правильности ее отбора и формирования. Нарушение репрезентативности информации приводит нередко к существенным ее погрешностям, называемым чаще всего алгоритмическими.
Содержательность информации – это ее удельная семантическая емкость, равная отношению количества семантической информации в сообщении к объему данных, его отображающих, то есть S = Ic / Vд. С увеличением содержательности информации растет семантическая пропускная способность информационной системы, так как для передачи одних и тех же сведений требуется преобразовывать меньший объем данных.
Достаточность (полнота) экономической информации означает, что она содержит минимальный, но достаточный для принятия правильного управленческого решения набор экономических показателей. Понятие достаточности информации связано с ее смысловым содержанием (семантикой) и прагматикой. Как неполная, то есть недостаточная для принятия правильного решения, так и избыточная информация снижают эффективность управления; наивысшим качеством обладает именно полная информация.
Доступность информации для восприятия при принятии управленческого решения обеспечивается выполнением соответствующих процедур ее получения и преобразования. Так, назначением вычислительной системы и является увеличение ценности информации путем согласования ее с тезаурусом пользователя, то есть преобразование ее к доступной и удобной для восприятия пользователем форме.
Актуальность информации – это свойство информации сохранять свою полезность (ценность) для управления во времени.
Актуальность зависит от статистических характеристик отображаемого объекта (от динамики изменения этих характеристик) и от интервала времени, прошедшего с момента возникновения данной информации.
Своевременность –это свойство информации, обеспечивающее возможность ее использования в заданный момент времени. Несвоевременная информация приводит к экономическим потерям и в сфере управления, и в сфере производства. Причиной, обусловливающей экономические потери от несвоевременности в сфере управления, является нарушение установленного режима решения функциональных задач, а иногда и их алгоритмов. Это приводит к увеличению стоимости решения вследствие снижения ритмичности, увеличения простоев и сверхурочных работ и т. п. в сфере материального производства. Потери от несвоевременности информации связаны со снижением качества управленческих решений, принятием решения на базе неполной информации или информации некачественной.
Точность информации – это степень близости отображаемого информацией значения и истинного значения данного параметра.
Достоверность информации – свойство информации отражать реально существующие объекты с необходимой точностью.
Устойчивость информации – свойство результатной информации реагировать на изменения исходных данных, сохраняя необходимую точность.
Ценность экономической информации определяется эффективностью осуществляемого на ее основе экономического управления.