Виды и свойства информации

 

Виды информации

Существует несколько способов делить информацию на виды. Одним из самых распространенных является деление информации в компьютерных науках на

· символы,

· изображения,

· звуки.

Это деление имеет в своей основе приёмы записи и обработки информации в компьютере, но используется и за пределами компьютерных наук.

К символам относятся цифры и знаки математических операций, буквы нескольких алфавитов – строчные и заглавные, знаки препинания и скобки, специальные значки (проценты, доллар, параграф, имперсант и др.), а также практически забытые элементы псевдографики. Символы соответствуют кодам (числам) от 000 до 255 (256=28). Символы – самый простой вид информации для компьютера, их изображение зашито в микросхемы; оно сверхбыстро вызывается и обрабатывается.

Изображение (говорят также «графика») основана на записи в виде чисел растра (малого элементы монитора). Растр записывается в виде цвета (три числа) и места на мониторе (ещё два числа). К изображениям относятся рисунки штриховые и кистевые (чёрно-белые и цветные), фотографии, негативы и позитивы, графические элементы (пятна, полосы, закраска, виньетки и пр.). Из-за большого количества растров работа с изображениями требует повышенных ресурсов компьютера по скорости работы и величине памяти.

Звук дискретизируется по времени (тысяча и более дискретных промежутков в секунду), а также для каждого момента указываются амплитуда и частота звука. В результате звук не оказывается большим бременем для компьютера, например, можно спокойно слушать музыку и работать с текстом.

Видеоинформация (с цветом, движением, звуком; она также называется медийной) не является отдельным видом информации – это комбинация трёх вышеперечисленных основных видов.

Такая информация считается основной в XXI веке, а, например, газеты, радио, чёрно-белое телевидение – усечёнными формами.

Видеоинформация основана на демонстрации быстро сменяющих друг друга изображений, каждое из которых обычно мало отличается от предыдущего. За счёт эффекта инерции в глазе человека уже при показе 10 кадров в сек. человек видит движение. Различные системы используют скорость от 24 (в кино) до 60 (телевидение) кадров в секунду.

Среди компьютерных операций с видеоинформацией отметим видеомонтаж, покадровую обработку, снабжение титрами, цифровую перезапись и тиражирование, пересылку по компьютерным сетям. Излишне говорить, что основным видом видеоинформации является цифровой.

Наиболее известные некомпьютерные способы деления информации:

– по ощущениям человека (зрение, речь, запах, осязание, обоняние),

– используемое в СМИ деление на цифры, текст, изображения, видео, звук (видно, что это близко к компьютерному делению),

– по направлениям деятельности человека (информация в финансовом деле, в менеджменте, строительстве, полиграфии, гос.службе и т.д. – сотни областей).

Из интересных видов информации отметим жесты, боль, интонацию и, наконец, главное – совокупный образ реального мира в глазах человека. Понятно, что это составная, максимально усложнённая информация.

Свойства информации

Введём свойства информации на основе того, насколько информация удовлетворяет потребителя. Выделяются следующие качества:

Достоверность – соответствие информации реальности. Проверяется опытом, сопоставлением информации, сравнением с информацией, про которую известно, что она достоверна. Информация может искажаться непреднамеренно (например, помехи, заблуждения) и специально (дезинформация). Сомнения в достоверности информации – принцип научного исследования.

Полнота информации – включение в себя всего необходимого для решения поставленной задачи. Неполная и избыточная информация снижает эффективность её использования.

Объективность информации. – степень соответствия реальной ситуации. Полностью объективной информации не существует, она всегда зависит от метода получения, метода демонстрации (передачи) и мнения. Т.о. объективность – относительное понятие.

Актуальность информации – нужность информации именно сейчас, степень её соответствия ситуации и решаемым задачам в данный конкретный момент.

Выделяют также такие качества информации как

1) новизна – была ли данная информация ранее известна данному человеку или группе людей;

2) эмоциональность – вызов у человека определенных позитивных (или негативных) ощущений.

Информация может требовать подготовки к её восприятию, а может практически не требовать. Подготовкой обычно является обучение, образование.

Это ведёт к важному делению информация на данные и знания.

Заметим, что чёткое деление информации на данные и знания отсутствует.

Данные обычно определяют как факты простого вида, как простую, характеристику, позволяющую отличать схожие элементы, состояния, сигналы и пр. друг от друга (например, цифры в бухгалтерском отчете, фамилии в справочнике).

Знаниями называются сложные, составные, факты в их логической упорядоченности, охватывающие определенную область человеческой деятельности.

Эти области называются отраслевыми и профессиональными знаниями, ветвью знания, наукой. Для знаний характерно использование таких обобщённых (абстрактных) характеристик фактов как утверждения и суждения.

Абстрактность знаний означает их определенную оторванность от фактов реального мира. Это уровень «над фактами», он описывает свойства сразу многих схожих фактов. Соответствие знаний определенной области деятельности оказывается удобным для их логической упорядоченности, что особенно важно для обучения (предметы в школе, Вузе).

Понятие знаний ведёт к понятию образования и широкой связи образования с информацией. Многие полезные знания (т.е. информация) доступны только при достаточно высоком уровне образования.

Информация в технике – это значения физических величин, параметры сигналов, различные количества; чертежи, режимы работы, руководства и так далее. Условно можно оценить весь массив информации в техники как 75-80 % – это числа (в т.ч. в виде таблиц), 10-15 % – графика, 10-15 % – вербальная информация.

Информация в экономике – это, в первую очередь, натуральные и стоимостные показатели, а также многочисленные перечни и другие текстовые документы (накладные, договора, акты и пр.) В экономике велика роль числовых, и в меньшей степени вербальных таблиц (хотя такие есть, например, списки кадров). Смешанный вид – числа, таблицы, текст, иногда графика – имеют отчеты. Условно можно считать, что в экономике 60 % – числовой информации, 35-40 % – вербальной, до 5 % – графической.

Информация в сфере управления и социальной сфере примерносоответствует экономической.

Видео и аудио информация имеет вид электронной или магнитной записи, и, в основном, сосредоточена в Интернете, в телевидении и радио, в средствах развлечения (досуга), в личной информации.

Это далеко не полный перечень нужной человеку информации.

Излишне напоминать, что везде доминирует электронный вид.

В компьютерной работе с информацией необходимо иметь в виду её следующие стороны

· источник информации (откуда она взялась);

· суть информации, называемую обычно контентом – о чём она;

· форму записи информации, формат, понимаемый и как деление на символы, изображения, звук (п.3.2.1), и как особенности записи информации в конкретном пакете (форматы .txt, .doc, xcl, bmp и пр – сотни)

· потребитель информации (где она нужна, где требуется).

Контент является основным для потребителя, но мало интересует системщика и программиста. Их область интересов – формат. Он будет разным для математических вычислений, текстовых документов, работы с таблицами, изображениями, звуком (музыкой - отдельно), видео, для записи компьютерных программ и пр.

Отдельно необходимо сказать о защите информации. Её необходимо защищать:

- от случайного доступа и искажения, что не очень сложно;

- от несанкционированного доступа с целью изменения и использования, что породило самые различные способы защиты. Они включают в себя программные, аппаратные и организационные приёмы и методы.

Пароли, аппаратные средства под названием «шлюзы», правила допуска.

Необычное: изображения, текст и даже звук можно защищать встраивание невидимых в них объектов, что используется для доказательства нарушения авторских прав (стеганография).

 

Информация и компьютер

Компьютер – это недорогое, высокопроизводительное аппаратно-программное средство для работы с информацией.

Компьютер оставил далеко позади себя все остальные известные способы – бумагу (книги), счеты и арифмометр, пишущую машинку, запись на магнитной ленте, передачу информации на материальном носителе (включая почту, курьера) и пр.

Конкуренцию компьютеру составляет только человеческий мозг – по таким аспектам как

– постановка задач,

– принятие решения без жёсткой формализации,

– выбор в условиях неопределенности,

– действия без алгоритма (по интуиции),

– смена уровня и направления рассмотрения проблемы.

Ко всему этому надо добавить такие функции человека как решение об использовании компьютера, контроль работы компьютера, ремонт компьютера.

Но во всём, что касается рутинной работы с информацией (т.е. многократно повторяющейся, проводимой по известным и отлаженным алгоритмам) компьютер представляется недосягаемым.

Напомним принцип действия этого электронного средства.

В своей первичной основе компьютер представляет собой ячейки (сейчас более миллиарда для персонального компьютера), каждая из которых может находиться только в двух положениях. Обычно их определяют как «0» и «1», хотя по своей физической сути они определяются состояниями «намагничено ниже уровня a», «намагничено выше уровня b» (b >> a).

Именно при попадании в интервал [a, b] компьютер выдает сообщение, что он не может прочитать содержание ячейки. А если его попросить подлечить самого себя, то он меняет намагниченность ячейки до ближайшей границы (до a или b ).

По отношению к ячейкам компьютер выполняет всего две операции:

· может определить, что в ячейке – 0 или 1;

· может поменять в ячейке 0 на 1 или наоборот.

И всё. То огромное множество задач, которые решает современный компьютер, в конце концов, сводятся к этим элементарным операциям.

Бинарный вид состояния ячеек удобно соответствует двоичным числам (вот откуда «0» и «1»). В виде двоичного числа можно записать любое, в том числе, десятеричное число (например, 1010 = 10102, 12510 = 11111012.). Правило перевода в двоичную систему и обратно в десятеричную очень просты.

Отметим, что двоичная арифметика проще десятеричной, например, там умножение не сложнее сложения, а увеличение количества значащих цифр в числе для компьютера не является проблемой.

Кратко коснемся истории развития компьютера.

Возникнув в середине 40-х гг. XX века первые 12-15 лет своего существования он умел оперировать только с числами. Но уже при этом рассчитывал и полёт ракеты, и водородную бомбу. Прорыв произошел в конце 50-х гг., когда значки на печатной машинке (в расширенном варианте – см. символы в п.3.2.1) были закодированы числами от 000 до 255. Печатную машинку научили автоматически печатать посылаемый на неё код, и получился первый принтер.

Следующей стадией (начало 60-х гг. прошлого века) было освоение на компьютере работы с цветом. Это совпало с появлением экрана, ранее его у компьютера не было. Экран разбили на мелкие, невидимые человеческому глазу квадратики (растры) пускали туда 30 раз в секунду команды гореть или не гореть. Так возникла картинка, почти сразу двигающаяся. Идею показа цветной картинки на основе трёх базовых цветов взяли из цветного телевизора. По сути, цветной электронно-лучевой монитор – это три экрана в одном. В тот же период появилась клавиатура. Чуть позже возник и способ записывать звук.

Очередной революцией было распространение относительно дешёвых персональных компьютеров – для офиса, для дома (они появились в конце 70-х гг. XX века, но широко стали распространяться с середины 80-ых). Именно тогда с компьютерами познакомилось большинство людей.

Персональные компьютер очень быстро заменил две важные для цивилизованного мира вещи – печатную машинку и бухгалтерские счёты.

Последним большим продвижением в компьютерном мире считается глобальное распространение Интернета на рубеже XX - XXI веков. Хотя сам Интернет был ещё в конце 80-х гг., а его истоки относят к концу 60-х в США. Причём в России до середины 90-х Интернет конкурировал с аналогичными отечественными системами обмена информацией.

Сейчас Интернет определяется как всемирная сверхбыстрая и сверхдешёвая коммуникационная и справочная система. Она используется для ведения деловой и социальной активности, образования, развлечения. Работу без использования Интернета не мыслит себе ни один специалист. Отметим, что такое положение меняет образ жизни и мышление современного человека.

Подэтапами развития компьютерных технологий считаются:

– внедрение иконок – очень удобной формы вызова и работы с информацией (чёрно-белые – 70-80-ые, цветные – с 90-х);

– массовый переход к графическому интерфейсу (в России – середина 90-х), когда вместо 256 символов на экране стала видна гораздо более информативная и более приятная цветная картинка;

– широкое распространение жидкокристаллических мониторов, сделавших экран плоским и уменьшивших негативное влияние компьютера на человека (Россия – конец 90-х);

– появление удобных переносных компьютеров – ноутбуков (80-е гг., начало широкого распространения – 90-е).

Компьютер одинаков во всех областях человеческой деятельности. Именно это делает его относительно дешёвым. Более точно, един «hard» (железо) и системные программы. Пользовательские программы разные они отражают различие в видах информации и в решаемых задачах.

Компьютер обеспечивает переносинформации без искажений – за счёт побитовой перезаписи. Это – фундаментальное свойство цифровой записи в отличие от аналоговой формы.

Именно это свойство является основой перехода от известных аналоговых средств к цифровым. Появились цифровые фотоаппарат, видеокамера, телефон, магнитофон, телевизор, цифровые каналы связи, цифровое управление объектами и др.

 

Операции с информацией

 

Базовыми операциями с информацией считаются:

Хранение

Передача

преобразование.

Если информация отсутствует, то к этим операциям добавляется еще поиск и сбор информации. Здесь выделяются два направления:

1) Информация где-то имеется, её надо найти, до неё надо добраться.

2) Информация должна быть получена первично – снята с датчика, прибора, получена в эксперименте, наблюдаться человеческим глазом и др.

Считается, что сбор включают в себя такие элементы как регистрация на носителе и кодирование (переход на используемые далее форматы).

Вернемся к основному списку.

Хранениеинформациитребуется для того, чтобы она всегда была «под рукой» – информация нужна для оперативного, часто многократного использования. Хранение всегда имеет материальный носитель – на чём храниться. Хранение должно быть систематизировано, например, по предметным областям, по объектам, по характеристикам. Поэтому хранение часто носит иерархический характер. Требования к хранению: компактность; удобство вывода, быстрота доступа; долговременность; защищённость.

Основная современная единица хранения информации – компьютерная база данных (БД). В БД информация хранится совместно с правилами вызова. Работа с БД носит характер вопросов и ответов.

Современные БД хранят все виды информации – символы, изображения, звук. Суть БД как программы – быстрая работа с заранее расставленными в базе метками.

Современные БД, в т.ч. Интернет как база, имеют много ускоряющих поиск ухищрений.

Важный вопрос – заполнение БД и изменения в ней. Это достаточно деликатная операция, для неё обычно организовывается специальная служба. Часть информации может приходить в базу автоматически и занимать нужное место. Часть информации вводится переносом массивов или вручную с клавиатуры.

Передача. При передаче существуют понятия:

· отправителя (источника),

· получателя (адресата) ,

· канала передачи (способа связи).

Если всё это является техническими средствами, и они могут работать по заданным алгоритмам без человека, то передача называется автоматической.

Современные каналы связи: провода, радиоканалы, магнитный носитель. К ним дополняются такие каналы как почта, курьер, речь и др.

Потоком информации называется регулярная передача однотипной информации от конкретного источника конкретному адресату. Поток удобно автоматизировать.

Потоки информации чрезвычайно широко распространены. Мощный поток однотипной информации проходит через бухгалтерию. Важные потоки проходят через секретаря в организации. Потоки информации между организациями и отдельными лицами сейчас идут, в основном, через интернет-сети.

Вводится понятие мощность потока – это количество сигналов, сообщений и других единиц информации в единицу времени.

Основное деление по виду передачи соответствует делению информации на цифровую (битовую) и аналоговую.

Дополнительными характеристиками передачи являются: формат передачи (правила кодирования), наличие шифрования, дублирования, равномерность/неравномерность, уведомление о приёме, и пр.

· Переработка(преобразование) информации имеем очень много разновидностей.

Это сортировка, отбор/выбор, ранжирование, другие виды логического выбора, математические действия, обработка текста, построение графиков и диаграмм, обработка изображения и многое другое.

Один из самых интересных видов переработки – это превращение мыслеформ в голове человека в текст, изображение, звук.

Другие важные примеры переработки (преобразования) информации – обучение, фиксация успешных действий (накопление опыта), деятельность государственных и других органов, развитие науки и техники. Всё это говорит о том, что переработка информации – чрезвычайно важный для человечества процесс.

Формальные правила переработки информации называются алгоритмом.

Все преобразования с информацией происходят по одной схеме:

Исходная информация
Новая информация
Алгоритм

 


Алгоритм может включать действия человека.

Программой называется алгоритм в виде, воспринимаемый определённым исполнителем (в первую очередь, техническим средством).

Главным примером использования программ для нас является компьютер. Но это может быть и станок с программным (некомпьютерным) управлением, и робот с видеосистемой, и даже музыкальная шкатулка. Программу может исполнять и человек, например, действуя по жесткой инструкции на сборочном конвейере, при приготовлении пищи, на пожаре.

Понятия алгоритма и программы применимо и к такой операции с информацией – как передача.

 

Понятие энтропии

Посмотрим на информацию ещё с одной точки зрения.

Можно ли измерять информацию числом назависимо от ее природы? Для этого надо искать то, что имеется в любой информации:

– Информация уменьшает неопределенность.

–Информация продвигает ситуацию от хаоса к порядку.

Ешё в 30-е годы XX века было осознано, что единый подход к информации должен быть связан с вероятностью. Удачное определение информации на этой основе дал в 1948 году американский инженер и математик Клод Шеннон.

Пусть для события А существуют исходы (варианты осуществления) а1 а2 … аn и они реализуются с вероятностями p1 p2 … pn.

Имеем: ∑i pi=1, это аксиома введения вероятностей. Другая фундаментальная аксиома 0 ≤ pi ≤ 1. Они обеспечивают удобство работа с понятием вероятностей.

Шеннон ввёл понятие энтропийной информации, или просто энтропии события А по формуле:

IA = ∑i pi log2 (1/ pi) или, что то же самое, IA = i pi log2 (pi) .

Единица измерения информации [IA] названа битом.

Ещё раз: для введения энтропии должна быть построена модель:

1) рассмотрено вариативное событие А

2) введены возможные исходы события А: а1 а2 … аn

3) введены вероятности реализации исходов p1 p2 … pn.

Для бросания монеты имеем p1 = p2 = ½ и величина IA есть 1/2∙log2(2) +1/2∙log2(2) = 1 (один бит). Для равновероятных событий (pi равны) сумму можно заменить на количество исходов. При бросании шестигранного кубика имеем шесть равновероятных событий. Получаем: 6∙(1/6∙log2(6)) ≈ 2,6 бита информации.

Теперь бросим 8 монет. У нас 28 =256 равновероятных раскладов, как легли монеты: «орлом» или «решкой» Значит, после бросания 8 монет мы получим IA = 256∙(1/28∙log2(28)) = 8 бит информации.

Мы видим, что при увеличении количества исходов для равновероятных событий энтропия растет (ряд 1; 2.6; 8). Это трактуется как нарастание хаоса – из событий все более трудно что-либо выделить.

Ещё одна простая модель, в которой можно считать энтропию, – это «событие А либо произойдёт, либо не произойдёт». Пусть вероятность того, что оно произойдёт, есть p, тогда вероятность того, что не произойдёт, есть (1–p).

Имеем: энтропия IA = p log2 p (1p) log2 (1p). При p=0.1; 0.2; 0.4; 0.5; 0.6; 0.8; 0.9 получаем IA ≈0.47, ≈0.72, ≈0.97, =1; ≈0.97, ≈0.72, ≈0.47 . Обратим внимание на симметричность ряда она обеспечивается симметричностью событий с вероятностью p и (1p).

Построим другой важный для понимания энтропии ряд чисел. Пусть мы задаем некоторый вопрос, и в равной вероятности можем получить ответ «да» или «нет». Эта ситуация эквивалентна одному бросанию монеты или равной вероятности того, что событие произойдёт или не произойдёт. По формуле получаем IA=1, т.е. один бит информации. Пусть теперь вероятности ответов (или чего-то другого с двумя исходами) есть ¼ и ¾. Имеем IA = ¼∙log2(4) + ¾∙log2(4/3) ≈ 0.81 Аналогично для вероятностей 1/8 и 7/8 имеем IA ≈ 0.54 , а для вероятности 1/32 и 31/32 имеем IA ≈ 0.20. Получился ряд : (1, 0.81, 0.54, 0.20) , энтропия здесь становится всё меньше и меньше.

Если вероятность какого-либо исхода равна 1, то вероятность всех остальных исходов нулевая, т.к. ∑i pi = 1. В формуле Шеннона имеем один член в виде 1•log2(1)=1•0=0, а все остальные члены есть неопределённости 0•log2 (0) = 0 • ( ∞), Но эта неопределенность в теории пределов «раскрывается», и здесь 0 • ( ∞) = 0. Таким образом, энтропия IA события, в котором вероятность одного их исходов равна 1, есть 0. Такая ситуация рассматривается как полный порядок, мы точно знаем, что произойдёт.

Итак, энтропия равна нулю для полного порядка, в этом случае информация не добавляет нового знания, мы и без неё знаем, что будет, ведь вероятность одного из исходов есть 1, остальных – 0. Если же событий n (n не мало) и их вероятности близки к 1/n, то мы не знаем, что выбрать, и ситуация близка к хаосу.

Как ответ на какой-либо вопрос можно рассматривать любую информацию. Исходов при этом не обязательно будет два. Любому ответу можно приписывать вероятность. Поэтому предложенная Шенноном схема рассматривается как универсальный способ измерения информации.