Виды данных предприятия
Когда речь идет об информационных технологиях, то на первый план выходят аспекты, существенные для этапов сбора, хранения, обработки, передачи и представления информации. Причем в цифровую эпоху, для которой характерна компьютерная обработка большей части сведений, особую важность имеет организация хранения данных, их сбор и актуализация. Другие вопросы (обработка, передача и представление информации) сегодня есть чисто технические проблемы – если накоплена полная, актуальная и достоверная информация, то ее обработка, в том числе с использованием современных математических методов, а также вывод результатов в любой удобной для восприятия человеком форме могут быть сделаны при помощи компьютеров качественно и быстро. Рассмотрим подробнее выделенные аспекты.
Данные предприятия в информационных системах могут храниться на различных носителях информации в виде файлов, но независимо от используемого носителя они, прежде всего, должны быть переведены в цифровую форму, т.е. превращены в бинарные (двоичные) объекты. При этом различают числовую, текстовую, графическую, звуковую (аудио) и видео (мультимедийную) информацию. Поэтому первоочередная задача – кодирование информации и форма ее организации в информационные объекты (файлы), а также в более крупные информационные единицы – каталоги (панки), базы данных, сайты и т.д.
Особенностью числовых данных по сравнению с математическими величинами является то, что они не могут быть бесконечно большими и бесконечно малыми. Эти вопросы разъясняются при изучении основ информатики. В практической деятельности специалисты с двоичными данными не работают – вся информация, которая вводится в компьютеры, автоматически преобразуется в двоичную форму, а результирующая перед выводом преобразуется в десятичный вид. Единственной тонкостью, с которой пользователь должен быть знаком, является представление выводимой числовой информации с плавающей запятой (точкой) в нормализованном и научном форматах. Многие программы и почти все калькуляторы выводят в гаком виде очень большие и очень маленькие значения, когда недостаточно места доя их показа в виде чисел с фиксированной запятой (точкой).
С текстовыми данными все намного сложнее, но замечают это только жители тех стран, которые используют не латинский алфавит, а, например кириллицу, арабский алфавит, иероглифы и т.д. До создания Интернета данный вопрос касался только специалистов по обработке информации, но сегодня, в период глобализации, когда мир получил единое информационное поле, он актуален для всех. Много десятилетий человечество использовало однобайтовые системы кодирования текста, что привело к тупику, так как при таком подходе можно закодировать лишь 256 символов. В результате в мире было разработано более 150 таблиц кодовых страниц, а проблема все равно не была решена. Выход был найден в создании Unicode и его семантического двойника UCS (Universal Char Set). Благодаря этому, мы можем просматривать сайты разных стран, комбинировать в тексте фрагменты текста, написанные на разных языках, называть файлы так, как это удобно нам, а не разработчику операционной системы, открывать и просматривать файлы с текстом, независимо от места их создания и специфики вычислительной платформы. Даже отправляя SMS-сообщение, мы используем универсальный набор символов. Тем не менее, вопросы эффективности хранения и передачи данных еще имеют значение, так как скорость передачи не беспредельна, а емкость хранилищ информации, хотя и велика, но ограничена. Поэтому одной из самых распространенных систем кодирования текста сегодня является UTF-8 – разновидность Unicode, основанная на кодах переменной длины. Благодаря данному гибкому решению, основная часть текстовой информации (латиница) по-прежнему кодируется одним байтом, а символы других языков – двумя или тремя байтами.
Для специалистов предприятий не менее важным, чем представление чисел и текста, является представление в компьютерах графики, хотя на первый взгляд кажется, что это сугубо бытовая форма данных, ассоциирующаяся с фотографией. В действительности графические файлы зарождались в конструкторской среде, когда появилась потребность в САПР. Именно здесь были получены первые фундаментальные результаты векторной графики (например, в автомобилестроении были разработаны кривые Безье). Растровая графика, которая так популярна в быту, в производственной деятельности распространилась позже, поскольку она предъявляет намного более высокие требования к одному из лимитирующих ресурсов – компьютерной памяти. Инженерами и учеными должны были быть разработаны емкие и дешевые носители информации, а математиками – эффективные алгоритмы ее сжатия, прежде чем в офисах компаний в массовом порядке стали создаваться и храниться электронные образы документов (Document Imaging). На данной технологии основываются отмеченные ранее ЕСМ-системы. Важно отметить, что без алгоритмов сжатия графики ЕСМ были бы невозможны из- за гигантских размеров растровых файлов. При этом различают алгоритмы сжатия без потерь (форматы GIF, TIFF) и с потерями (формат JPG). Минимизировать размер растрового графического файла можно так же за счет снижения числа цветов (понижения глубины цвета). Например, файлы GIF имеют глубину цвета 8, что позволяет представлять 256 цветов (28).
Электронные образы документов хороши визуальной схожестью с подлинниками документов на бумажном носителе, но имеют существенный технологический недостаток. Текстовая информация в них есть ни что иное как "фотография" символов, а значит поиск по словам, фразам, предложениям или их частям, не говоря уже о смысловом поиске, невозможен. В ИТ-сфере уже сформировался и прижился термин "полнотекстовый поиск", под которым понимают поиск в файлах текстовой информации. Внешне он напоминает поиск но запросам в Интернет. Для этой цели информация индексируется, т.е. строятся специальные таблицы, содержащие слова и ссылки на файлы, где они встречаются, по которым в будущем возможен поиск. Индексация позволяет быстро находить нужный текст без полного просмотра всех документов.
Пользователи Windows 7 заметили, что поисковый диалог сильно упрощен но сравнению с поиском в операционной системе Windows ХР. Достаточно набрать часть слова, как в поисковом окне быстро начинают отображаться результаты. Чем больше информации вводится, тем меньше записей показывается в окне, так как полнотекстовый поиск отбрасывает не соответствующую запросу информацию. В данном случае используются проиндексированные данные. Если отключить индексацию диска, то поиск не будет столь эффективным. Аналогично работает поиск в базах данных и в ЕСМ-системах, если выполнено так называемое распознавание графических документов. Под распознаванием понимают процесс превращения фрагментов графического файла (набора пикселей) в коды символов (буквы, цифры, специальные знаки). Технология носит название OCR (Optical Character Recognition) и незаменима для электронного документооборота. Есть специализированные программные средства, предназначенные для этой цели, но данная технология встроена и в комплект современных офисных пакетов. Некоторые форматы файлов хранят не только отсканированные образы документов, но и распознанные тексты, что дает возможность их индексировать. Так, в некоторых разновидностях очень распространенного формата PDF возможно сохранение не только графики, но и текста. Такая же возможность существует и в значительно реже встречающемся формате MDI. При включенной и правильно настроенной службе индексирования Windows созданные индексы используются средствами поиска для нахождения файлов, содержащих заданные слова, в том числе и в файлах TIFF. При выключенной службе индексирования полнотекстовый поиск возможен только по именам и свойствам файлов.
Аудиоинформация и мультимедийная информация также находят применение в менеджменте. Ярчайшим примером служит Skype. Общение через скайп-подобные программы позволяет не только передавать и принимать информацию в устной форме при зрительном контакте, но и обеспечивает эффект присутствия специалиста на рабочем месте, в то время как физически он может быть в командировке, в пути или дома. Компания Microsoft не только приобрела Skype, но и развивает свой собственный сервис – Lync, имеющий сходные функции. Изменение возрастного состава менеджеров делает аудио- и видеоданные в управлении предприятиями все более востребованными. Как новое явление следует отметить и использование видеохостинга Youtube для размещения роликов, иллюстрирующих некоторые аспекты бизнеса.