Системы коллективного использования информации
Вопрос об использовании коллективных систем обработки данных стал актуален с появлением мощных вычислительных систем с распределенными ресурсами в пределах одного компьютера, локальных корпоративных и внешних (региональных и глобальных) сетей, технологий поиска и многомерного анализа данных, развитием веб-технологий. Применение технологий распределенной обработки данных (Didtributed Data Processing – DDP) стало особенно актуальным для высокотехнологичных географически распределенных компаний, деятельность которых поддерживается и сопровождается современными информационными технологиями и системами (рис. 11.8).
Суть распределенной коллективной обработки данных заключается в том, что пользователи, находящиеся в разных местах, получают возможность одновременно работать с базами и хранилищами данных, прикладными процессами, программами и сервисами, расположенными в нескольких взаимосвязанных оконечных системах. При этом возможны следующие виды работ:
• удаленный доступ и удаленный запрос (Remote Access & Remote Query), например посылка команды пользователей на выполнение заданий, связанных с обработкой данных или поиском информации;
• действие (Transaction), осуществляющее направление группы запросов прикладному процессу. Это может быть, скажем, часть вычислительного процесса, использующего удаленную базу данных;
• распределенная транзакция, дающая возможность использования нескольких серверов и прикладных процессов, выполняемых в группе оконечных систем несколькими пользователями;
• обработка данных и информации в системе "клиент- сервер".
Существует несколько технологий распределенной обработки, которые могут использовать как промежуточный слой программного обеспечения, ориентированного на запросы и сообщения, так и распределенную интегрированную среду обработки данных.
Распределенная обработка данных в системах коллективного использования информации в обязательном порядке предполагает наличие банков и баз данных, транзакционных систем для сбора данных и доставки информации конечному пользователю, аналитических систем, а в некоторых случаях специализированных экспертных систем и баз знаний. База данных, БД (DataBase) – структурированный организованный набор данных, объединенных в
Рис. 11.8. Пример распределенной коллективной системы использования данных
Рис. 11.9. Общая схема базы данных
соответствии с некоторой выбранной моделью и описывающих характеристики какой-либо физической или виртуальной системы (рис. 11.9).
Понятие "динамически обновляемая БД" означает, что соответствие базы данных текущему состоянию предметной области обеспечивается не периодически, а в режиме реального времени. При этом одни и те же данные могут быть по-разному представлены в соответствии с потребностями различных групп пользователей
Хранилища данных
Но база данных – это не просто место, куда помещают данные, ими нужно пользоваться, актуализировать, изменять форматы и связи, совершать множество других действий. Если бессистемно наполнять базу данных информацией, то через некоторое время се невозможно будет использовать, гак как резко возрастет время на поиск необходимой информации и к тому же физическое пространство базы переполнится. Чтобы избежать этого, данные требуется "очищать" и структурировать, а для эффективной работы с ними необходимы системы управления работой баз данных. К концу 80-х гг. XX в., когда была в полной мере осознана потребность в интеграции корпоративной информации и надлежащего управления этой информацией, появились технические возможности для создания соответствующих систем, которые первоначально были названы "хранилищами информации" (Information Warehouse – IW). И лишь в 90-е гг. XX в., с выходом книги Билла (Уильяма) Иимона, хранилища получили свое нынешнее наименование "хранилища данных" (Data Warehouse – DW) [2].
Б. Инмон определил хранилища данных как "предметноориентированные, интегрированные, неизменные, поддерживающие хронологию наборы данных, организованные для целей поддержки управления, призванные выступать в роли единого и единственного источника истины, обеспечивающего менеджеров и аналитиков достоверной информацией, необходимой для оперативного анализа и принятия решений".
В основе концепции хранилищ данных лежат следующие основополагающие идеи:
• интеграция ранее разъединенных детализированных данных (исторические архивы, данные из традиционных систем обработки документов и разрозненных баз данных, данные из внешних источников) в едином хранилище данных;
• тематическое и временно́е структурирование, согласование и агрегирование;
• разделение наборов данных, используемых для операционной (производственной) обработки, и наборов данных, используемых для решения задач анализа.
Хранилище данных выполняет множество функций, но его основное предназначение – предоставление точных данных и информации в кратчайшие сроки и с минимумом затрат. Среда хранилища была предназначена только для чтения и состояла из детальных и агрегированных данных, которые были полностью очищены и интегрированы. Кроме того, в репозитории хранилась обширная и детальная история данных на уровне транзакций. С точки зрения архитектурного решения такое хранилище данных реализует свои функции через подмножество зависимых витрин данных (рис. 11.10).
Рис. 11.10. Схема организации данных в хранилище
Достоинствами архитектуры классического хранилища данных являются:
• общая семантика;
• централизованная, управляемая среда;
• согласованные процессы извлечения и использования данных;
• непротиворечивость содержащейся информации;
• легко создаваемые по шаблонам и наполняемые базы данных;
• единый репозиторий метаданных;
• многообразие механизмов обработки и представления (визуализации) данных.
К недостаткам можно отнести большие затраты по реализации, высокую ресурсоемкость в масштабе всего предприятия, потребность в сложных сервисных системах, рискованный сценарий развития, когда все данные и метаданные находятся в одном репозитории и в неблагоприятном случае могут быть потеряны. Кроме того, при фильтрации, агрегировании и рафинировании "сырых (т.е. необработанных)" данных для такого хранилища обычно теряется очень много информации, которая может быть чрезвычайно полезной при бизнес-анализе. В связи с этим возникло понимание того, что хранилище, помимо механизмов размещения и извлечения данных (On Line Transactional Processing – OLTP), репозитория и витрин, должно иметь соответствующее пространство для организации "сырых" данных и их многомерного анализа в режиме реального времени (On Line Analytical Processing – О LAP).
На рис. 11.11 показана схема типизированного корпоративного хранилища данных, информации и знаний. Вопросы его проектирования, выбора архитектуры, реализации в том или ином виде – это серьезный проект корпоративного масштаба, охватывающий все отделы и обслуживающий потребности всех пользователей корпорации.
Системы коллективной работы
Системы коллективной (групповой) работы (Group- ware) – общий термин для информационных систем (подсистем), которые дают группе людей возможность осуществлять совместную деятельность (Joint Actoins). Это, например, подготавливать и принимать решения, производить экспертную оценку новых идей, управлять подразделениями компаний, процессами, проектами и персоналом, создавать программное обеспечение для компьютеров, писать отчеты по реализации проектов, взаимодействовать с внешней средой и т.д.
Такие системы, реализующиеся, как правило, в локальных или распределенных сетях, образуют интегрированную среду (Integrated Collaborative Environments – ICE) и предназначаются не только для совместной работы, но и для получения и формирования знаний. В этом случае их определяют термином "компьютерные средства коллективной работы в глобальной сети" (Computer Aided Global Network Groupware).
Рис. 11.11. Схема типизированного корпоративного хранилища данных
Программное обеспечение коллективного пользования позволяет группе работающих пользователей (Group/ Team) осуществлять совместные действия с целью достижения поставленных задач, использования общих данных и информации и усовершенствования деятельности но принятию решений на базе корпоративных коммуникаций. Программное обеспечение классифицируется в зависимости от выполняемых функций: для обеспечения процесса использования общей информации и формирования знаний, для управления процессами совместной работы и поддержки принятия решений, для управления коммуни
кациями. К системам коллективной работы можно отнести электронную почту, форумы и чаты, видеоконференции, коллективное оформление текстовой документации и графических материалов, планирование деятельности рабочих групп и т.д.