Принципы организации хранилища

· Проблемно-предметная ориентация. Данные объединяются в категории и хранятся в соответствии с областями, которые они описывают, а не с приложениями, которые они используют.

· Интегрированность. Данные объединены так, чтобы они удовлетворяли всем требованиям предприятия в целом, а не единственной функции бизнеса.

· Некорректируемость. Данные в хранилище данных не создаются: то есть поступают из внешних источников, не корректируются и не удаляются.

· Зависимость от времени. Данные в хранилище точны и корректны только в том случае, когда они привязаны к некоторому промежутку или моменту времени.

· Существуют два архитектурных направления — нормализованные хранилища данных и хранилища с измерениями.

· В нормализованных хранилищах, данные находятся в предметно ориентированных таблицах третьей нормальной формы. Нормализованные хранилища характеризуются как простые в создании и управлении, недостатки нормализованных хранилищ — большое количество таблиц как следствие нормализации, из-за чего для получения какой-либо информации нужно делать выборку из многих таблиц одновременно, что приводит к ухудшению производительности системы. Для решения этой проблемы используются денормализованные таблицы — витрины данных, на основе которых уже выводятся отчетные формы. При громадных объемах данных могут использовать несколько уровней «витрин»/«хранилищ».

· Хранилища с измерениями используют схему «звезда» ( специальная организация реляционных таблиц, удобная для хранения многомерных показателей) или схему «снежинка» (Отличием является то, что здесь таблицы измерений нормализованы с рядом других связанных измерительных таблиц, — в то время как в схеме звезды таблицы измерений полностью денормализованы, с каждым измерением представленным в виде единой таблицы, без соединений на связанные таблицы в схеме снежинки. Чем больше степень нормализации таблиц измерений, тем сложнее выглядит структура схемы снежинки. Создаваемый «эффект снежинки» затрагивает только таблицы измерений, и не применим к таблицам фактов.)

При этом в центре «звезды» находятся данные (таблица фактов), а измерения образуют лучи звезды. Различные таблицы фактов совместно используют таблицы измерений, что значительно облегчает операции объединения данных из нескольких предметных таблиц фактов (пример — факты продаж и поставок товара). Таблицы данных и соответствующие измерения образуют архитектуру «шина». Измерения часто создаются в третьей нормальной форме, в том числе, для протоколирования изменения в измерениях. Основным достоинством хранилищ с измерениями является простота и понятность для разработчиков и пользователей, также, благодаря более эффективному хранению данных и формализованным измерениям, облегчается и ускоряется доступ к данным, особенно при сложных анализах. Основным недостатком является более сложные процедуры подготовки и загрузки данных, а также управление и изменение измерений данных.

· При достаточно большом объеме данных схемы «звезда» и «снежинка» также дают снижение производительности при соединениях с измерениями.

Из каких компонентов строит корпоративное хранилище данных с технической точки зрения?

Компоненты корпоративного хранилища данных предприятия

1. У клиента всегда имеются операционные системы – источники данных для корпоративного хранилища данных. Это, например, бухгалтерские, биллинговые, банковские и т.п. системы.

2. Используя ETL-приложение (программное обеспечение, позволяющее извлекать, трансформировать и загружать данные), данные из систем-источников попадают в базу данных хранилища данных. В качестве ETL-средства могут использоваться: Informatica Power Center, IBM DataStage, Oracle Data Integrator, Oracle WareHouse Builder. Существуют и продукты от других вендоров, но они почти не представлены на российском рынке.

3. Сама база данных корпоративного хранилища не является абстрактной по своей структуре (набору таблиц, полей в них и взаимосвязей между таблицами), а создана на основе модели данных. В качестве базы данных в подавляющем большинстве используется или Oracle, или Teradata.

4. Модель данных представляет собой описание всех сущностей, объектов базы данных корпоративного хранилища данных и включает в себя: концептуальную модель данных, логическую модель данных и физическуюмодель базы данных. На уровне концептуальной модели определяются сущности и взаимосвязи между ними. На уровне логической модели сущности делятся на бизнес-области, им дается подробное и полное описание, прописываются взаимосвязи. При разработке физической модели базы данных определяется вся структура базы данных - от таблиц и полей в них, до партиций и индексов. Модели данных сегодня на рынок поставляют IBM, SAP и Oracle, но покупка модели данных не означает автоматическое построение верного корпоративного хранилища. Модель данных - это не коробочный продукт. Ее нужно модифицировать под нужды конкретного клиента.

5. Далее, уже используя данные из корпоративного хранилища данных, производится настройка областей анализа, отчетности и витрин данных. В последствии пользователи вполне самостоятельно могут строить необходимую отчетность и проводить многомерный анализ. В качестве инструментов анализа в основном используются Business Objects, Oracle Discoverer, IBM AlphaBlocks и другие продукты.