Тема 3: Основные положения концепций ХД

Тема 2: Введение в хранилище данных.

К середине 80-х годов 20 века завершился первый этап оснащения бизнеса и гос. структуры компьютерными информационными системами и начался процесс развития информационных систем для организации сбора и хранения больших массивов деловой и служебной информации.

Изначально системы обслуживали бухгалтерию, архивы, телефонные сети, регистрация документов, банковские операции и т.д.

Следующим этапом возникли системы оперативной обработки информации (OLTP – в режиме реального времени обработка транзакции).

Транзакция – некоторый набор операций над БД, который рассматривается, как единые завершенные действия с точки зрения пользователя, над некоторой операцией. Действие связано с обращением к БД.

Пример.

Массовое обслуживание клиентов (как правило являются операторы), используются: бронирование билетов, оплата услуг, банковские операции и т.д.

2 общих свойства:

1. Очень большое количество клиентов;

2. Непрерывное поступление информации.

В данном случае транзакция будет включать набор следующих действий:

1. Запрос оператора о наличии свободных мест;

2. Происходит отклик БД с представлением информации;

3. Ввод оператора информации о клиенте;

4. Передача новой информации в БД;

5. Передача оператору подтверждения о том, что операция выполнена успешно.

Основным приоритетом в данном случае являются скорость и параллельность обслуживания.

Основные характеристики OLTP-систем:

1. Запросы и отчеты полностью регламентированы;

2. После того как информация становиться неактуальной, она подлежит удалению (исторические данные не поддерживаются);

3. Операция производятся над данными с максимальным уровнем детализации (информация о клиенте).

Со временем возникла необходимость изучения длительных процессов организации, например, с целью их оптимизации.

Для выполнения таких исследований необходимо:

1. Данные за достаточно длительный период;

2. Данные не должны содержать противоречий, пропусков и других фактов, непозволяющих выполнить корректный анализ;

3. Дополнительная информация о бизнес среде (сведения о конкурентах, рыночных ценах и т.д.)

OLTP – система не может обеспечить этих требований, поэтому встала задача создания более развитых систем хранения данных, которые были бы ориентированы на их анализ.

21.02
Появилась потребность в информационных системах, которые позволяли бы проводит глубокую аналитическую обработку данных для того, чтобы решить следующие задачи:

· поиск скрытых структур, закономерностей;

· вывод правил, которым подчиняется данная предметная область;

· стратегическое и оперативное планирование;

· формирование нерегламентированных запросов;

· принятие решений и прогнозирование их последствий.

Это привело к появлению нового класса ИС, которые стали называться система поддержки и принятия решений. Они ориентированы на аналитическую обработку данных, с целью получения знаний, необходимых для разработки решений в области управления.

Свойства	OLTP	СППР
Цели использования данных	Быстрый поиск и простейшие алгоритмы обработки	Аналитическая обработка с целью поиска скрытых закономерностей, построение прогнозов и моделей и т.п.
Уровень обобщения данных	Детализированные данные	Детализированные и обобщенные данные
Требования к качеству данных	Возможны некорректные данные: ошибки регистрации или ошибки ввода информации	Ошибки в данных не допускаются, т.к. они могут привести к неправильной работе аналитических алгоритмов
Формат хранения данных	Данные могут храниться в различных форматах в зависимости от приложения, в которых они созданы	Данные хранятся и обрабатываются в едином формате
Время хранения данных	Хранятся недолго, не более 1 года	Столько сколько существует данная система
Изменений данных	Данные можно добавлять, изменять и удалять	Данные только пополняются, не должны изменяться для того, чтобы обеспечить хронологию данных
Периодичность обновления	Происходит часто, но не в больших объемах	Обновляется редко, но в больших объемах
Доступ к данным	Доступ к оперативным (текущим) данным	Доступ к историческим данным с соблюдением хронологии
По характеру выполняемых запросов	Выполняются стандартные, заранее настроенные запросы	Запросы нерегламентированные, могут формироваться аналитиком при необходимости
Время выполнения запроса	Допускается несколько секунд	Несколько минут

ХД ориентированы на аналитическую обработку и удовлетворяет требования, предъявляемые к СППР.

ХД – это разновидность систем хранения, ориентированное на поддержку процесса анализа данных, обеспечивающая целостность, непротиворечивость, хронологию данных, а также высокую скорость выполнения аналитических запросов.

Важнейшим элементом хранилища является семантический слой – это механизм, позволяющий аналитику использовать бизнес-термины предметной области для проведения действий над данными.

Основные требования к ХД (Кимбал):

· Высокая скорость получения данных из хранилища;

· Автоматическая поддержка внутренней непротиворечивости данных;

· Возможность получения срезов данных;

· Наличие удобных средств для просмотра данных в хранилище;

· Обеспечение целостности и достоверности хранящихся данных.

Для того, чтобы обеспечить выполнение всех этих требований для построения и работы ХД, как правило, используется не одно приложение, а целая система, состоящая из нескольких программных продуктов:

· предназначен для хранения данных;

· средства для просмотра, извлечения, загрузки данных и т.п.

Глубинный анализ данных.

Технология анализа данных предназначена для анализа структурированных данных, с помощью математических моделей, основанных на статистических, вероятностных оптимизационных методов с целью выявления в них неизвестных закономерностей, зависимостей и извлечение непредвиденной информации. Data Miining (Добыча данных)

Основные задачи: классификация, кластеризации, поиска ассоциаций, корреляций, выявление типовых образцов на заданном множестве, обнаружение объектов, не соответствующих установленным характеристикам и поведению, исследование тенденций и т.д.

Решение этих задач требует обработки больших объемов информации.

Особенность используемых алгоритмов в этих методах состоит в том, что при их создании учитывается: во-первых, организация источников данных; во-вторых, их значительный объем; в-третьих, большие размерности задач.

Для сегментирования данных применяются методы кластерного анализа, для индуктивного вывода – деревья принятия решений, для выявления в информационных массивах часто встречающихся пар объектов – статические и ассоциативные методы.

Этапы:

Этап 1: Аналитик формулирует постановку задачи в терминах целевых переменных

Этап 2: Осуществляется подготовка данных для анализа (обычно в виде таблицы). Из этого множества данных должны быть исключены избыточные и малоинформативные элементы. При необходимости проводится до определения недостающих данных. А также проверяется обычно наличие записей, представляющие редкие особые ситуации, либо содержат ошибочные или неточные знания – эти записи должны быть удалены. Нормализация числовых данных

Этап 3: проводится анализ данных с помощью методов DM

Этап 4: проводится верификация и интерпретация результатов

Тема 3: Основные положения концепций ХД

Основоположником является Билл Инмон. 1990 гг. начал публиковать свои работы.

Основные положения:

1. Интеграция и согласование данных из различных источников, могут располагаться как внутри предприятия, так и во внешнем расположении

2. Распределение набор данных , которые используются системами выполнения транзакций и СППР

ХД (Инмон) – это преметно-ориентированный, интегрированный, неизменяемый и поддерживающий хронологию, набор данных, предназначенный для обеспечения принятий управленческих решений.

1) Предметно-ориентированность означает, что ХД должно разрабатываться с учетом специфики предметной области, она не должна быть ориентирована на аналитические приложения, с которым используется. Структура Х должна отражать представление аналитики об информации, с которой он работает

2) Интегрированность означает возможность загрузки информации в ХД из источников, поддерживающих различные форматы данных созданных в различных приложениях. При этом данные различного формата в процессе загрузки должны быть преобразованы к единому представлению. Объем данных Х должен быть достаточным.

3) Неизменчивость предполагает, что данные после загрузки не должны никак изменяться и могут только добавляться

4) Поддержка хронологии. Для этого в структуру Х вводятся ключевые атрибуты (дата и время)

В итоге использования данной концепции ХД обеспечивает:

1. Своевременное обеспечение информацией, которая необходима для принятия качественного решения аналитиков и руководителей

2. Создание единой модели представления данных в организации

3. Создание интегрированного источника данных, предоставляющего удобный доступ к разнородной информации и гарантирующий получения одинаковых ответов на одинаковые запросы из различных аналитических приложений

7.03

В ХД имеются данные трех видов:

1. Детализированные – поступают из источников данных и соответствуют элементарным событиям, которые регистрируются OLTP- системами. Неделимые значения в рамках данного хранилища.

2. Агрегированные – представляют собой обобщение детализированных. Хранение данных данного вида делает хранилище избыточным.

3. Метаданные – с точки зрения IT-технологий, метаданные это любая информация, необходимая для анализа, проектирования, построения, внедрения и применение компьютерной ИС. Основным назначением метаданных является повышение эффективности поиска. В контексте технологий ХД, метаданные это высокоуровневые средства отражение информационной модели и описание структуры данных, используемые в хранилище. В ХД выделяют два уровня метаданных: технический (содержит метаданные для обеспечения функционирования хранилища), бизнес-метаданные (обеспечивают работу пользователя с использованием бизнес-терминов. Они представляют собой описание предметной области, для которых было построено это хранилище).

В ХД выделяют 2 уровня метаданных:

1. Технический (содержит метаданные для обеспечения функционирования хранилища; обеспечивает загрузку);

2. Бизнес-метаданные (обеспечивают работу пользователя с использованием бизнес-терминов; представляют собой описание предметной области, для которой было построено это хранилище.

Краткий обзор архитектур ХД.

Виды архитектур различаются в зависимости от специфики конкретной организации. Выделяют 4 вида архитектур:

1. Реляционное – используют конкретную реляционное модель, характерную для оперативных OLTP-систем. Данные хранятся в реляционных таблицах, при этом образуют специальные структуры, отображающие многомерное представление данных. R_OLAP

2. Многомерные – реализуют многомерное представление данных на физическом уровне в виде многомерных кубов. M_OLAP

3. Гибридные – сочетают в себе свойства реляционных и многомерных моделей данных. Данные (детализированные) хранятся в реляционных таблицах, а данные (обобщенные) в многомерных кубах. H_OLAP

4. Виртуальные – в таких системах работа ведется с отдельными источниками данных, но при этом имитируется работа обычного хранилища, т.е. данные не консолидируется (собираются), собираются непосредственно в процессе выполнения запроса

Тема 4: Многомерные ХД

Многомерная модель данные лежит в основе построения многомерных хранилищ и опирается на концепцию многомерных кубов, или гиперкубы, или OLAP-кубы. Сущность многомерного представления данных заключается в следующем:

1. Большинство реальных бизнес-процессов описывается множество показателей, свойств, атрибутов и т.д. Для отображения этой информации необходимо использовать несколько иное представление данных, т.к. простая таблица будет неудобной и слишком сложной для восприятия. Таблица может оказаться избыточной, что также неверно с точки зрения проектирования.

2. Можно выполнять декомпозицию информации и отображать ее в нескольких простых таблицах, при этом сформировать между этими таблицами определенные связи. В результате получиться обычная реляционная модель, которая используется обычными БД.

Реляционная модель не является оптимальной с точки зрения задач анализа, т.к.: во-первых, предполагает высокую степень нормализации, во-вторых, низкую скорость выполнения запросов. Поэтому для представления многомерных данных необходимо использование другого подхода.

Базовыми понятиями многомерной модели являются измерения и факты.

Измерения – это категориальные атрибуты, наименования и свойства объектов, участвующих в некотором бизнес-процессе. Измерения могут быть числовыми, но он являются дискретными. Это означает, что они принимают значения из ограниченного набора. Измерения описывают бизнес-процесс качественно.

Факты – это данные непрерывные (могут принимать бесконечное множество значения), описывающие бизнес-процесс количественно.

Многомерный куб рассматривается как система координат, осями которой являются измерения.

В такой системе каждому набору значений измерений будет соответствовать ячейка, в которой можно разместить числовые показатели, т.е факты, связанные с числовым набором. Т.о. между объектами бизнес-процесса и их характеристиками устанавливается однозначная связь.

Преимущества многомерного подхода:

1. Представление данных в виде кубов более наглядно, чем совокупность реализованных таблиц реляционной модели.

2. Возможность построения аналитических запросов более широкие

3. Более высокая скорость выполнения аналитических запросов. Обеспечивается тем, что агрегированные данные уже хранятся вместе с детализированными.

Трудности в использовании многомерной модели:

1. Требует большой объем памяти

2. Сложно модифицировать, т.е. чтобы добавить или изменить одно измерение требуется полностью перестраивать многомерный куб

Многомерное представление целесообразно использовать только в тех случаях, когда имеется небольшой объем данных и стабильный набор измерений.

В многомерных моделях с измерениями можно производить 4 вида действий:

1. Сечение – заключается в выделении подмножества ячеек гиперкуба при фиксировании значения одного или нескольких измерений. В результате сечения получается срез данных.

2. Транспонирование (вращение) – применяется к плоским таблицам и позволяет изменить порядок представления измерений по строкам и столбцам.

3. Свертка – когда одно или несколько подчиненных значений измерений заменяется теми, к которым они подчинены

4. Детализация – процедура обратная свертке.

Тема 5: Реляционные ХД

Являются старыми.

В начале 70-х годов Эдгар Код разработал реляционную модель организацию хранимых данных.

Реляционная БД – это совокупность отношений содержащих всю информацию, которая должна хранится в базе. Физически информация хранится в виде двумерных таблиц, связанных ключевыми полями.

Применение реляционной модели при создании хранилища позволяют получить преимущества над многомерной моделью:

· Больше эффективности работы с большими массивами данных.

· Более эффективное использование памяти компьютера.

В реляционных хранилищах измерений хранятся в плоских таблицами, а факты, которые представляют собой агрегированные (обобщенные) хранятся отдельно в специальных таблицах этой же бД. При этом таблица фактов является основной. Она содержит количественные характеристики объектов и событий. Отличается от СУБД тем, что содержится таблица фактов.

Схема «Звезда»

Схема «Снежинка»

При использовании схемы «звезда» центральной является таблица фактов, с которой связаны все таблицы измерений. Т.о. информация каждом измерении располагается в отдельные таблицы, что позволяет сделать схему данных логичной и понятной.

Иногда размещение всей информации в одной таблице оказывается не эффективным (появляется большая избыточность). Поэтому для большей эффективности модели в некоторых случаях используют схему «снежинка».

Данная схема позволяет хранить информацию о нескольких измерениях в нескольких связанных таблицах. Позволяет работать с иерархическими уровнями, определяющих степень детализации данных.

Преимущества схемы «Звезда»:

1. Простота и логичность модели

2. Более простая процедура пополнений измерений

Недостатки:

1) Медленная обработка измерений

2) Большая вероятность возникновения несоответствий в данных

Преимущества схемы «Снежинка»:

1. Ближе к __________ в многомерной моделе

2. Процедура загрузки из реляционного хранилища в многомерные структуры более эффективна

3. Ниже вероятность появления ошибок в данных

4. Меньше степень избыточности ошибки нформации.

Недостатки:

1. Сложная для реализации структуры данных

2. Усложненная процедура добавления значений измерений

Преимущества реляционных хранилищ:

1) Неограниченный объем хранимых данных

2) Простая процедура загрузки интеграции данных в хранилища

3) при добавлении новых измерений нет необходимости физически перестраивать хранилище

4) высокий уровень защиты данных

5) большие возможности разграничения прав доступа

Недостатки реляционных хранилищ:

1. при использовании высокого уровня обобщения данных и иерархичности измерений в хранилище возникает огромное количество границ агрегатов. Это уменьшает скорость запроса.

Реляционное хранилище применяется:

1. когда большой объем хранимых данных

2. когда несложная иерархия измерений

3. требуется частое изменение размерности данных