Создание нового хранилища данных

Вид->подключения -> мастер подключений

Затем выбрать тип источника(Deductor Warehouse)

Выбрать название БД, логин. Установить параметры базы данных

После выбрать версию хранилища данных.

Нажать на кнопку

На последних шагах выбрать визуализатор для подключения, задать имя (латинскими буквами), метку и описание для нового хзранилища.

После создания хранилища надо спроектировать его структуру, т.к. в пустом хранилище нет объектов. Для этого существует редактор метаданных, которых вызывается кнопкой на вкладке «Подключения».

Для перехода в режим изменений – кнопка «Разрешить редактировать»

При помощи кнопки «Добавить» в редакторе в метаданные добавить метаданные. Например – Код группы с параметрами:

Результат – структрура метаданных:

К каждому измерению – добавить текстовые атрибуты

После того, как все измерения и ссылки на измерения созданы, приступают к формированию процесса(кнопка +) и добавлению фактов:

Наполнение хранилища данных:

После создания структуры ХД оно пусто, но имеет настроенный семантический слой. Оно готово к загрузке в него данных из внешних структурированных источников. Для этого необходимо написать соответствующий сценарий, который должен выполнять следующие функции:

1. Импорт данных в Deductor из БД, учетной системы или предопределенных файлов.

2. Опциональная предобработка данных, например, очистка или преобразование формата.

3. Загрузка данных в измерения и процессы хранилища.

При создании сценария необходимо строго придерживаться следующих правил:

1. Первыми загружаются все измерения, имеющие атрибуты. Только после загрузки всех

измерений загружаются данные в процесс(ы).

2. Среди измерений также имеется правило на порядок загрузки: загружать измерения нужно, начиная с самого верхнего уровня иерархии и спускаться по иерархии ниже. Это крайне важно,в противном случае иерархия не будет создана.

3. Допускается не загружать отдельно измерения, не имеющие атрибутов и не состоящие в иерархии измерений. Значения таких измерений можно при использовании специальной опции создавать во время загрузки в процесс.

Поясним второе правило (рисунок 2). Измерение Группа находится выше измерения Товар, поэтому последовательность загрузки измерений будет следующая: Группа, Товар.

Последовательно импортируем все 4 текстовых файла в Deductor в следующей последовательности: groups.txt, produces.txt, stores.txt, sales.txt. Внимательно установите типы данных у полей Группа.Код,Товар.Код, Отдел.Код, Час.Код – они должны быть целыми. В результате получим сценарий, состоящий из 4 узлов импорта (рисунок 3).

После импорта можно приступим к загрузке данных в ХД. Первыми следуют таблицы измерений, и только в конце – таблица процесса sales.txt. Менять порядок веток сценария можно при помощи кнопок CTRL+↑ и CTRL+↓.

Покажем последовательность загрузки данных в измерение снова на примере первого измерения Группа.Код. Встав для этого на первом узле, вызовем Мастер экспорта. Из списка типа приемников выберем Deductor Warehouse (рисунок 4).

На следующей вкладке из списка доступных хранилищ укажем нужное нам ХД под названием Фармация. Далее требуется указать, в какое именно измерение будет загружаться информация. Это Группа.Код (рис. 5)

Последнее, что осталось, это установить соответствие элементов объекта в хранилище данных с полями входного источника данных (т.е. таблицы groups.txt). В случае когда имена полей и метки в семантическом слое хранилища данных совпадают, делать ничего не нужно (рисунок 6)

Нажатие кнопки Пуск на следующем шаге загрузит в измерение данные. При этом «старые» данные, если они были, будут обновлены.

Проделав аналогичные действия еще для двух измерений – Отдел.Код, Товар.Код, получим следующий сценарий (рисунок 7).

Загрузка измерений на этом заканчивается, несмотря на то что еще остались два измерения Дата и Час. Но они без атрибутов и не участвуют в иерархии, поэтому их значения можно загрузить на этапе экспорта в процесс.

Теперь, когда все измерения загружены (т.е. определены все координаты в многомерном пространстве), можно загружать данные в процесс Продажи.

Сохраните файл сценария под именем load.ded в той же папке, где находятся текстовые файлы таблиц.

В результате всех вышеописанных действий будет:

· создано и наполнено хранилище данных;

· создан сценарий загрузки информации из источников в ХД;

· продуман контроль непротиворечивости данных при пополнении ХД.

Обратим внимание на то, что сценарий загрузки не привязан непосредственно к данным. Он привязан к их структуре, т.е. в нем смоделирована последовательность действий, которые нужно выполнить для

загрузки информации в ХД: имена файлов-источников, соответствие полей и т.д. Один раз созданный сценарий впоследствии используется повторно для пополнения хранилища данных. Для этого нужно выгрузить новую информацию о продажах и измерениях в текстовые файлы.

Кубы данных

 

Куб – заранее подготовленный срез из ХД с целью обеспечения быстрого доступа к ним. Использование кубов оправдано в случае, когда нужно добиться высокой скорости получения ответа на сложный вопрос из хранилища.

Каждый куб по сути представляет собой дополнительную таблицу в хранилище данных. Эта таблица формируется в момент загрузки новых данных в ХД(например, с таблицами измерений).

Куб создается в редакторе метаданных аналогично созданию нового процесса в хранилище. Например, создадим куб «Продажи за последние 3 дня» в хранилище Фармация. В редакторе метаданных встанем на объект «Кубы» и нажмем кнопку «Добавить». Появится окно выбора объектов ХД.

Выберем процесс «Продажи» и нажмем «Далее». На следующей вкладке поставим флаги напротив измерений Дата, Отдел.Код, Товар.Код, Группа.Код, Час и фактов Количество, Сумма. На третьей вкладке для измерения Дата зададим срез «последний ..3 от имеющихся данных»

 

Ход работы:

1. Разработать структуру ХД согласно варианту(вариантом является тематика дипломного проекта)

2. Создать новое хранилище

3. Создать семантический слой

4. Наполнить хранилище данными

5. Создать несколько кубов данных

6. Проанализировать результаты работы