Какие задачи требуется решать при создании хранилищ данных?

Теперь мы можем оценить ту роль, которую Хранилище данных играет, или должно играть, в решениях в области управления данными. Хранилище данных не является еще одной базой данных СППР. Это среда, состоящая из одной или более баз данных, спроектированная для доставки соответствующего и согласованного бизнес-анализа (business intelligence) во все бизнес-подразделения организации.

Чтобы избежать той же беды, которая постигла информационный инжиниринг при попытках решить все проблемы управления данными за один ударный подход, вам потребуется разделить задачи вашего Хранилища данных на две категории: краткосрочные и долгосрочные цели.

Краткосрочные цели - это цели, которые вы можете достичь на каждом этапе реализации Хранилища данных. Они дают немедленный выигрыш пользователям. Вот несколько примеров краткосрочных целей:

Улучшайте качество данных

Поскольку обычным недостатком СППР являются "грязные данные", вы почти гарантировано будете уделять внимание качеству своих данных на каждом этапе реализации Хранилища данных. Очистка данных представляет собой достаточно неприятную проблему в организации Хранилищ. С одной стороны, предполагается, что Хранилище данных обеспечит чистые, интегрированные, соответствующие и согласованные данные, извлеченные из множества источников. С другой стороны, мы стоим лицом к лицу с расписанием разработки, составленным в расчете на 6-12 месяцев. Практически невозможно достичь обеих целей одновременно, не идя на какие-либо компромиссы. Трудность в том, чтобы определиться с существом этих компромиссов. Здесь мы приводим некоторые руководящие принципы для выявления ваших специфических задач при очистке ваших исходных данных:

 

Никогда не пытайтесь очистить ВСЕ данные. Каждому хотелось бы иметь тщательно очищенные данные, но никто не согласен платить за это или ждать когда процесс очистки завершиться. Очистка вообще всех данных займет слишком много времени. Затраченное время и стоимость как правило превышают выигрыш.

 

Никогда не говорите, что очищать НЕЧЕГО. Другими словами, всегда планируйте что-либо очищать. В конце концов, одна из причин создания Хранилища данных - это необходимость обеспечить более чистые и надежные данные, чем содержащиеся в имеющихся у вас системах OLTP и СППР.

Определите, какие преимущества вы получите от очистки данных. Исследуйте основания для построения Хранилища данных:

  • Имеются ли у вас несовместимые отчеты?
  • Что является причиной их несовместимости?
  • Являются ли причиной "грязные данные" или это программные ошибки?
  • Сколько денег вы теряете из-за "грязных данных"?
  • Какие данные загрязнены?

Определите стоимость очистки данных. Перед тем, как вы начнете очищать все "грязные данные", которые планировали, вы должны определить цену этой очистки для каждого элемента загрязненных данных. Исследуйте, насколько долго будут выполняться следующие задачи:

  • Анализ данных.
  • Определение корректных значений данных и корректирующих алгоритмов.
  • Написание программ очистки данных.
  • Исправление старых файлов и баз данных (если это необходимо).

Сравните стоимость очистки с ценой потерь от того, что данные останутся грязными. В бизнесе все должно быть обосновано с точки зрения затрат. Это применимо и к очистке данных. Сравните стоимость очистки для каждого элемента данных с потерями, которые понесет бизнес при том, что они останутся грязными, и решите, включать ли его в вашу задачу по очистке данных. Если финансовые потери превысят стоимость очистки, внесите этот элемент в список данных "на очистку". Если стоимость очистки превысит финансовые потери, не вносите данные в этот лист.

 

Расставьте приоритеты в данных, которые вы предполагаете очищать. Сложность компромиссов в том, что необходимо уравновесить время, затрачиваемое на проект, и цели, которые вы пытаетесь достичь. Даже если вы были осторожны в отборе данных для очистки, у вас все равно будет слишком много данных в списке "на очистку". Расставьте приоритеты в вашем списке.

 

После расстановки приоритетов, про каждый элемент данных из списка спросите: Может ли он быть очищен? Возможно, вам придется провести некоторое исследование для выяснения, не остались ли "хорошие данные" еще где-либо. Объектами поиска могут стать другие файлы и базы данных, старая документация, папки с руководствами и даже ящики стола. Иногда значения данных настолько закручены, что для написания преобразовательной логики вам придется искать каких-нибудь "патриархов", которые все еще помнят, что означают все эти величины. Затем будет время, когда, после нескольких дней исследования, вы обнаружите, что вы не можете очистить некоторый элемент данных, даже если хотите; и вам придется изымать этот пункт из вашей задачи по очистке данных.

Поскольку вы задокументировали вашу задачу по очистке данных, вам надо будет включить в нее следующую информацию: