Сучасні концепції зберігання і аналізу корпоративної інформації. Data Warehouse (DW). OLAP.DМ

Управління бізнесом зараз базується на використанні величезних об'ємів різноманітної інформації - як внутрішньої, так і зовнішньої. У крупних фірмах щодня поступає в бази даних (БД) до 1Тб даних. Загострюється потреба в обробці даних, що можуть бути різноплановими та різнорідними: розташованими в окремих філіях (продажі, фінансування, БД запасів); джерела інформації можуть бути несумісні (у організації може використовуватися операційні системи з окремими БД); можуть бути нез’ясованими типи інформації (дати народження, телефонні номери, заробітна плата); інформація може бути застарілою (старі адреси, старі дані місця роботи); до деякої інформації може не бути доступу (застаріла інформація про авіарейси знищується через 30 днів); дані можуть бути представлені у формі, непридатної для аналізу. Результати обробки мають інтерпретуватися у наочному вигляді. Інструменти для обробки даних мають бути простими в використанні. Виникає потреба у баченні безперервної осі часу з початку існування бізнесу, можливість аналізувати бізнес-показники та їх динаміку в любому пункті, можливість отримання звіту (своєчасної, вичерпаної інформації щодо прийняття управлінських рішень) за розумний час, можливість бізнес-аналізу без зовнішніх фахівців (отримання відповіді на питання керівника у разі їх виникнення незалежно від наявності розроблених звітів). У цих умовах старі інструменти аналізу (електронні таблиці, статистичні інструменти, запити-звіти, операційні системи, орієнтовані на функціональні процеси) виявляються недостатніми. Формування ж аналітичних звітів на основі традиційних БД, таких, що містять оперативну інформацію, займає невиправдано багато часу. Час, що витрачається на формування аналітичних звітів, неухильно зростає із зростанням обсягу оперативної інформації в БД. Це призводить до того, що менеджери не встигають приймати своєчасні адекватні управлінські рішення, що безпосередньо позначається на успіху ведення бізнесу. Перераховані чинники привели до виникнення необхідності створення інтелектуальних програмно-технологічних засобів управління бізнесом, заснованих на концепції Data Warehouse - сховищі даних.

Data Warehouse (DW) є особливою формою організації БД, яка призначена для зберігання в погодженому вигляді наочно-орієнтованої, інтегрованої, варіантної за часом, не руйнованій інформації з різних оперативних систем і зовнішніх джерел для підтримки ухвалення управлінських рішень.

Дані в DW організовані відповідно до основних напрямів діяльності фірми (наочна орієнтація), на відміну від оперативних БД, в яких дані надано відповідно до процесів (закупівля, відвантаження товару, а не постачальники, склади, підрозділи). Наочна орієнтація спрощує аналіз, а головне, значно прискорює проведення аналітичних розрахунків. DW орієнтовано на бізнес-поняття, а не на бізнес-процеси.

Найбільш важливою рисою DW є їх інтегрованість, що спрощує процес аналізу даних. Первинні дані оперативних баз перед завантаженням в DW обробляються, доповнюються, наводяться до єдиного формату, вводиться структура розшифровки, встановлюється послідовність реквізитів, вводяться записи всіх даних про предмет (дані про клієнта можуть розміщуватися в 5 різних банках даних).

Іншою важливою властивістю, що відрізняє DW від оперативної системи, є її незруйнованість (незмінність). Тоді як оперативна система виконує над даними, що зберігаються, операції оновлення, виділення і вставки, в DW поміщається великий обсяг даних, які будучи завантаженими раз, вже не піддаються змінам. Таким чином, різні корпоративні користувачі, що виконують один і той же запит до сховища даних в різний час, отримають один і той же результат. Це виключає ситуації, при яких незаплановане витягання даних і генерація звітів наводить до різних результатів.

Незалежність за часом DW – сховище даних містить як історичні дані, так і дані, які мали статус поточних при останньому завантаженні сховища. Тимчасові рамки даних, що містяться в сховищі, змінюються в широких межах залежно від типа системи. Проте звичайні тимчасові рамки даних лежать в межах 1-5 років. Дані більшої давнини, як правило, переносяться в архів.

До характеристик DW також відноситься підтримка хронології (дані з оперативних джерел розміщують в DW у вигляді історичних пластів, що характеризують конкретний період часу), що дозволяє аналізувати зміну показників в часі, а також зведення до мінімуму зайвих даних (забезпечується фільтрацією і очищенням даних).

Найбільший ефект від вживання DW відзначають в наступних галузях: аналіз ризиків, фінансовий аналіз, аналіз випадків шахрайства, маркетинг взаємовідносин, управління архівами, аналіз стереотипів поведінки клієнтів.

Системи оперативних даних і інформаційні системи на основі DW мають низку протилежних характеристик (таблиця 1).

Таблиця 1

Відмінності операційних БД і DW

Операційні системи DW
Тактичне призначення Стратегічне призначення
Використовуються для обробки транзакцій Використовуються для інтерактивного аналізу
Орієнтовані на додатки Наочно-орієнтовані
Зберігають лише поточні дані Зберігають історичні дані
Обумовлені наперед запити Незапланований пошук
Використовують детальні, потокові, нормалізовані дані Використовують узагальнені, архівні, денормалізовані дані

При всіх перевагах сховищ даних вони все ж не є абсолютно універсальними. Так, метод “big-band”, що використовується при проектуванні одного монолітного сховища виявився дуже дорогим, складним і зажадав надто багато часу на проектування. Погано пов'язуються DW з багаточисельними незалежними вітринами даних (data marts), що являють собою осередки інформації, які не мають повторного використання.

Для створення DW існують різні інструментальні засоби - наприклад програмний продукт Oracle Designer (Arbor), Platinum Technology (Businеss Objects), Praxis (Carleton), Prism (Cognos), Pyramid (Hewlett-Packard), RedBrick (IBM), SAS Institute (Information Buler), Sybase(Microsoft), Microsoft OLAP Servicer.

ІТ, що базуються на концепції DW, дозволяють акумулювати необхідну в процесі ухвалення управлінських рішень інформацію, систематизувати її, швидко надавати її в зручному і зрозумілому для користувача вигляді; дають єдиний інтегрований погляд на бізнес, забезпечують доступ до погоджених даних, отриманих з різних джерел. Тому незважаючі на значний бюджет (середній проект коштує близько 3 млн. доларів) в 2010 році 68% компаній США використовували DW.

Компанія “American Airlines” використовувала DW для проведення цільового маркетингу для 26 млн. пільгових користувачів і оцінила скорочення рекламної кампанії в засобах масової інформації як 100 млн. збереження. Максимальний обсяг даних зареєстрований в компанії Celera.Genomics щодо аналізу білків протеїну.

Використання в управлінні інформаційних технологій, що базуються на концепції DW, є “технологічним проривом”, який забезпечує корпорації стратегічні переваги, дозволяє реорганізувати бізнес-процеси, підвищити доходи за рахунок визначення нових можливостей (або проблем) бізнесу через новий інтегрований погляд на бізнес.

Найбільш вдалою формою фізичної організації DW, що надає можливість класифікувати дані по різних ознаках, є багатовимірна модель (OLAP – On Line Analitical Processing), заснована на понятті гіперкуба - багатовимірного куба, грані якого зберігають необхідну для аналізу інформацію. OLAP (Оперативна аналітична обробка даних) уявляє собою технологію багатовимірного аналізу даних. OLAP дозволяє значно спростити і прискорити процес підготовки і прийняття рішень керівним персоналом. Вперше ідея багатовимірного куба ієрархічної структури була запропонована маркетологом D.Little на початку 1980 - х років щодо моделювання теорії черг. Технологія OLAP, яку називають також інтерактивною (діалоговою) аналітичною обробкою, дає змогу на основі багатовимірної (гіперкубічної) моделі даних (на відміну від плоскої реляційної моделі даних) моделювати реальні структури й зв'язки, що є виключно важливими для аналітичних систем. Вона призначена для створення багатопараметричних моделей з метою більш адекватно відбивати реальні процеси. Технологія OLAP дозволяє швидко змінювати погляди на дані залежно від вибраних параметрів і забезпечити особі, котра приймає рішення, повну картину аналізованих ситуацій.

Всі OLAP-системи побудовані на двох базових принципах: всі дані, необхідні для прийняття рішень, мають бути попередньо агреговані на всіх відповідних рівнях і організовані так, аби забезпечити максимально швидкий доступ до них; мова маніпулювання даними ґрунтується на бізнес-поняттях. Дані параметруються кількома рівноправними вимірами, наприклад дані щодо продажу у великій торгівельній компанії можна аналізувати в таких вимірах: час (день, тиждень, місяць, квартал, рік); географія (місто, область, країна); товар, (фірма-виробник, тип товару); покупець (стать, вік).

Засобами користувацького інтерфейсу ОLАР-системи можна виконувати такі базові операції над гіперкубом моделі даних: поворот; проекція (значення в комірках, що лежать на осі проекції, підсумовуються згідно з визначеною ознакою); розкриття (drill-down), тобто коли одне зі значень виміру замінюється сукупністю значень із наступного рівня ієрархії виміру, при цьому замінюються значення в комірках гіперкубу; згортка (roll-up/drill-up), що є операцією, зворотною до операції розкриття; перетин (slice-and-dice). Оскільки в основі технології OLAP лежить концепція гіперкуба моделі даних, то залежно від відповіді на запитання про те, чи існує гіперкуб як окрема фізична структура чи це є лише віртуальна модель даних, розрізняють три основні типи аналітичної обробки даних: MOLAP, ROLAP і HOLAP.

MOLAP (Multidimensional OLAP) - це багатовимірна OLAP-система, в котрій гіперкуб реалізується як окрема база даних нереляційної структури, яка забезпечує багатовимірне зберігання, обробку і подання даних. Програмні продукти, що належать до цього типу OLAP-технології, як правило, мають сервер багатовимірних баз даних. Ця структура забезпечує максимально ефективний щодо швидкості доступ до даних, проте потребує додаткового ресурсу пам'яті. Крім того, велика розмірність моделі даних і розрідженість гіперкубів (навіть після компресії) призводить до витрат великих апаратних ресурсів, що не завжди може бути доцільним.

В ROLAP (Relational OLAP) багатовимірна структура реалізується реляційними таблицями, тобто гіперкуб - це лише користувацький інтерфейс, котрий емулюється на звичайній реляційній СУБД. Така структура забезпечує зберігання великих обсягів інформації, проте є менш продуктивною з погляду ефективності OLAP-операцій.

Недоліки основних типів OLAP-технології зумовили появу нового класу аналітичних інструментів - HOLAP-системи, що забезпечує гібридну (hybrid) оперативну аналітичну обробку даних із реалізацією обох підходів, тобто з доступом як до даних багатовимірних баз даних, так і до даних реляційного типу.

На даний час розроблено досить багато аналітичних систем, сконструйованих з використанням OLAP-технології (Hyperion OLAP, Elite OLAP, Oracle Express, MS SQL Server, Sybase SQL Server, Informix, CA-Ingres, Gupta SQLBase, Cognos та багато інших). Ринок програмних OLAP-продуктів постійно розширюється. Сучасні системи оперативної аналітичної обробки дають користувачам змогу вирішувати ключові задачі управління бізнес-процесом, зокрема прикладні програми Hyperion OLAP дозволяють виконувати аналіз прибутковості; аналіз напрямків розвитку продукції; аналіз продажу; аналіз становища на ринку; аналіз асортименту продуктів; аналіз ризику; аналіз конкурентоспроможності; складання звітів з продуктивності; моделювання сценарію; аналіз бюджету і прогнозів тощо.

Для того, щоб існуючі DW сприяли прийняттю управлінських рішень, інформація повинна бути надана в потрібній формі, також мають бути виявлені приховані правила і закономірності в наборах даних. Для цього DW повинні містити розвинені інструменти інтелектуального аналізу даних - Data Mining (DM).

DM - це новий напрямок в області інформаційних систем і технологій, який орієнтовані на вирішення задач підтримки прийняття рішень на основі кількісних і якісних досліджень масивів різнорідних ретроспективних даних. Н. Раден досить образно підкреслив: “багато компаній створили чудові сховища даних, ідеально розклавши по поличках гори інформації, що не використовується та яка сама по собі не забезпечує ані швидкої, ані грамотної реакції на ринкові події”.

Принципова відмінність DM від відомих засобів, що використовуються в існуючих системах підтримки прийняття рішень - це перехід від технології оперативного аналізу поточних ситуацій до засобів, що спираються на потужний апарат сучасної математики.

В загальному випадку процес DM можна уявити у вигляді послідовності трьох стадій: виявлення закономірностей умовної логіки, асоціативної логіки, трендів і коливань (вільний пошук - Discovery); використання виявлених закономірностей для передрікання невідомих значень (прогностичне моделювання – Predictive Modeling); аналіз виключень, призначений для виявлення і тлумачення відхилень (Deviation Detection).

Технологічні засоби DM поділяються на дві великі групи за принципом роботи з вихідними даними:

1. вихідні дані зберігаються в явно деталізованому вигляді і безпосередньо використовуються для прогностичного моделювання і аналізу виключень (Data Retention); це, так званий, засіб міркувань на основі аналізу претендентів (Case-based Reasoning) і алгоритми типу Lasy-Learning - засіб найближчого сусіда (NN), засіб k- найближчого сусіда (k-NN), засіб NGE; проблемою цієї групи засобів є ускладнення за умов використання великих обсягів даних;

2. засоби Data Distillation, які базуються на виявленні та використанні формалізованих закономірностей; інформація спочатку вилучається з первинних даних та перетворюється в деякі формальні конструкції. Виконується це на етапі вільного пошуку (який принципово відсутній у засобах першої групи). Для прогностичного моделювання і аналізу виключень використовуються результати цієї стадії, значно більш компактні, ніж масиви вихідних даних.

Накопичений до теперішнього часу досвід роботи з засобами інтелектуального аналізу дозволяє виділити типові задачі, визначити найбільш ефективні технології їхнього рішення, проаналізувати переваги та недоліки відповідних технологій і вказати обмеження з використання різноманітних підходів (таблиця 2).

Таблиця 2

Основні технології інтелектуального аналізу даних

Технологія Переваги Недоліки
Правила висновку Зручні в тих випадках, коли дані зв'язані відношеннями, що надані у вигляді правил "якщо - то" При великій кількості правил втрачається наочність; не завжди вдається виділити відношення "якщо - те"
Нейронні мережі Зручні при роботі з нелінійними залежностями, з даними, що є зашумленими та неповними "Чорна скриня": модель не може пояснити виявлені знання; дані обов'язково повинні бути перетворені у числовий вигляд
Нечітка логіка Ранжують дані за ступенем близькості до бажаних результатів; нечіткий пошук в базах даних Технологія нова, тому зараз відомо обмежене число спеціалізованих додатків
  Візуалізація Багатомірне графічне подання даних, за яким користувач сам виявляє закономірності – зразки та відношення між даними Моделі не виконуються, і їхня інтерпретація повністю залежить від аналітика
Статистика Є велике число алгоритмів і досвід їхнього застосування в наукових і інженерних додатках Більше підходять для перевірки гіпотез, ніж для виявлення нових закономірностей в даних
К-найближчий сусід Виявлення кластерів, обробка цілісних джерел даних Великі витраті обсягів пам'яті, проблеми з чутливістю
  Інтегровані технології Можна вибирати підходи, адекватні задачам, або порівнювати результати застосування різних підходів. Складні засоби підтримки; висока вартість; для кожної окремої технології не завжди реалізується найкраще рішення

Однак практичне впровадження технології DM на українському ринку гальмується низкою труднощів, пов'язаних з особливостями сучасної економічної ситуації: недостатня кількість статистичної інформації, нагромадженої в сховищі даних (що пов'язана з невеликим терміном існування підприємств), для вироблення на її основі ефективної стратегії прийняття рішень, особливо у випадку складної моделі, яка має багато ступенів свободи; нестабільність економічної ситуації, законодавчої бази, товарних, фінансових та інформаційних потоків; незадовільний рівень вірогідності статистичної інформації.

Крім того, є труднощі і інструментального характеру: більшість фірм розробників концентрують зусилля на одному-двох конкретних засобах, ніяк не пов'язаних з розробками інших фірм в цій області; недостатньо стандартизовані інтерфейси, системи введення-виводу, візуалізації інформації, а також технології спілкування з програмним продуктом; універсальні засоби інтелектуального аналізу даних досить складні і дорогі, тому вони не можуть широко застосовуватися в рамках інтегрованих систем, що орієнтовані на кінцевого користувача. Ситуація ускладнюється також наявністю технологічного і системного розривів між розробниками і користувачами.

Світовий ринок систем DM активно розвивається. Левова доля належить Microsoft, проте практично всі досить значні корпорації (а також понад 50 відсотків дрібних та середніх фірм-розробників) подають на ринок свої програмні продукти DM.

Системи DM, що наявні на ринку України розподіляються:

1. Дослідніцьки, що орієнтувалися на фахівців і призначені для роботи з новими типами проблем; в таких системах важливою є різноманітність доступних засобів обробки даних і гнучкість засобів, що використовуються;

2. прикладні, які розраховані на користувачів-непрограмістів (аналітиків, менеджерів, керівників); масові продукти для бізнес-додатків, вартістю від $1000 до $10000, кількість інсталяцій яких досягає 10000.

Як в будь-який іншій галузі, в сфері DM не може існувати однозначних рекомендацій з вибору інструментальних засобів. Однак можна виділити основні вимоги до систем DM з урахуванням національної специфіки: контроль статистичної значущості результатів, що одержуються; прозорість побудованих моделей і можливість їхньої інтерпретації; простота у використанні, дружній інтерфейс, високий ступінь автоматизації, гнучкість налагодження і наочність форм демонстрації результатів, можливість інтеграції з інформаційними системами, що функціонують в організації, наявність механізмів експорту результатів в стандартні формати; широкий спектр засобів післяобработки даних, можливість обробки великих за обсягом сховищ з прийнятною продуктивністю.

Оперативна аналітична обробка (OLAP) і DM на сьогоднішній день є основними складниками процесу підтримки прийняття рішень. Ці два види аналізу повинні бути тісно об'єднані в інформаційних системах корпоративного управління.

Застосування потужних аналітичних засобів DM, здатних переробляти великі обсяги ретроспективних даних і вилучати з них цінні відомості про приховані закономірності, зв'язки і можливі шляхи розвитку ситуацій, що істотно підвищує ефективність і обґрунтованість управлінських рішень. Універсальний інструмент, як правило, програє в ефективності спеціалізованому засобу, що орієнтувався на застосування в конкретній ситуації.

Для вирішення складної проблеми вибору інструментарію DM слід підвищувати роль консалтингових фірм, здійснюючих аналіз задачі, вироблення рекомендацій по вибору засобів рішення, комплексний супровід і реалізацію проекту