Интеллектуализация процесса анализа данных

Большинство методов интеллектуального анализа данных было первоначально разработано в рамках теории искусственного интеллекта в 70-80-х годах, но получили распространение только в последние годы, когда проблема интеллектуализации обработки больших и быстро растущих объемов корпоративных данных потребовала их использования в качестве надстройки над хранилищами данных (рис. 5.1).

Рис. 5.1. Обобщенная структура интеллектуальной системы

Z – неформализованное задание; DM_D – корректирующая информация от оператора (информационный поток); T – формализованное задание; R – ответ с объяснениями отказа и предложением коррекции задания; K – контрольно-диагностическая информация; G – некоторый желаемый вариант решения проблемы (изменение среды); M – формализованное описание среды; M_ID – знания о среде; I – интегрированная внешняя информация; M_L – дополнительные знания о проблеме; С – внешняя информация (от внешних источников информации); D – внутренняя информация (от датчиков состояния системы); P – план действий; E – критерий сближения.

Возможности интеллектуальных информационных технологий:

- наличие баз знаний, отражающих опыт конкретных людей, групп, обществ, человечества в целом, в решении творческих задач в выделенных сферах деятельности, традиционно считавшихся прерогативой интеллекта человека (например, такие плохо формализуемые задачи, как принятие решений, проектирование, извлечение смысла, объяснение, обучение и т.п.);

- наличие моделей мышления на основе баз знаний: правил и логических выводов; аргументации и рассуждения; распознавания и классификации ситуаций; обобщения и понимания и т.п.;

- способность формировать вполне четкие решения на основе нечетких, нестрогих, неполных, недоопределенных данных;

- способность объяснять выводы и решения, то есть наличие механизма объяснений;

- способность к обучению, переобучению и, следовательно, к развитию.

Технология Data Mining

В основу современной технологии Data Mining (discovery-driven data mining) положена концепция шаблонов, отражающих фрагменты многоаспектных взаимоотношений в данных. Эти шаблоны представляют собой закономерности, свойственные выборкам данных, которые могут быть компактно выражены в понятной человеку форме. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений о структуре выборки и виде распределений значений анализируемых показателей.

Важное положение Data Mining – нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные регулярности в данных, составляющие, так называемые, скрытые знания. Data Mining – это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности (рис. 5.2).

Данная технология применяется конечными пользователями и аналитиками. Конечные пользователи используют системы Data Mining для получения информационных электронных таблиц. Аналитики знают, как интерпретировать данные и сделать необходимые вычисления для анализа информации. Данный класс пользователей выполняет три вида анализа: периодический, стратегический и непрерывный.

Рис. 5.2. Уровни знаний, извлекаемых из данных

Периодический анализ используется для определения зарождающихся тенденций развития. Данные для анализа берутся из определенного периода. Стратегический анализ делается на больших объемах данных для понимания специфики происхождения тех или иных событий. Непрерывный анализ используется для получения факторов, которые оказывают воздействие на течение деловых процессов.

Интеллектуальный анализ данных можно разделить на три стадии: выявление закономерностей; использование выявленных закономерностей для предсказания неизвестных значений; анализ исключений (рис. 5.3).

Существуют два типа статистического анализа: исследовательский анализ и подтверждающий анализ. В подтверждающем анализе имеется гипотеза, и он подтверждает или отвергает её. Исследовательский анализ отыскивает подходящие гипотезы для подтверждения или опровержения, при этом аналитическая система берет инициативу на себя при анализе данных, без участия в этом процессе пользователя (например, OLAP (Online Analytical Processing) система).

Рис. 5.3. Составляющие стадии технологии Data Mining

Задачи интеллектуального анализа данных можно разделить по типу извлекаемой информации: классификация; кластеризация; выявление ассоциаций; выявление последовательностей; прогнозирование (рис. 5.4).

Основные методики, использующиеся при интеллектуальном анализе данных, могут быть выделены в отдельные группы, каждая из которых имеет свои преимущества и области применения. Современные методики строятся как на выделении шаблонов, так и на сохранении и длительном использовании данных. Выделение шаблонов может быть разделено на три группы методик: логическая, вычислительная и перекрестные таблицы. Гибридные или смешанные подходы считают наилучшими, соединяя в себе логику и уравнения с многомерным анализом.

Рис. 5.4. Подходы технологии Data Mining

5.1.2. OLAP – системы оперативной аналитической обработки данных

OLAP (On-Line Analytical Processing) – это класс приложений и технологий оперативной аналитической обработки многомерных данных (сбор, хранение, анализ) для анализа деятельности корпорации и прогнозирования будущего состояния с целью поддержки процессов принятия управленческих решений.

Измерение – это последовательность значений одного из анализируемых параметров. Множественность измерений предполагает представление данных в виде многомерной модели (multi-dimensional conceptual view). По измерениям в многомерной модели откладывают параметры, относящиеся к анализируемой предметной области. Одновременный анализ по нескольким измерениям определяется как многомерный анализ.

Каждое измерение может быть представлено в виде иерархической структуры. Некоторые измерения могут иметь несколько видов иерархического представления (например, «время»: «год-квартал-месяц-день» и «неделя-день»). На пересечениях осей измерений (Dimensions) располагаются данные, количественно характеризующие анализируемые факты, – меры (Measures). Это могут быть объемы продаж, выраженные в единицах продукции или в денежном выражении, остатки на складе, издержки и т.п. Таким образом, многомерную модель данных можно представить как гиперкуб (рис. 5.5). Ребрами такого гиперкуба являются измерения, а ячейками – меры.

Рис. 5.5. Представление данных в виде гиперкуба

Функциональность OLAP как систем, реализующих интеллектуальный анализ данных, заключается в динамическом многомерном анализе консолидированных данных предприятия, направленном на поддержание следующих аналитических и навигационных видов деятельности пользователя:

- вычисления и моделирование, примененные к измерениям и/или их конкретным элементам, использующие информацию об иерархиях;

- анализ временных тенденций и взаимозависимостей показателей (анализ трендов), учет которых помогает повысить качество принимаемых оперативных и стратегических решений;

- формирование срезов многомерного представления для просмотра на экране;

- переход к более глубоким уровням детализации;

- доступ к исходным данным;

- «вращение» многомерных представлений: перемещение измерений с целью формирования различных форм представления данных на экране компьютера.

Главная особенность аналитических БД (OLAP) – это возможность формирования нерегламентированных запросов к аналитической БД. Загрузка данных в систему производится из оперативной БД предприятия.

Корпоративная аналитическая система, построенная на основе OLAP-технологии, позволяет различным категориям пользователей компании в реальном масштабе времени работать с обобщенной аналитической информацией и эффективно ориентироваться в больших объемах данных.

Корпоративная аналитическая система может состоять из нескольких модулей, каждый из которых обрабатывает несколько информационных массивов, необходимых для проведения всестороннего анализа соответствующего аспекта деятельности предприятия. Информационная модель, на основе которой разработана информационная система, в полном объеме описывает все аспекты предметной области и обеспечивает наглядность и простоту доступа к необходимым для анализа данным.