Системы управления базами данных с набором алгоритмов Data Mining

Практически все крупные производители систем управления базами данных (СУБД) включают в состав своих продуктов средства для анализа данных и поддержку хранилищ данных. Эти инструменты как бы встраиваются внутрь СУБД, благодаря чему достигается высокая производительность, а алгоритмы интеллектуального анализа по максимуму используют преимущества СУБД. Вместе с тем есть и минусы: жесткая привязка всех методов анализа к одной СУБД и сложность в создании прикладных решений, поскольку работа с СУБД ориентирована на программистов и администраторов баз данных. Часто такие системы рассматривают как аналитические платформы, хотя они имеют ряд ограничений. Представители данного класса систем: Microsoft SQL Server Analysis Services (Microsoft Corp.), Oracle Business Intelligence (Oracle Corp.), IBM DB2 Intelligent Miner (компания IBM).

Универсальные прикладные аналитические платформы

В отличие от СУБД с набором алгоритмов Data Mining, аналитические платформы изначально ориентированы на анализ данных и предназначены для создания готовых решений в корпоративной среде. Аналитическая платформа — это специализированное программное решение (или набор решений), которое содержит в себе все инструменты для извлечения закономерностей из "сырых" данных: средства консолидации информации в едином источнике (хранилище данных), извлечения, преобразования, трансформации данных, алгоритмы Data Mining, средства визуализации и распространения результатов среди пользователей, а также возможности "конвейерной" обработки новых данных с интеграцией в бизнес-процессы предприятия.

В аналитической платформе, как правило, всегда присутствуют гибкие и развитые средства консолидации, включающие богатые механизмы интеграции с промышленными источниками данных, инструменты очистки и преобразования структурированных данных и их последующее хранение в едином источнике в многомерном виде — в хранилище данных. Модели, описывающие выявленные закономерности, правила и прогнозы, также хранятся в специальном источнике данных — репозитарии моделей, доступ к которому осуществляется на основе системы прав и привилегий.

Есть еще важная отличительная особенность аналитических платформ — это графические инструменты для визуального моделирования. Такая среда моделирования позволяет аналитику строить последовательности шагов по обработке данных от получения начальных данных до конечного результата. Шаги представляют собой набор атомарных но отношению к данным операций, каждую из которых можно представить отдельным узлом (выборка данных, фильтрация, сортировка, добавление нового столбца, построение модели и т.п.). Набор узлов образует графическую диаграмму и чаще всего изображается в виде направленного графа. Таким образом, диаграмма описывает формализованную последовательность действий над данными, и эти действия можно повторить на совершенно других данных, предварительно настроив соответствие нолей их источников и приемников.

Сегодня аналитические платформы — это самый быстрорастущий и привлекательный сегмент рынка программного обеспечения ИАД. Число компаний, входящих в "магический квадрант платформ бизнес-аналитики" компании Gartner1, насчитывает более 20 производителей. Лидерами являются компании: SAS, SAP, IBM, Oracle, Microstrategy, Microsoft, QlickTcch, Information Builders. В 2012 г. в "магический квадрат" попала российская разработка Prognoz Platform. Из российских вендоров следует отметить аналитическую платформу Deductor компании BaseGroup Labs. В квадрате присутствует и аналитическая платформа с открытыми исходными кодами — Pentaho.

Системы для визуализации многомерных данных

В той или иной мере средства для графического отображения данных поддерживаются всеми системами Data Mining. Вместе с тем весьма внушительную долю рынка занимают системы, специализирующиеся исключительно на этой функции. Примером здесь могут служить компоненты и продукты компаний Miner 3D, Visual Mining.

В подобных системах основное внимание сконцентрировано на дружелюбности пользовательского интерфейса, позволяющего ассоциировать с анализируемыми показателями различные параметры диаграммы рассеивания объектов (записей) базы данных. К таким параметрам относятся цвет, форма, ориентация относительно собственной оси, размеры и другие свойства графических элементов изображения. Кроме того, системы визуализации данных снабжены удобными средствами для масштабирования и вращения изображений, в том числе на различные мобильные программные платформы.

В приложении 9 приведена общая характеристика и примеры применения интеллектуального анализа данных при моделировании в организационных системах.