Методы аналитической обработки данных в хранилище
В аналитических системах для обработки данных используется очень широкая номенклатура методов. Это и традиционные статистические методы регрессионного, факторного, дисперсионного анализа, анализа временных рядов, а также методы, основанные на искусственном интеллекте. К последним, как правило, относят: нейронные сети, нечеткую логику, генетические алгоритмы, методы извлечения знаний. В совокупности они именуются методами интеллектуального анализа данных. Часто используется англоязычный термин «data mining» (дословно — добыча знаний). Эти методы развивают традиционные статистические подходы, находя применение там, где обычные приемы невозможно использовать в силу отсутствия точных зависимостей, описывающих анализируемые процессы. Технологии интеллектуального анализа данных способны существенно расширить круг практически значимых задач, решаемых с использованием вычислительной техники.
В большинстве случаев средства анализа данных в СППР на основе ХД используются для решения следующих задач:
1) выделение в данных групп сходных по некоторым признакам записей (кластерный анализ);
2) нахождение и аппроксимация зависимостей, связывающих анализируемые параметры или события, а также поиск параметров, наиболее значимых в терминах конкретной задачи;
3) поиск данных, существенно отклоняющихся от выявленных закономерностей (анализ аномалий);
4) прогнозирование развития объектов различной природы на основе хранящейся ретроспективной информации об их состоянии в прошлом.
Хранилища данных в ЕАИС
Понятие о хранилищах данных появилось в ЕАИС при построении ее первой очереди, развивалось при построении второй очереди и является магистральным направлением построения ее третьей очереди. Своей популярностью они, в первую очередь, обязаны строгой ориентации на конечного потребителя информационной продукции, а также тому факту, что практически не требуют от рядового пользователя таможенных органов освоения принципиально новых приемов работы с данными. На рис. 46, 47 представлена структура операционной информации, помещаемой в хранилище данных.
Временные характеристики показателей (динамический ряд), составляющих информационных хранилищ данных, сохраняются как основа таможенной статистики при трансформации на новую платформу третьей очереди ЕАИС. Необходимое дополнение к ним — СППР, позволяющие отбирать нужную информацию и получать быстрые ответы на сложные деловые вопросы. На рис. 47 представлена построенная на этих принципах схема ИРС «Доход».
Рис. 46. Структура операционной информации
Использование информационных хранилищ данных позволяет повысить качество обслуживания, а также число услуг, предоставляемых ЕАИС как таможенным органам, так и внешним неторговым организациям.
Рис. 47. Схема функционирования информационно-расчетной системы «Доход»