Телекоммуникационный бизнес

Телекоммуникационные компании работают в условиях жесткой конкуренции. Использование технологий Data Mining, направленных как на анализ доходности и риска клиентов, так и на защиту от мошенничества, может сэкономить этим компаниям огромные средства.

Промышленное производство - идеальная среда для применения технологий Data Mining. Причина заключается в природе технологического процесса, который должен быть воспроизводимым и контролируемым. Таким образом, создается статистическая стабильность, наиболее важная для классификации. Пример применения Data Mining в промышленности - прогнозирование качества изделия в зависимости от параметров технологического процесса.

Банковский сектор

Классическим примером применения Data Mining на практике может служить решение вопроса о кредитоспособности клиентов банка. Система поддержки принятия решений со встроенной функциональностью Data Mining опирается в своей работе только на базу данных банка, где записывается детальная информация о каждом клиенте и в итоге - факт его кредитоспособности. Классификационные алгоритмы Data Mining обрабатывают эти данные, и полученные результаты используются для принятия решений.

Страхование

В этой сфере, так же как в банковском деле и маркетинге, возникает задача обработки больших объемов информации для определения типичных групп (профилей) клиентов. Эта информация используется для того, чтобы предлагать определенные услуги страхования с наименьшим для компании риском и, возможно, с пользой для клиента.

Таким образом, применение методов интеллектуального анализа открывает новые перспективы во многих сферах исследования, и в том числе, как мы попытаемся доказать, в области анализа финансового состояния предприятий.

Для решения управленческих задач можно использовать методы интеллектуального анализа: метод нейронных сетей и метод опорных векторов (SVM).

Нейронные сети - класс аналитических методов, построенных на (гипотетических) принципах обучения мыслящих существ и функционирования мозга и позволяющих прогнозировать значения некоторых переменных в новых наблюдениях по данным других наблюдений (для этих же или других переменных) после прохождения этапа так называемого обучения на имеющихся данных.

Термин "искусственные нейронные сети" уходит корнями в биологию, так как сети состоят из элементов, функциональные возможности которых аналогичны большинству элементарных функций биологического нейрона.

Искусственные нейронные сети способны менять свое поведение в зависимости от внешней среды. После предъявления входных сигналов (возможно, вместе с требуемыми выходами) они самонастраиваются, чтобы обеспечивать требуемую реакцию.

Первыми авторами, описывающими алгоритм нейронных сетей, были У. С. Мак-Каллок, В. Питтс (1943). В 1950-е и 1960-е гг. группа исследователей создала первые искусственные нейронные сети. Выполненные первоначально как электронные сети, они были позднее перенесены в более гибкую среду компьютерного моделирования, сохранившуюся и в настоящее время. Марвин Ли Минский (Marvin Lee Minsky), Ф. Розенблатт (Frank Rosenblatt) изобрели Б. Уидроу (В. Widrow) и его ученик М. Хофф (М. Hoff) разработали Адалин (адаптивный сумматор), который является стандартным элементом многих систем обработки сигналов. Они создали сети, состоящие из одного слоя искусственных нейронов (однослойные).

В 1980-е гг. несколько наиболее настойчивых ученых, таких как Тёуво Калеви Кохонен, Стефан Гроссберг, Дж. А. Андерсон, продолжили исследования. Т. К. Кохоненом представлены модели сети, обучающейся без учителя (нейронная сеть Кохонена), решающей задачи кластеризации, визуализации данных (самоорганизующаяся карта Кохонена) и другие задачи предварительного анализа данных.

После двух десятилетий почти полного забвения интерес к искусственным нейронным сетям стремительно вырос за последние несколько лет. Специалисты из таких далеких областей, как техническое конструирование, философия, физиология и психология, заинтригованы возможностями, предоставляемыми этой технологией, и ищут приложения им внутри своих дисциплин.

Сейчас нейрокомпьютеры нашли применение практически во всех областях деятельности. Нейронная сеть незаменима при решении задач, где отсутствует алгоритм или неизвестны принципы решения, но накоплено достаточное количество примеров. В банках и крупных финансовых учреждениях нейрокомпьютеры отвечают не только за считывание чеков и финансовых документов, проверку достоверности подписей, но и за прогнозирование развития рыночной ситуации, моделирование поведения конкурентов и другие не менее важные задачи. В промышленности нейрокомпьютеры управляют автоматизированным производством, следят за качеством выпускаемой продукции, рассчитывают количество сырья.

Искусственные нейронные сети (ИНС) представляют собой систему соединенных и взаимодействующих между собой простых процессоров (искусственных нейронов), приведенных на рис. 2.6.

Рис. 2.6. Схема двухслойной нейронной сети

Кроме того, можно выделить нейронные сети и по другим признакам:

o аналоговые нейронные сети - используют информацию в форме действительных чисел;

o двоичные нейронные сети - оперируют с информацией, представленной в двоичном виде;

o обучение с учителем - выходное пространство решений нейронной сети известно;

o обучение без учителя - нейронная сеть формирует выходное пространство решений только на основе входных воздействий. Такие сети называют самоорганизующимися;

o обучение с подкреплением - система назначения штрафов и поощрений от среды;

o сети с фиксированными связями;

o сети с динамическими связями - для них в процессе обучения происходит настройка синоптических (гр. синапс - обнимать, обхватывать, пожимать руку - место контакта между двумя нейронами) связей.

Методом классификации, применяем в исследовании, служит метод опорных векторов, или Support Vector Machine (SVM). Первый способ - метод нейросетевого анализа - находит лишь один из возможных способов разделения классов, который не является оптимальным, а метод опорных векторов заключается в построении разделяющей поверхности, наиболее удаленной от всех разделяемых точек. Таким образом, можно предположить, что качество распознавания новых примеров у SVM должно быть выше, чем у нейронной сети. Критерий останова для обучения нейронной сети - нулевая ошибка на обучающем множестве, а критерий останова для метода опорных векторов - близость построенной разделяющей гиперплоскости к оптимальной.

Основное отличие SVM от нейросетей (рис. 2.7) заключается в том, что для нейросети количество настраиваемых коэффициентов должно априорно задаваться пользователем на основании некоторых эвристических соображений. В методе опорных векторов количество настраиваемых параметров автоматически определяется во время настройки и оно, как правило, меньше, чем число векторов в обучающей последовательности. Ненулевыми остаются коэффициенты у опорных векторов, с помощью которых строится разделяющая гиперплоскость.

Рис. 2.7. Разделение нейросетью и SVM

Метод опорных векторов позволяет получить функцию классификации с минимальной верхней оценкой ожидаемого риска (уровня ошибки классификации), а также использовать линейный классификатор для работы с нелинейно разделяемыми данными.

К недостатку метода опорных векторов относится неустойчивость по отношению к шуму в исходных данных. Шумовые выбросы обучающей выборки будут существенным образом учтены при построении разделяющей гиперплоскости.

Основная идея метода опорных векторов, или SVM, состоит в том, что он находит линейное разделение двух множеств таким образом, чтобы расстояние между этими множествами и гиперплоскостью было максимальным. Такая гиперплоскость называется оптимальной разделяющей гиперплоскостью в отличие от гиперплоскости, которую можно получить с помощью нейронных сетей и которая обеспечивает лишь разделение классов, не оценивая при этом расстояния между множествами.

Для решения задачи прогнозирования показателей предприятия необходим программный комплекс. Программа позволяет обрабатывать таблицы отчетов о хозяйственном состоянии предприятий, проводить предварительную подготовку данных для использования методов Data-mining, а также осуществлять прогнозирование.