Кластерный алгоритм выделения «ведущих» показателей

Рассмотренный ниже алгоритм А2 основан на применении аппарата кластерного анализа, задачей которого является разделение рассматриваемой совокупности объектов на некоторые однородные группы, называемые кластерами. Следует отметить, что в настоящее время имеется множество различных подходов к решению задачи кластеризации объектов или признаков [27].

При не очень большой размерности задачи (n<100) наиболее эффективными являются алгоритмы, основанные на последовательном объединении наиболее близких кластеров в один. Они свободны от такого недостатка, как зависимость результата от порядка просмотра, не требуют первоначального разбиения объектов на кластеры.

При использовании в качестве объектов кластеризации признаков (показателей) естественной мерой близости Pi и Pj является абсолютная величина коэффициента корреляции .

За меру близости показателя Pk и кластера Gl примем абсолютную величину коэффициента корреляции между Pk и gl, где gl характеризует центр кластера Gl и с точностью до нормирования равен [29]

, (4.19)

где величина mi может принимать два значения: 1 или –1.

Учитывая, что нормирование gl не изменяет его корреляции с другими переменными и стандартизованность имеем

.

Из (4.19) следует, что ,

и, следовательно,

    (4.20)    

 

В качестве меры близости между кластерами Gl и Gs будем использовать абсолютную величину коэффициента корреляции между gl и gs.

   
    (4.21)

 

На практике, однако, мы имеем выборочную корреляционную матрицу показателей, поэтому в качестве меры близости будем использовать соответствующие оценки

(4.22)

    (4.23)

 

Сущность алгоритма А2 состоит в следующем. Вначале каждый показатель рассматривается как отдельный кластер и все равны единице. На каждом шаге работы алгоритма отыскивается максимальный по абсолютной величине элемент матрицы близости :

,

где QT – текущая размерность матрицы близости.

Кластеры Gl и Gs объединяются в один – Gl*. При этом анализируется знак коэффициента корреляции . Если он положителен, величины mj показателей, входивших в кластер Gs, сохраняются, а в противном случае изменяются на противоположные.

Далее рассчитывается центр кластера Gl*:

и преобразуется матрица близости: из нее исключаются элементы, характеризующие расстояние до каждого из объединившихся кластеров, и добавляются элементы, определяющие близость между полученным кластером Gl* и всеми остальными.

В каждом кластере выбирается по одному «ведущему» показателю, наиболее близкому к центру кластера. Данный выбор обусловлен тем, что вектор gl максимизирует [18], приводя к максимально тесной средней связи с ним всех остальных показателей кластера.

Таким образом, на текущем (i-м) шаге работы алгоритма формируется «ведущих» показателя. Процесс кластеризации продолжается до тех пор, пока выполняется условие (4.15).

Использование в качестве меры близости кластеров абсолютной величины коэффициента корреляции между векторами центров кластеров приводит к объединению кластеров с наиболее близкими центрами. При этом происходит замена двух близких «ведущих» показателей одним, что позволяет надеяться на сохранение выполнения системы ограничений.

Отметим, что рассмотренные выше алгоритмы А1 и А2 обеспечивают тесную статистическую связь «ведомых» показателей с «ведущими», однако в принципе не гарантируют слабой коррелированности «ведущих» показателей.

Особенностью рассмотренного ниже алгоритма А3 является попытка учесть оба эти требования: тесная связь «ведомых» показателей с «ведущими» и слабая коррелированность «ведущих» показателей между собой.

Такой подход обеспечивается использованием следующего критерия выхода из процедуры кластеризации [20]:

  (4.24)

где nr – число показателей в кластере Sr;

k – количество кластеров.

Критерий (4.24) представляет собой разность между средней мерой близости показателей внутри кластеров и средней мерой близости между показателями из разных кластеров. Наилучшим вариантом кластеризации считается тот, при котором значение этого критерия максимально. Проведенные исследования показали, что значение критерия возрастает на начальном этапе объединения объектов в кластеры, достигает максимума при некотором количестве кластеров k, а затем уменьшается.