Глава 2. Классификация наблюдений. Кластерный анализ

Классификация – это систематизация объектов по признакам. Объективной причиной практического значения классификации являются сложнейшие проблемы хранения, поиска, использования огромных архивов эмпирических данных. Возникает необходимость сократить количество этих данных и при этом не потерять слишком много информации, в них заложенной.

Процедура упрощения массива данных для того, чтобы облегчить его содержательную интерпретацию, называется кластеризацией. Несмотря на то, что кластерный анализ известен относительно давно, распространение эта группа методов получила существенно позже, чем другие многомерные методы математической статистики. Лишь после публикации книги Р.Сокала и П.Снита «Начала численной таксономии» в 1963 году начинают появляться первые исследования с использованием этого метода. Тем не менее, до сих пор в социологических исследованиях известны лишь единичные случаи удачного применения кластерного анализа, несмотря на его исключительную простоту. Вызывает удивление настойчивость, с которой социологи используют для решения задачи классификации (объектов, признаков) такой сложный метод, как факторный анализ. Вместе с тем кластерный анализ не только гораздо проще и нагляднее решает эту задачу, но и имеет несомненное преимущество: результат его применения не связан с потерей даже части исходной информации о различиях объектов или корреляции признаков.

При анализе и обработке социально-экономической информации возникает проблема выделения социально значимых, качественно отличных друг от друга, но внутренне однородных процессов или явлений. Например, разбиение респондентов на однородные группы при социологических опросах, сегментация конкурентов и потребителей в маркетинге, выявление наиболее эффективного способа управления персоналом по данным анкетирования сотрудников, выявление схожих производственных ситуаций при которых возникает брак и т.д.

Пусть, например, стоит задача определить наиболее эффективный способ управления персоналом предприятия. Проводим анкетирование сотрудников по показателям качества их трудовой жизни. Получаем первичную информацию в виде таблицы типа «объект-признак». Объекты – это респонденты, мнения респондентов –признаки. Каждый признак порождает на множестве анкет разбиение респондентов по числу градаций данного признака. Порознь множество признаков мало информативно. В этой ситуации логично на их основе создать обобщающий качественный признак. Классификация по значениям обобщающего признака должна выявить группы респондентов, однородных по большому числу исходных признаков. То есть необходимо разделить сотрудников на группы, затем для каждой из них выделить наиболее эффективные рычаги управления. При этом различия между группами должны быть очевидными, а внутри группы респонденты должны быть максимально похожи.

Для создания классификации первичной анкетной информации на основе данных опроса можно использовать процедуры кластерного анализа. При этом проведение кластерного анализа не требует наличия каких-либо априорных гипотез, предположений о наборе данных.

Методы кластеризации различаются правилами построения групп (кластеров). В качестве правила выступает критерий, который используется при решении вопроса о «схожести» объектов при их объединении в группу (кластер).

В настоящее время известны различные методы кластерного анализа, такие как центроидные взвешенный и невзвешенный, метод попарно среднего, метод ближайшего соседа и др.

Рассмотрим основной принцип кластерного анализа на примере метода «ближайшего соседа».

Пример.

Пять объектов характеризуются двумя признаками (см. таблицу ниже):

объект
Признак 1
Признак 2

 

Кластерный анализ объектов, для которых заданы значения количественных признаков, начинается с расчета различий для всех пар объектов. В качестве меры различия выбирается расстояние между объектами в n-мерном пространстве признаков, чаще всего евклидово расстояние или его квадрат. В данном примере n = 2 и расстояние между объектами i и j определяется по формуле

 

.

 

Заполним таблицу:

объект
2,24 5,10 12,65 11,18
  3,61 11,18 9,49
    7,62 6,08
      2,24
       

 

На следующем шаге путем перебора всех пар объектов определяется пара (или пары) наиболее близких объектов (с наименьшим расстоянием), которые объединяются в первичный кластер.

Заполним таблицу:

 

Объекты 4,5
2.24 5.10 11.18
  3.61 9.49
    6.08
4,5      

 

Далее на каждом следующем шаге к каждому первичному кластеру присоединяется объект (кластер), который к нему ближе. Этот процесс повторяется до тех пор, пока не будет достигнуто априорно определенное исследователем количество кластеров. Однако чаще конечное число кластеров определяется в процессе разделения множества объектов. В нашем примере кластеризацию заканчиваем, получив 2 кластера-(1,2,3) и (4,5).Как видно из примера кластерный анализ-это комбинаторная процедура, имеющая простой и наглядный результат. Широта возможного применения кластерного анализа очевидна настолько же, насколько очевиден и его смысл, а возможность проводить исследования методом кластерного анализа на компьютере, используя современные программы, такие как SPSS или STADIA , позволяет считать этот метод достаточно перспективным. Работа с кластерным анализом в программах SPSS и STADIA можно найти в работе [1].

Важное достоинство кластерного анализа в том, что он позволяет производить разбиение объектов не по одному параметру, а по целому набору признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов, и позволяет рассматривать множество исходных данных практически произвольной природы. Это имеет большое значение, например, для прогнозирования конъюнктуры, когда показатели имеют разнообразный вид, затрудняющий применение традиционных эконометрических подходов.

Кластерный анализ позволяет рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы социально-экономической информации, делать их компактными и наглядными.

Большое значение кластерный анализ имеет применительно к совокупностям временных рядов, характеризующих экономическое развитие (например, общехозяйственной и товарной конъюнктуры). Здесь можно выделять периоды, когда значения соответствующих показателей были достаточно близкими, а также определять группы временных рядов, динамика которых наиболее схожа.

Кластерный анализ можно использовать циклически. В этом случае исследование производится до тех пор, пока не будут достигнуты необходимые результаты. При этом каждый цикл здесь может давать информацию, которая способна сильно изменить направленность и подходы дальнейшего применения кластерного анализа. Этот процесс можно представить системой с обратной связью.

В задачах социально-экономического прогнозирования весьма перспективно сочетание кластерного анализа с другими количественными методами (например, с регрессионным анализом).

Как и любой другой метод, кластерный анализ имеет определенные недостатки и ограничения: В частности, состав и количество кластеров зависит от выбираемых критериев разбиения. При сведении исходного массива данных к более компактному виду могут возникать определенные искажения, а также могут теряться индивидуальные черты отдельных объектов за счет замены их характеристиками обобщенных значений параметров кластера. При проведении классификации объектов игнорируется очень часто возможность отсутствия в рассматриваемой совокупности каких-либо значений кластеров.

В кластерном анализе считается, что:

а) выбранные характеристики допускают в принципе желательное разбиение на кластеры;

б) единицы измерения (масштаб) выбраны правильно.

Выбор масштаба играет большую роль. Как правило, данные нормализуют вычитанием среднего и делением на стандартное отклонение, так что дисперсия оказывается равной единице.

Как уже упоминалось выше, сегодня существует достаточно много методов кластерного анализа. Остановимся на некоторых из них (ниже приводимые методы принято называть методами минимальной дисперсии).

Если Х - матрица наблюдений: Х = (Х1, Х2,..., Хu), то квадрат евклидова расстояния между Хi и Хj определяется по формуле

 

.

1) Метод полных связей.

Суть данного метода в том, что два объекта, принадлежащих одной и той же группе (кластеру), имеют коэффициент сходства, который меньше некоторого порогового значения S. В терминах евклидова расстояния это означает, что расстояние между двумя точками (объектами) кластера не должно превышать некоторого порогового значения h. Таким образом, h определяет максимально допустимый диаметр подмножества, образующего кластер.

2) Метод максимального локального расстояния.

Каждый объект рассматривается как одноточечный кластер. Объекты группируются по следующему правилу: два кластера объединяются, если максимальное расстояние между точками одного кластера и точками другого минимально. Процедура состоит из n - 1 шагов и результатом являются разбиения, которые совпадают со всевозможными разбиениями в предыдущем методе для любых пороговых значений.

3) Метод Ворда.

В этом методе в качестве целевой функции применяют внутригрупповую сумму квадратов отклонений, которая есть ни что иное, как сумма квадратов расстояний между каждой точкой (объектом) и средней по кластеру, содержащему этот объект. На каждом шаге объединяются такие два кластера, которые приводят к минимальному увеличению целевой функции, т.е. внутригрупповой суммы квадратов. Этот метод направлен на объединение близко расположенных кластеров.

4) Центроидный метод.

Расстояние между двумя кластерами определяется как евклидово расстояние между центрами (средними) этих кластеров:

.

Кластеризация идет поэтапно на каждом из n–1 шагов объединяют два кластера, имеющие минимальное значение d2ij Если n1 много больше n2, то центры объединения двух кластеров близки друг к другу и характеристики второго кластера при объединении кластеров практически игнорируются. Иногда этот метод называют еще методом взвешенных групп.

Очень важным вопросом является проблема выбора необходимого числа кластеров. Иногда можно число кластеров выбирать априорно. Однако в общем случае это число определяется в процессе разбиения множества на кластеры.

Проводились исследования Фортьером и Соломоном, и было установлено, что число кластеров должно быть принято для достижения вероятности того, что найдено наилучшее разбиение. Таким образом, оптимальное число разбиений является функцией заданной доли b наилучших или в некотором смысле допустимых разбиений во множестве всех возможных. Общее рассеяние будет тем больше, чем выше доля b допустимых разбиений. Фортьер и Соломон разработали таблицу, по которой можно найти число необходимых разбиений S(a, b) в зависимости от a и b, где a - вероятность того, что найдено наилучшее разбиение, b - доля наилучших разбиений в их общем числе. При этом, в качестве меры разнородности используется не мера рассеяния, а мера принадлежности, введенная Хользенгером и Харманом. Таблица значений S(a, b) приводится ниже.

Таблица значений S(a, b)

a / b 0,20 0,10 0,05 0,01 0,001 0,0001
0,20
0,10
0,05
0,01
0,001
0,0001

 

Довольно часто критерием объединения (числа кластеров) становится изменение соответствующей функции. Например, суммы квадратов отклонений:

Процессу группировки должно соответствовать здесь последовательное минимальное возрастание значения критерия E. Наличие резкого скачка в значении E можно интерпретировать как характеристику числа кластеров, объективно существующих в исследуемой совокупности.

Итак, второй способ определения наилучшего числа кластеров сводится к выявлению скачков, определяемых переходом от сильно связанного к слабосвязанному состоянию объектов.

Наиболее известный метод представления матрицы расстояний или сходства основан на идее дендограммы или диаграммы дерева. Дендограмму можно определить как графическое изображение результатов процесса последовательной кластеризации, которая осуществляется в терминах матрицы расстояний. С помощью дендограммы можно графически или геометрически изобразить процедуру кластеризации при условии, что эта процедура оперирует только с элементами матрицы расстояний или сходства.

Существует много способов построения дендограмм. В дендограмме объекты располагаются вертикально слева, результаты кластеризации – справа. Значения расстояний или сходства, отвечающие строению новых кластеров, изображаются по горизонтальной прямой поверх дендограмм.

 

Рис.1.

 

На рис. 1 показан один из примеров дендограммы. Рисунок соответствует случаю шести объектов (n = 6) и k характеристик (признаков). Объекты А и С наиболее близки и поэтому объединяются в один кластер на уровне близости, равном 0,9. Объекты D и Е объединяются при уровне 0,8. Теперь имеем 4 кластера:

(А, С), (F), (D, E), (B).

Далее образуются кластеры (А, С, F) и (E, D, B), соответствующие уровню близости, равному 0,7 и 0,6. Окончательно все объекты группируются в один кластер при уровне 0,5.

Вид дендограммы зависит от выбора меры сходства или расстояния между объектом и кластером и метода кластеризации. Наиболее важным моментом является выбор меры сходства или меры расстояния между объектом и кластером.

Число алгоритмов кластерного анализа слишком велико. Все их можно подразделить на иерархические и неиерархические.

Иерархические алгоритмы связаны с построением дендограмм и делятся на:

а) агломеративные, характеризуемые последовательным объединением исходных элементов и соответствующим уменьшением числа кластеров;

б) дивизимные (делимые), в которых число кластеров возрастает, начиная с одного, в результате чего образуется последовательность расщепляющих групп.

Алгоритмы кластерного анализа имеют сегодня хорошую программную реализацию, которая позволяет решить задачи самой большой размерности.

Кластерный анализ можно применять к интервальным данным, частотам, бинарным данным. Важно, чтобы переменные изменялись в сравнимых шкалах.

Неоднородность единиц измерения и вытекающая отсюда невозможность обоснованного выражения значений различных показателей в одном масштабе приводит к тому, что величина расстояний между точками, отражающими положение объектов в пространстве их свойств, оказывается зависящей от произвольно избираемого масштаба. Чтобы устранить неоднородность измерения исходных данных, все их значения предварительно нормируются, т.е. выражаются через отношение этих значений к некоторой величине, отражающей определенные свойства данного показателя. Нормирование исходных данных для кластерного анализа иногда проводится посредством деления исходных величин на среднеквадратичное отклонение соответствующих показателей. Другой способ сводиться к вычислению, так называемого, стандартизованного вклада. Его еще называют Z-вкладом.

Z-вклад показывает, сколько стандартных отклонений отделяет данное наблюдение от среднего значения:

,

где xi – значение данного наблюдения, – среднее, S – стандартное отклонение.

Среднее для Z-вкладов является нулевым и стандартное отклонение равно 1. Стандартизация позволяет сравнивать наблюдения из различных распределений.

Примеры для самостоятельной работы

Пять производственных объединений характеризуются двумя признаками: объемом продаж и среднегодовой стоимостью основных производственных фондов.

 

объект
объем продаж a b c d e
среднегодовая стоимость f g h k m

 

 

Провести классификацию этих объектов с помощью принципа «ближайшего соседа».

 

N a b c d e f g h k m