Принятие решения о количестве кластеров

Главный вопрос кластерного анализа — вопрос о количестве кластеров. Здесь нет твердых правил, позволяющих быстро принять решение, но можно руководствоваться следующим.

1. При определении количества кластеров руководствуются теоретическими и практическими соображениями. Например, если цель кластеризации — выявление сегментов рынка, то менеджмент может захотеть получить конкретное число кластеров.

2. В иерархической кластеризации в качестве критерия можно использовать расстояния, при которых объединяют кластеры. В нашем случае из плана агломерации в табл. 20.2 видно, что значение в колонке "Коэффициент" увеличивается больше, чем вдвое при переходе от 17 к 18 стадии. Аналогично, на последних стадиях древовидной диаграммы (рис. 20.8) кла­стеры объединяются при больших расстояниях. Следовательно, самое приемлемое реше­ние — это решение о трех кластерах.

3. В неиерархической кластеризации чертят график зависимости отношения суммарной внут-ригрупповой дисперсии к межгрупповой дисперсии от числа кластеров. Точка, в которой наблюдается изгиб или резкий поворот, указывает на приемлемое количество кластеров. Увеличение числа кластеров за эту точку обычно безрезультативно.

4. Относительные размеры кластеров должны быть достаточно выразительными. Из табл. 20.2, просто подсчитав частоты кластерной принадлежности, мы увидим, что решение с тремя кла­стерами приводит к кластерам, содержащим 8, 6 и 6 элементов. Однако если мы перейдем к четырем кластерам, то размеры кластеров будут 8, 6, 5 и 1. Бессмысленно создавать кластер с одним случаем, поэтому в данной ситуации предпочтительнее решение с тремя кластерами.

Интерпретация и профилирование кластеров

Интерпретация и профилирование кластеров включает проверку кластерных центроидов. Центроиды представляют средние значения объектов, содержащиеся в кластере по каждой из переменных. Они позволяют описывать каждый кластер, если присвоить ему номер или метку. Если компьютерная программа кластеризации не выдаст такую информацию, ее можно полу­чить через дискриминантный анализ. В табл. 20.3 приведены центроиды или средние значе­ния для каждого кластера в расматриваемом примере.

(блица 20.3. Кластерные центроиды

Средние переменных Номер кластера V/

Уз

Vs

5,750 3,625 6,000 3,125 1,750 3,875
1,667 3,000 1,833 3,500 5,500 3,333
3,500 5,833 3,333 6,000 3,500 6,000

Кластер 1 имеет относительно высокие значения по переменной FJ (посещение магазинов — приятный процесс) и переменной V3 (я совмещаю посещение магазинов с питанием вне дома). Он также имеет низкое значение по переменной У5 (меня не интересуют покупки). Следователь­но, кластер 1 можно назвать так: "любители посещать магазины и делать покупки". Этот кластер состоит из случаев 1, 3, 6, 7, 8, 12, 15 и 17. Кластер 2 — прямая противоположность кластеру 1: он имеет низкие значения по переменным У{иУ3и высокое значение по переменной К5, значит, этот кластер можно назвать "апатичные покупатели". В кластер входят случаи 2, 5, 9, 11, 13 и 20. Кла­стер 3 имеет высокие значения по переменным У2 (посещение магазинов плохо сказывается на моем бюджете), У4 (я стараюсь сделать лучшие покупки, посещая магазины) и F6 (можно сэконо­мить много денег, сравнивая цены в разных магазинах). Таким образом, этот кластер можно на­звать "экономные покупатели". Кластер 3 охватывает случаи 4, 10, 14, 16, 18 и 19.

Часто имеет смысл профилировать кластеры через переменные, которые не явились о( нованием для кластеризации. Эти переменные могут включать демографические, психогрг фические характеристики, использование продукта или другие переменные. Например, клг стеры можно вывести, исходя из искомых преимуществ. Дальнейшее профилирование ос> ществляют через демографические или психографические переменные, чтобы определи! маркетинговую стратегию для каждого кластера. Переменные, существенно различающиес между кластерами, можно идентифицировать дискриминантным анализом и однофакто{ ным дисперсионным анализом.