Вращение факторной структуры

Как уже отмечалось, одним из критериев выбора числа факторов является их хорошая интерпретируемость. Интерпретация же фактора осуществляется, исходя из того, с какими исходными переменными он сильно коррелирует. Коэффициенты корреляции между факторами и исходными переменными равны факторным нагрузкам, на основе которых можно рассчитать исходные переменные, зная факторы (см. формулу 13.1). Просматривая список исходных переменных, сильно коррелирующих с фактором, можно дать фактору название и содержательную интерпретацию.

Факторы, как мы помним, строятся вовсе не из тех соображений, чтобы их можно было хорошо проинтерпретировать; каждый из них выбирается так, чтобы, будучи ортогональным ко всем ранее построенным факторам, он объяснял максимум дисперсии. Когда факторное решение найдено, на первый план выходит проблема интерпретируемости. И тут выясняется, что нам по большому счету теперь не важно, куда устремлен тот или иной фактор, раз факторное подпространство уже зафиксировано. А значит, мы можем поворачивать оси этого подпространства как угодно, лишь бы факторы стали хорошо интерпретируемыми. Следовательно оси нужно повернуть так, чтобы каждый фактор как можно сильнее коррелировал с одними исходными переменными и как можно слабее - с другими. Разные методы вращения факторов реализуют это по-разному, вкладывают в данное общее пожелание разный математический смысл. Перечислим эти методы.

Варимакс (Varimax) - метод вращения, при котором при сохранении ортогональности факторов минимизируется число переменных с высокой факторной нагрузкой. Этот метод используется на практике чаще всего, так как он существенно облегчает интерпретацию факторов.

Квартимакс (Quartimax) - метод ортогонального вращения, при котором минимизируется число факторов, необходимых для объяснения исходных переменных. Соответственно этот метод позволяет упростить интерпретацию исходных переменных через факторы. Такая потребность возникает достаточно редко, крайне редко используется и этот метод.

Эквимакс (Equimax) - метод ортогонального вращения, являющийся компромиссом между двумя предыдущими методами. С его помощью минимизируется как число переменных с большими факторными нагрузками, так и число факторов, требуемых для объяснения исходных переменных.

Прямой облимин (Direct oblimin) - метод вращения, при использовании которого для лучшей интерпретации факторов допускается некоторая косоугольность факторной структуры, т.е. факторы становятся не ортогональными. Конкретная реализация этого метода зависит от параметра дельта, который должен ввести исследователь. По умолчанию этот параметр равен нулю. При этом значении достигается рекомендуемая разработчиками метода степень косоугольности. Чтобы сделать решение еще более косоугольным, нужно ввести положительное дельта, но не большее чем 0,8. Если же значение дельта отрицательно, решение становится менее косоугольным, чем рекомендуют разработчики.

Промакс (Рготах) - метод косоугольного вращения, которое выполняется быстрее, чем прямой облимин, и поэтому используется вместо последнего только тогда, когда наборы данных очень велики.

Пример 13.5

Использование факторного анализа

Приведем пример, из которого станут ясны возможности, предоставляемые факторным анализом. По ходу рассмотрения примера будет упомянут ряд обстоятельств, которые следует иметь в виду при использовании этого метода.

Студенты факультета менеджмента НИУ-ВШЭ в течение ряда лет опрашивались по одной и той же анкете. Основную часть анкеты составлял блок вопросов, касающихся стиля жизни и некоторых установок.

Анкета содержала 22 высказывания.

1. Люблю развлечься в хорошей компании.

2. Стараюсь почитать книжку при первой возможности.

3. Люблю решать четко и ясно поставленные задачи.

4. Делать покупки - для меня удовольствие.

5. Часто телевизор у меня работает, но я на него почти не обращаю внимания.

6. Люблю, когда у меня в кармане кругленькая сумма.

7. Люблю уют и тишину.

8. Когда смотрю телевизор, я часто переключаю программы.

9. Всегда стараюсь найти вариант, когда почти то же самое получаешь гораздо дешевле.

10. Я легко нахожу общий язык с незнакомыми людьми.

11. Я взрослый человек и должен помогать семье материально.

12. Обычно я включаю телевизор только для того, чтобы посмотреть определенную передачу, которая мне интересна.

13. Стараюсь, чтобы у меня все было самое лучшее.

14. Совершенно не выношу очередей, лучше переплатить.

15. По-моему, в жизни главное - везенье.

16. По натуре я - лидер.

17. Я всегда могу легко объясниться по-английски.

18. Для меня удовольствие - посмотреть хороший рекламный клип.

19. Я очень много времени провожу за компьютером.

20. Я не выношу, когда мной пытаются командовать.

21. Люблю находить решение, ориентироваться в неопределенной ситуации.

22. Для меня всегда очень важно, как я выгляжу в глазах окружающих.

Респонденты оценивали, в какой степени каждое высказывание относится или не относится к ним, давая ответы по пятибалльной шкале Лайкерта:

1) безусловно, не относится;

2) скорее, не относится;

3) затрудняюсь ответить, относится или нет;

4) скорее, относится;

5) безусловно, относится.

Замечание 1. Для получения при использовании факторного анализа надежных результатов рекомендуется, чтобы размер выборки был в 4-5 раз больше числа исходных переменных. Кроме того, сами эти переменные должны измеряться в интервальной или пропорциональной шкалах. (При этом бинарные, например, состоящие только из нулей и единиц переменные тоже могут трактоваться как интервальные.)

В данном случае было опрошено 129 студентов, что более чем в пять раз превышает число анализируемых переменных. Таким образом, первое требование выполняется. Что же касается типа используемых шкал, то, по мнению большинства исследователей, шкалу Лайкерта можно рассматривать в качестве интервальной, так что выполняется и второе требование.

Замечание 2. Факторный анализ эффективен, если между исходными переменными существует заметная корреляция. Чтобы убедиться, что это так, осуществляется проверка по критерию выборочной адекватности Кайзера - Мейера - Олкина и критерию сферичности Бартлетта (табл. 13.4).

Таблица 13.4. Проверка целесообразности использования факторного анализа по критерию выборочной адекватности Кайзера - Мейера - Олкина и критерию сферичности Бартлетта

Мера выборочной адекватности Кайзера - Мейера - Олкина

,888

Критерий сферичности Бартлетта

Прибл. χ2

1719,749

Ст. св.

210

Значение статистики

,000

С помощью теста сферичности Бартлетта проверяется нулевая гипотеза об отсутствии корреляций между параметрами, т.е. что если бы матрица корреляций была рассчитана по данным о всей исследуемой (генеральной) совокупности, а не выборки, она бы была единичной, а наблюдаемые выборочные значения - результат случайных отклонений. Статистика χ2 для проверки этой гипотезы рассчитывается на основе определителя матрицы корреляций. Если вероятность таких значений ниже порога (обычно 0,05), нулевую гипотезу следует отклонить, т.е. выполнение факторного анализа целесообразно. В нашем случае нулевая гипотеза отклоняется, так как значимость равна 0,000.

При использовании другого метода проверки - критерия адекватности выборки Кайзера - Мейера - Олкина (КМО) строится иная статистика, позволяющая проверить гипотезу, что частные коэффициенты корреляции между исходными переменными в действительности (т.е. на генеральной совокупности) равны нулю. Если значение КМО-статистики не превышает 0,5, использование факторного анализа нецелесообразно. В данном случае это не так: значение КМО равно 0,888, т.е. и этот критерий свидетельствует о целесообразности выполнения факторного анализа.

Приведем ряд рисунков, поясняющих, как в данном случае выполняется факторный анализ при использовании различных версий SPSS (англоязычной версии SPSS 14 и русскоязычной версии SPSS 17). На рисунке 13.9 показано, как назначаются исходные переменные для анализа. На рисунке 13.10 - как на вкладке "Описательные статистики (Descriptive)" заказать расчет критериев КМО и Бартлетта. На рис. 13.11 - как на вкладке "Извлечение (Extraction)" выбрать принцип определения числа факторов: собственное число (Eigenvalue) больше 1, а также заказать вывод графика каменистой осыпи (Scree Plot), т.е. графика последовательного убывания собственных значений матрицы коэффициентов корреляции между исходными переменными. На рис. 13.12 - как выбрать метод вращения факторов. На рис. 13.13 - как заказать сохранение значений факторов в файле данных.

Рис. 13.9. Назначение исходных переменных

Рис. 13.10. Заказ расчета критериев КМО и Бартлетта

Рис. 13.11. Выбор числа факторов и вывода графика каменистой осыпи (Scree Plot)

Рис. 13.12. Выбор метода вращения

На рис. 13.14 показано, как заказать форму представления таблицы факторных нагрузок. Для удобства интерпретации факторные нагрузки будут отсортированы следующим образом. Сверху будут расположены исходные переменные, которые сильнее всего коррелируют с первым фактором. Они будут отсортированы по убыванию модуля коэффициентов с этим фактором. Затем аналогичным образом будут расположены исходные переменные, сильнее всего коррелирующие со вторым фактором и т.д. В данном случае, кроме того, факторные нагрузки, меньшие по модулю чем 0,35, не будут показываться в таблице.

Рис. 13.13. Заказ сохранения значений факторов в файле данных

Рис. 13.14. Заказ формы представления таблицы факторных нагрузок

Таблица 13.5. Матрица факторных нагрузок после вращения факторов (компонент)

Компонента

Фактор 1. Самостоятельность, увлеченность

Фактор 2. Экстравертность

Фактор 3. Лидерство-коммуникабельность

Фактор 4. Избирательное телесмотрение

Фактор 5. Важность везения

q23_Я не выношу, когда мной пытаются командовать

,705

q10_Люблю уют и тишину

,703

q4_ Люблю развлечься в хорошей компании

,663

,510

q9_ Люблю, когда у меня в кармане кругленькая сумма

,653

,482

q6_ Люблю решать четко и ясно поставленные задачи

,648

,381

q22_ Я очень много времени провожу за компьютером

,598

,414

q24_ Люблю находить решение, ориентироваться в неопределенной ситуации

,559

q5_ Стараюсь почитать книжку при первой возможности

,526

q20_ Я всегда могу легко объясниться по-английски

,509

q21_ Для меня удовольствие посмотреть хороший рекламный клип

,476

-,453

q25_ Для меня всегда очень важно, как я выгляжу в глазах окружающих

,766

q16_ Стараюсь, чтобы у меня все было самое лучшее

,655

q7_ Делать покупки для меня удовольствие

,572

q19_ По натуре я -лидер

,379

,611

q12_ Всегда стараюсь найти вариант, когда почти то же самое получаешь гораздо дешевле

-5,95

q17_ Совершенно не выношу очередей, лучше переплатить

,573

,434

q13_ Я легко нахожу общий язык с незнакомыми людьми

,413

,485

q15_ Обычно я включаю телевизор только для того, чтобы посмотреть определенную передачу, которая мне интересна

,742

q8_ Часто телевизор у меня работает, но я на него почти не обращаю внимания

-,570

q11_ Когда смотрю телевизор, я часто переключаю программы

,474

-,509

q18 По-моему, в жизни главное - везенье

1 ,732

В табл. 13.5 представлены факторные нагрузки, отсортированные так, как описано выше. Для удобства показана не та таблица, которая возникла в отчете SPSS, а результат ее копирования в MS Excel. После копирования строки разных исходных переменных, сильнее всего коррелирующих с разными факторами, окрашены по-разному.

Мы видим, что с первым фактором сильнее всего коррелируют 10 исходных переменных: от высказывания "Я не выношу, когда мной пытаются командовать" до высказывания "Для меня удовольствие посмотреть хороший рекламный клип". Со вторым фактором сильнее всего коррелируют три исходные переменные: от "Для меня всегда важно, как я выгляжу в глазах окружающих" до "По натуре я - лидер", с третьим фактором - четыре переменные: от "По натуре я-лидер" до "Я легко нахожу общий язык с незнакомыми людьми", причем вторая по порядку переменная ("Я всегда стараюсь найти вариант, когда почти то же самое получаешь гораздо дешевле") коррелирует отрицательно и т.д. Это значит, что те респонденты, которые не выносят, когда ими командуют, чаще, чем в среднем, любят уют и тишину, а считающие себя лидерами реже, чем в среднем, стараются найти варианты, "когда почти то же самое получаешь гораздо дешевле", и т.д.

Анализ табл. 13.5 подтверждает общую закономерность, что каждый фактор, как правило, отражает силу установки респондентов по какому-либо определенному поводу. Это позволило дать факторам следующие условные названия.

Фактор 1. Самостоятельность, увлеченность.

Фактор 2. Экстравертность.

Фактор 3. Лидерство - коммуникабельность.

Фактор 4. Избирательное телесмотрение.

Фактор 5. Важность везения.

Построив несколько факторов, естественно попытаться выявить респондентов со сходными установками. Именно для этого предназначен кластерный анализ.

Почему кластерный анализ лучше делать на факторах, а не на исходных переменных? Если хотя бы некоторые из нужных нам вопросов анкеты - категориальные, применять на них кластерный

анализ нельзя: невозможно измерить расстояние между респондентами. (В этом случае для применения кластерного анализа необходимо сначала построить интегральные показатели, аналогичные факторам, - оси пространства оптимального шкалирования.)

Но даже если категориальных вопросов нет, а есть только интервальные переменные (когда ответом респондента является число) и (или) бинарные переменные (когда респондент выбирает или не выбирает определенную категорию), построение факторов весьма желательно. Во-первых, как уже говорилось, факторы выражают очищенную от случайных помех силу установки, а во-вторых, осмысленные факторы облегчают понимание содержательного смысла кластеров, концентрируют внимание исследователя на главных, наиболее типичных различиях в исследуемом материале и потому зачастую позволяют получить более наглядные, лучше интерпретируемые результаты. Конечно, применять факторный анализ надо квалифицированно. Иначе кластерный анализ не на исходных переменных, а на факторах может давать совершенно бессмысленные результаты [3].

Вопросам применения кластерного анализа в маркетинговых исследованиях посвящен следующий подраздел.