Основные результаты применения метода главных компонент

Метод главных компонент мы будем описывать на примере его реализации в программном комплексе SPSS. Рассмотрим некоторые стандартные результаты, получаемые при использовании этого метода.

Работа этого метода начинается с того, что исходные переменные, на основе которых будут отыскиваться факторы, стандартизуются. Под стандартизацией понимается вычитание из каждого значения переменной ее среднего значения с последующим делением полученного результата на среднеквадратическое отклонение этой переменной. После стандартизации среднее значение каждой исходной переменной становится равным нулю, а дисперсия - единице. Общая дисперсия стандартизированных данных равна сумме дисперсий переменных, т.е. числу переменных. Например, если мы имеем 21 переменную, каждая из которых имеет дисперсию 1, то дисперсия данных равна 21. Это наибольшая изменчивость, которая потенциально может быть выделена с помощью метода главных компонент.

Как уже отмечалось, каждый последующий фактор объясняет все меньше и меньше дисперсии. Дисперсия, объясненная факторами (которые также называют компонентами), представлена в табл. 13.3.

Таблица 13.3. Дисперсия, объясненная последовательно выделяемыми факторами (компонентами)

Компонента

Начальные собственные значения

Суммы квадратов нагрузок извлечения

Суммы квадратов нагрузок вращения

Итого

% дисперсии

Кумулятивный %

Итого

% дисперсии

Кумулятивный %

Итого

% дисперсии

Кумулятивный %

1

6,600

31,430

31,430

6,600

31,430

31,430

3,887

18,508

18,508

2

1,486

7,075

38,505

1,486

7,075

38,505

3,002

14,295

32,804

3

1,378

6,560

45,064

1,378

6,560

45,064

1,949

9,282

42,085

4

1,177

5,605

50,670

1,177

5,605

50,670

1,405

6,691

48,777

5

1,050

5,001

55,671

1,050

5,001

55,671

1,339

6,377

55,154

6

1,030

4,904

60,575

1,030

4,904

60,575

1,138

5,421

60,575

7

,950

4,526

65,101

8

,828

3,942

69,043

9

,772

3,677

72,720

10

,730

3,478

76,197

11

,671

3,195

79,393

12

,625

2,976

82,369

13

,581

2,768

85,137

14

,497

2,365

87,503

15

,480

2,287

89,789

16

,440

2,094

91,884

17

,418

1,992

93,875

18

,391

1,861

95,737

19

,372

1,770

97,507

20

,332

1,583

99,090

21

,191

,910

100,000

Поясним данные, приведенные в табл. 13.3. В боковике (т.е. в левом столбце) таблицы стоят номера последовательно выделяемых факторов. Следующие три столбца показывают, что было бы, если бы мы построили максимально возможное число факторов - 21. Во втором столбце таблицы результатов (Начальные собственные значения - Итого) приведена дисперсия, объясненная каждым фактором. Так, первый фактор объясняет 6,6 единиц дисперсии из 21 единицы, второй 1,486 единиц и т.д. В третьем столбце (Начальные собственные значения - % дисперсии) приводится доля дисперсии, объясненной фактором, в процентах от общей дисперсии стандартизированных данных, в этом случае от 21. Как можно видеть, первый фактор объясняет 31,430% общей дисперсии, фактор 2 - 7,075% и т.д. Четвертый столбец содержит накопленный или кумулятивный процент от общей дисперсии. Дисперсии, выделяемые факторами, названы собственными значениями. Это название происходит из использованного способа вычисления. Смысл остальных столбцов таблицы мы поясним несколько ниже.

Выбор числа выделяемых факторов

Теперь, когда получена информация сколько дисперсии объяснил каждый фактор, можно вернуться к вопросу о том, на каком числе факторов следует остановить процедуру. Как говорилось выше, по своей природе это решение зависит от позиции исследователя. Однако имеются некоторые общеупотребительные рекомендации и на практике следование им дает наилучшие результаты.

Первый принцип определения числа факторов носит название критерия Кайзера. Согласно этому критерию предлагается выделять факторы до тех пор, пока дисперсия, объясненная фактором, превышает единицу. По существу, это означает, что отбрасывать следует те факторы, каждый из которых "слабее" (в смысле объясненной дисперсии), чем каждая из исходных переменных. (Напомним, после стандартизации дисперсия каждой исходной переменной равна единице.) Этот критерий предложен Кайзером (Kaiser) в 1960 г. и применяется, вероятно, наиболее широко. Именно этот критерий предлагается в SPSS по умолчанию. Как видно из пятого и всех последующих столбцов табл. 13.3, на основе этого критерия предлагается сохранить шесть факторов (главных компонент). Действительно, шестой фактор объясняет 1,030 единиц дисперсии, а седьмой - лишь 0,950, т.е. меньше единицы.

Второй подход носит название критерия каменистой осыпи. Он впервые предложен Кеттелем (Cattell) в 1966 г. и является графическим методом. Суть этого критерия такова. Давайте изобразим собственные значения, представленные во втором столбце табл. 13.3, в виде графика (рис. 13.8).

Рис. 13.8. Критерий каменистой осыпи: собственные значения по убыванию номеров

Кеттель предложил выделять такое число факторов, после которого, судя по графику, убывание собственных значений слева направо максимально замедляется. Предполагается, что справа от этой точки находится только "факториальная осыпь". В соответствии с этим критерием в нашем примере следует оставить не шесть, а только пять факторов.

На практике возникает еще один важный критерий: следует оставлять такое число факторов, при котором факторы хорошо интерпретируются из содержательных соображений. Поэтому обычно исследуется несколько решений с большим или меньшим числом факторов и затем выбирается одно наиболее "осмысленное".

Теперь, возвращаясь к табл. 13.3, поясним смысл столбцов с пятого по седьмой под общим названием "Суммы квадратов нагрузок извлечения". Легко заметить, что числа в этих столбцах в точности совпадают с соответствующими числами в трех предыдущих столбцах. Но если в предыдущих столбцах приведены собственные значения и т.д. для максимально возможного числа факторов, то в этих столбцах - только для тех факторов, которые оставлены в соответствии с выбранным критерием. В данном случае речь идет о критерии Кайзера, в соответствии с которым оставлено шесть факторов. Судя по числам, приведенным в седьмом столбце, в совокупности шесть факторов объясняют 60,575% дисперсии исходных данных. Если бы мы отдали предпочтение критерию каменистой осыпи и остановились на пяти факторах, было бы объяснено 55,154% дисперсии, т.е. не намного меньше.