Корреляция как произведение моментов

Пирсон определял коэффициент корреляции как «среднее произведение Z-оценок». С этих пор r известен всем как коэффициент произведения моментов:

r = (aZxZy) / N.

Его обоснованное вычисление предполагает, что: а) две коррелируемые переменные непрерывны и нормально распределены; б) линии наилучшего соответствия для совместного двумерного распределения яв-ся прямыми; в) одинаковая вариабельность сохраняется по всей широте совместного распределения переменных. Простая формула для вычисления коэффициента корреляции произведения моментов Пирсона по «сырым» (нестандартизованным) данным выглядит следующим образом:

.

Бисериальная корреляция

Разновидностью коэффициента корреляции произведения моментов яв-ся бисериальный коэффициент корреляции, тж разраб. Пирсоном. В тех случаях, когда только одна из переменных непрерывна и имеет приемлемо нормальное распределение, а др. искусственно дихотомизирована (предполагается, что она тоже непрерывна и нормально распределена, но представлена в бинарной форме, напр.: «справился/не справился»), связь между этими двумя переменными тж можно выразить при помощи r. В этом случае коэффициент корреляции обозначается через rbis.Как и коэффициент произведения моментов r, он изменяется в диапазоне от +1,00 (прямая функциональная связь) через 0,00 (отсутствие связи) до -1,00 (обратная функциональная связь). Метод бисериальной корреляции оказался весьма полезным в процедурах анализа заданий, т. к. он измеряет связь между рез-тами выполнения каждого задания теста, выраженными в бинарной форме («справился/не справился»), и общей оценкой по данному тесту.

Точечно-бисериальная корреляция

Последующая модификация коэффициента корреляции произведения моментов получила отражение в точечно бисериальном r. Эта стат. показывает связь между двумя переменными, одна из к-рых предположительно непрерывна и нормально распределена, а др. яв-ся дискретной в точном смысле слова. Точечно-бисериальный коэффициент корреляции обозначается через rpbis Поскольку в rpbis дихотомия отражает подлинную природу дискретной переменной, а не яв-ся искусственной, как в случае rbis, его знак определяется произвольно. Поэтому для всех практ. целей rpbis рассматривается в диапазоне от 0,00 до +1,00.

Существует и такой случай, когда две переменные считаются непрерывными и нормально распределенными, но обе искусственно дихотомизированы, как в случае бисериальной корреляции. Для оценки связи между такими переменными применяется тетрахорический коэффициент корреляции rtet,к-рый был тж выведен Пирсоном. Осн. (точные) формулы и процедуры для вычисления rtet достаточно сложны. Поэтому при практ. применении этого метода используются приближения rtet,получаемые на основе сокращенных процедур и таблиц.

Ранговая корреляция

Непараметрический аналог параметрических методов корреляции существует в форме коэффициента ранговой корреляции, обозначаемого греческой буквой ρ(ро). Он применяется для определения степени связи между двумя переменными, значения к-рых представлены рангами, а не «сырыми» или стандартизованными оценками. Логическое обоснование вывода коэффициента ρ не требует соблюдения строго определенного набора допущений, и потому ρ является непараметрической стат. Его формула, получаемая из формулы произведения моментов Пирсона путем замены интервальных данных на ранжированные, приводится к виду:

ρ = 1 — (6Σd2) / N(N2 — 1), где d — ранговая разность, а N — число пар вариантов.

Множественная корреляция

Методы корреляции произведения моментов Пирсона и линейного регрессионного анализа Гальтона были обобщены и расширены в 1897 г. Джорджем Эдни Юлом до модели множественной линейной регрессии, предполагающей использование многомерного нормального распределения. Методы множественной корреляции позволяют оценить связь между множеством непрерывных независимых переменных и одной зависимой непрерывной переменной. Коэффициент множественной корреляции обозначается через R0.123...p Его вычисление требует решения совместной системы линейных уравнений. Число линейных уравнений равно числу независимых переменных.

Иногда необходимо исключить эффект третьей переменной, с тем чтобы определить «чистую» связь между любой парой переменных. Частный (парциальный) коэффициент корреляции выражает связь между двумя переменными при исключенном (элиминированном) влиянии еще одной или неск. др. переменных. В простейшем случае частный коэффициент корреляции вычисляется как функция парных корреляций (произведений моментов) между Y, X1и Х2:

.

Если требуется исключить влияние двух переменных, скажем, Х2и Х3, то формула принимает вид:

.

Каноническая корреляция

Множественная корреляция, позволяющая оценивать тесноту связи между множеством независимых переменных и одной из множества зависимых переменных, представляет собой частный случай более общего метода — канонической корреляции. Этот метод был разраб. в 1935 г. Гарольдом Хотеллингом. Коэффициенты канонической корреляции (RCi)определяются на двух множествах переменных. Чтобы показать связи, существующие между этими двумя множествами непрерывных переменных, вычисляется неск. канонических коэффициентов; их число определяется по числу переменных в меньшем множестве (если число переменных в них не одинаково). При канонической корреляции в обоих множествах (по отдельности) отыскиваются линейные комбинации входящих в них переменных, позволяющие определить (новые) координатные оси в пространстве каждого множества. Каждая такая линейная комбинация наз. канонической величиной (или канонической переменной). Канонические переменные отличаются друг от друга весами, к-рые они придают первичным переменным в соотв. множестве. Каноническая корреляция — это корреляция произведения моментов между парой канонических переменных, по одной из каждого множества. Т. о., каждый коэффициент канонической корреляции является мерой тесноты линейной связи между двумя координатными осями соотв. множеств переменных. Каноническая корреляция яв-ся методом многомерного статистического анализа.

См. также Корреляция и регрессия, Статистика в психологии

П. Ф. Меренда

 

Корреляция и регрессия (correlation and regression)

 

Рассмотрение К. и Р. строится вокруг следующих осн. вопросов: а) существует ли между переменными X и Y такого рода связь, что по известным нам значениям X мы могли бы, по крайней мере с разумной степенью точности, предсказать значения Y? б) Какова сила (или теснота) этой связи между переменными X и Y? в) При условии существования такой связи между X и Y, каково оптимальное правило (или, выражаясь математически, уравнение) для предсказания Y по X и насколько хорошо оно обосновано? Когда мы занимаемся оценкой тесноты или степени связи (строго говоря, степени линейной связи), мы имеем дело с К. Термин «Р.» относится к вопросам, связанным с предсказанием значений одной переменной по значениям др.

Коэффициент корреляции

Коэффициент К. произведения моментов Пирсона (r), — чаще называемый просто коэффициентом К., — яв-ся показателем силы линейной связи между двумя переменными и изменяется в пределах от +1 до -1. Нулевое значение коэффициента К. Пирсона указывает на отсутствие линейной связи между X и Y; положительные значения этого коэффициента свидетельствуют о существовании тенденции увеличения Y по мере увеличения X, тогда как его отрицательные значения свидетельствуют о существовании противоположной тенденции: уменьшения Y по мере увеличения X.

Прямолинейная К. между X и Y имела бы место в том случае, если бы значения Y можно было безошибочно предсказать по значениям X, используя уравнение прогноза вида Y = аХ + b, где а и b — соответствующим образом подобранные константы. При а > 0 наблюдалась бы полная положительная К. (+1), а при а < 0 — полная отрицательная корреляция (-1). Уравнение вида Y = аХ + b называется линейным уравнением, поскольку при построении графика функции Y от X все точки (X, Y), удовлетворяющие данному уравнению, ложатся на прямую линию.

Коэффициент К. Пирсона — это показатель степени линейной связи, а не связи вообще. Напр., он может указывать на полное отсутствие К. (r = 0) между двумя переменными, связанными функциональной нелинейной зависимостью. Из-за этих ограничений коэффициент К. Пирсона имеет тенденцию недооценивать степень связи между переменными.

Несмотря на то что существует неск. различных, хотя и эквивалентных формул для вычисления коэффициента К. Пирсона, наиболее известной расчетной формулой яв-ся следующая:

,

где N — число парных оценок по X и Y.

При интерпретации коэффициента К. следует проявлять осторожность. Одного только факта К. между переменными X и Y еще недостаточно для автоматического вывода о существовании между ними причинной связи. X может коррелировать с Y, потому что: а) изменения X вызывают изменения Y; б) изменения Y вызывают изменения Х;в) изменения др. переменных служат причиной изменений как X, так и Y. Напр., у уч-ся начальной школы объем словарного запаса положительно коррелирует с их ростом, потому что обе эти переменные связаны с возрастом. К тому же коэффициент К. Пирсона может снижаться вследствие «ограничения широты выборки».