Вычислительные процедуры

Познакомимся сначала с более удобными формулами для вычисления коэффициента корреляции вручную. Эти формулы можно использовать при расчетах, когда нет возможности использовать компьютер.

Формулы (7.2) и (7.3) являются основными в определении коэффициента корреляции. Однако ими не очень удобно пользоваться при "ручных" вычислениях. Поэтому для вычислений коэффициента корреляции с помощью простейшего карманного или настольного калькулятора необходимо провести несложные алгебраические преобразования. Для начала преобразуем исходное уравнение (7.3) к такому виду:

(7.4)

Это выражение выглядит, по-видимому, значительно менее "угрожающе", однако им пользоваться едва ли проще. Ведь все равно придется вычислять 2-значения для X и У. Однако, воспользовавшись несложными алгебраическими преобразованиями, выражение (7.4) легко можно привести к следующему виду:

(7.5)

Уравнение (7.5) может показаться очень сложным по своему виду. Однако им пользоваться при "ручных" вычислениях намного удобнее. Действительно, с помощью формулы (7.5) вычисление коэффициента корреляции Пирсона сводится лишь к подсчету пяти сумм, которые могут быть получены непосредственно из исходных данных, минуя стадию трансформации.

Формулу (7.5) можно выразить и по-другому, разделив числитель и знаменатель на и2:

Кроме того, формулу (7.5) можно представить и как результат деления ковариации X и Y на произведение их стандартных отклонений. Иными словами, корреляция может быть выражена как нормированная ковариация:

Пусть . Тогда альтернативным вариантом расчета коэффициента корреляции может стать формула (7.6):

(7.6)

Действительно, если заменим величины X и Y на их z-трансформации, мы получим формулу (7.4).

Умножая числитель и знаменатель уравнения (7.6) на (n – 1), получаем еще одну формулу для расчета коэффициента корреляции, упрощающую "ручные" вычисления:

Помимо этих основных формул существует ряд специальных процедур, позволяющих в отдельных случаях значительно упростить "ручные" вычисления коэффициента корреляции. Так, если результаты эксперимента представляют собой ранги, можно воспользоваться формулой Спирмена•.

(7.7)

где di – разность рангов двух значений Xi и Yi).

Следует отметить, что формула (7.7) была получена из формулы Пирсона для случая ранжированных значений. Поэтому результаты вычислений по формулам Пирсона и Спирмена в случае оценок ранговых значений не должны отличаться. Если в ходе вычислений оказывается, что результаты, полученные при приме- пении формул Пирсона и Спирмена, отличаются, это может свидетельствовать либо об ошибке вычислений, либо о некорректном применении рангового коэффициента. Последнее бывает, когда экспериментатор проводит дробление рангов. Но для этого случая имеется специальный вариант формулы Спирмена, вносящий в нее необходимые поправки (О. Ю. Ермолаев [8]).

Кроме коэффициента Спирмена можно использовать дихотический коэффициент корреляции. Такой коэффициент корреляции также называют φ-коэффициентом. В этом случае обе экспериментальные переменные должны принимать не более двух значений. Такие переменные принято называть дихотическими или дихотомическими. Дихотомической по своей природе является, например, такая переменная, как пол (женский и мужской). Но в некоторых случаях дихотомические переменные могут создаваться по воле экспериментатора. Так, в рассмотренном выше примере с интеллектуальными тестами можно свести обе переменные к двум значениям: высокий и низкий тестовый балл.

Таблица 7.2

Корреляционный анализ данных с помощью φ-коэффициента

Переменная X

Переменная Y

Первое значение

Второе значение

Первое значение

А

В

Второе значение

С

D

По результатам экспериментов с дихотомическими значениями, как правило, строится матрица исходов 2×2 (табл. 7.2). В ней содержится информация о числе испытуемых, чьи результаты соответствуют одному из четырех возможных условий. Так, если испытуемый получил высокий результат по обоим тестам, то результат этого испытуемого можно занести в ячейку с именем А. Тогда высокий результат испытуемого по одному тесту и низкий по-другому можно будет поместить в ячейку В. Аналогично низкий результат испытуемого но первому тесту и высокий по второму заносят в ячейку С, а низкие результаты испытуемого по обоим тестам – в ячейку D.

Определив число испытуемых для каждого из четырех экспериментальных условий, для вычисления корреляционной связи можно воспользоваться следующей формулой:

(7.8)

Если только одна из двух переменных является дихотомической, то для упрощения "ручных" вычислений можно воспользо

ваться формулой так называемого точечно-бисериалъного коэффициента корреляции'.

В выражении (7.9) предполагается, что переменная X является дихотомической, а переменная У – обычной, недихотомической, т.е. она принимает больше двух значений. В таких случаях для вычисления коэффициента корреляции необходимо вначале оценить средние значения Y для каждого из двух возможных значений X (условно эти значения X можно обозначить как 1 и 0) и найти разность между этими средними. Затем необходимо оценить проценты каждого значения X. Эти проценты в формуле (7.9) обозначены латинскими буквами р и q. Кроме того, для вычисления точечно-бисериальиого коэффициента корреляции необходимо знать величину стандартного отклонения по У.

Заметим, что при вычислении φ-коэффициента и точечио-бисериальной корреляции по меньшей мере одна переменная может оказаться представленной в номинативной шкале. Такой переменной, очевидно, является переменная пол. В этом случае знак корреляции оказывается несущественным и не учитывается в интерпретации найденной зависимости.

Еще раз отметим, что коэффициент корреляции Спирмена, φ-коэффидиент и точечно-бисериальный коэффициент корреляции используются лишь для упрощения "ручных" вычислений и не являются альтернативными способами оценки связи по сравнению с коэффициентом корреляции Пирсона. Эти варианты оценки корреляции были разработаны в то время, когда единственным инструментом, упрощающим утомительные "ручные" расчеты, была логарифмическая линейка. В современных условиях при использовании компьютерных программ нет смысла, да обычно и не приходится, осуществлять выбор между различными вычислительными процедурами, исходя из формы полученных данных.

Рассмотренные выше способы вычисления коэффициента корреляции были разработаны прежде всего для упрощения довольно сложных и утомительных вычислений, которые практически до конца 1970-х гг. проводились исключительно вручную, с помощью логарифмической линейки или простейшего настольного или "ручного" калькулятора. Использование для этих целей более серьезных вычислительных средств представляло собой сложную и дорогостоящую задачу. В такой ситуации ограниченных вычислительных возможностей предложенные для различных типовых случаев формулы, как, например, формула Спирмена, значительно

(7.9)

оптимизировали работу исследователя. Однако по мере широкого распространения вычислительных машин, и в особенности персональных компьютеров и программного обеспечения для них, уже в 1990-х гг. необходимость в этих формулах постепенно отпала.

Рассмотрим, каким образом можно вычислить коэффициент корреляции с помощью современной вычислительной техники.

Прежде всего отметим возможности современных электронных таблиц, таких как MS Excel пакета MS Office или его аналогов в других офисных приложениях. Такие электронные таблицы представлены практически на всех платформах, включая планшеты и смартфоны. В MS Excel для вычисления коэффициента корреляции используется функция КОРРЕЛ. Ее аргументами являются ряды данных, корреляцию между которыми требуется оценить. Эту функцию удобно использовать, когда требуется посчитать небольшое число корреляций.

В случае обработки значительного объема данных на помощь может прийти встроенный в MS Excel пакет анализа, который мы уже упоминали, говоря о возможностях компьютерной обработки данных методом дисперсионного анализа. Также оценку большого числа корреляций можно осуществить, используя различные статистические пакеты, например известный пакет SPSS Statistics.