Выборочный коэффициент корреляции и проверка его значимости

По величине ковариации можно сделать вывод о зависимости или независимости случайных величин (для независимых случайных величин теоретическая ковариация равна нулю). Кроме того, по ковариации можно определить направление взаимосвязи. При наличии положительной ковариации переменные изменяются в одном направлении (связь прямая), если же ковариация отрицательна, то переменные изменяются в разных направлениях (связь обратная).

Однако существенным недостатком ковариации является ее зависимость от единиц измерения случайных величин X и Y. Поэтому тесноту взаимосвязи случайных величин X и Y с помощью ковариации определять неудобно. Для этого вводится относительная мера взаимосвязи (безразмерная величина) – коэффициент корреляции:

= . (1.3)

где – средние квадратические отклонения случайных величин X и Y.

Этот коэффициент корреляции называют теоретическим или генеральным.

С помощью коэффициента корреляции определяется теснота линейной связи между случайными величинами в генеральной совокупности.

Зависимость между случайными величинами X и Y, характеризуемая коэффициентом корреляции, называется корреляцией.

Если , то случайные величины X и Y являются некоррелированными, если же , то случайные величины X и Y коррелированны.

Как правило, генеральный коэффициент корреляции неизвестен. О тесноте линейной связи между переменными судят не по величине , а по величине его точечной оценки, вычисленной по выборке.

Оценкой теоретического (генерального) коэффициента корреляции является выборочный коэффициент корреляции:

, (1.4)

где и – выборочные средние квадратические отклонения случайных величин и .

Замечание. В дальнейшем будем использовать следующие обозначения:

.

Так как вычисляется по значениям, случайно попавшим в выборку, то его величина меняется от выборки к выборке. В отличие от , выборочный коэффициент корреляции – величина случайная.

Пусть найденный по выборке коэффициент корреляции . Это еще не означает, что и . Чтобы установить, достаточна ли величина для обоснованного вывода о наличии линейной корреляционной связи между переменными X и Y, необходимо проверить значимость выборочного коэффициента корреляции .

Для этого выдвигаются нулевая (основная) и конкурирующая (альтернативная) гипотезы:

: rген = 0 (линейная корреляционная зависимость между переменными X и Y отсутствует, или статистически близок к нулю, т.е. статистически незначим),

: rген № 0 (переменные X и Y находятся в линейной корреляционной зависимости, или статистически далек от нуля, т.е. статистически значим).

По виду конкурирующей гипотезы определяют критическую область. В этом случае строят двустороннюю критическую область, описываемую неравенством: .

Нулевая гипотеза проверяется при заданном уровне значимости a с помощью случайной величины

, (1.5)

которая при справедливости имеет распределение Стьюдента с числом степеней свободы , где объем выборки.

По выборочным данным вычисляют tнабл, а по таблице критических точек распределения Стьюдента находят tкрит.дв(a, k) с учетом двусторонней критической области. Сравнивают tнабл и tкрит.дв(a, k).

Если , т. е. наблюдаемое значение критерия попало в область принятия гипотезы, то нет оснований отвергать нулевую гипотезу. А если tнабл попало в критическую область, т.е. , то нулевую гипотезу отвергаем, принимаем конкурирующую Н1.

Пример 1.1. Имеются выборочные данные о количестве внесенных удобрений ( , кг/га) и урожайности пшеницы ( , ц/га) по десяти фермерским хозяйствам:

a) найти выборочную ковариацию , используя определение и альтернативную формулу для ее вычисления;

b) найти выборочный коэффициент корреляции ;

c) используя t-критерий, проверить значимость при 5%-ом уровне значимости.

Решение. Результативный признак – урожайность пшеницы, ц/га; факторный признак – количество внесенных удобрений, кг/га.

Замечание. Поскольку в условии приведены результаты конкретной выборки, то и представляют здесь реализации случайных величин и в i-ом наблюдении. Поэтому они обозначены малыми строчными буквами.

a) Вычислим по данной выборке , используя определение. Сначала найдем выборочные числовые характеристики признаков и .

Расчеты представим в таблице:

№ набл.
24,5 13,5 –0,5 17,5
Итого 5630.

Выборочная средняя факторного признака ;

Выборочная средняя результативного признака .

Таким образом, .

Теперь вычислим , используя альтернативное выражение, т.е. свойство 1:

= ,

где .

Заметим, что полученное разными способами значение совпадает.

b) Вычислим выборочный коэффициент корреляции по формуле (1.4):

rв = .

Ранее получили, что = 14,1. Используя свойства 1 и 3 выборочной ковариации, найдем выборочные дисперсии факторного и результативного признаков:

, где ;

, где

Таким образом, .

c) Проверим значимость выборочного коэффициента корреляции. Для этого выдвигаем гипотезы:

.

По условию уровень значимости .

Для проверки нулевой гипотезы используем случайную величину , имеющую при справедливости распределение Стьюдента с числом степеней свободы . По выборочным данным найдем наблюдаемое значение критерия tнабл = » 4,42. По таблице критических точек распределения Стьюдента определим tкрит.дв(0,05; 8) = 2,31. Сравниваем tнабл и tкрит(0,05; 8). Так как , т. е. tнабл попало в критическую область, нулевая гипотеза отвергается, принимается конкурирующая гипотеза: rген ¹ 0. Можно считать, что урожайность пшеницы и количество внесенных удобрений находятся в достаточно тесной корреляционной зависимости, rв значим.