Выборочный коэффициент корреляции и проверка его значимости
По величине ковариации можно сделать вывод о зависимости или независимости случайных величин (для независимых случайных величин теоретическая ковариация равна нулю). Кроме того, по ковариации можно определить направление взаимосвязи. При наличии положительной ковариации переменные изменяются в одном направлении (связь прямая), если же ковариация отрицательна, то переменные изменяются в разных направлениях (связь обратная).
Однако существенным недостатком ковариации является ее зависимость от единиц измерения случайных величин X и Y. Поэтому тесноту взаимосвязи случайных величин X и Y с помощью ковариации определять неудобно. Для этого вводится относительная мера взаимосвязи (безразмерная величина) – коэффициент корреляции:
=
. (1.3)
где
– средние квадратические отклонения случайных величин X и Y.
Этот коэффициент корреляции называют теоретическим или генеральным.
С помощью коэффициента корреляции определяется теснота линейной связи между случайными величинами в генеральной совокупности.
Зависимость между случайными величинами X и Y, характеризуемая коэффициентом корреляции, называется корреляцией.
Если
, то случайные величины X и Y являются некоррелированными, если же
, то случайные величины X и Y коррелированны.
Как правило, генеральный коэффициент корреляции
неизвестен. О тесноте линейной связи между переменными судят не по величине
, а по величине его точечной оценки, вычисленной по выборке.
Оценкой теоретического (генерального) коэффициента корреляции является выборочный коэффициент корреляции:
, (1.4)
где
и
– выборочные средние квадратические отклонения случайных величин
и
.
Замечание. В дальнейшем будем использовать следующие обозначения:
.
Так как
вычисляется по значениям, случайно попавшим в выборку, то его величина меняется от выборки к выборке. В отличие от
, выборочный коэффициент корреляции – величина случайная.
Пусть найденный по выборке коэффициент корреляции
. Это еще не означает, что и
. Чтобы установить, достаточна ли величина
для обоснованного вывода о наличии линейной корреляционной связи между переменными X и Y, необходимо проверить значимость выборочного коэффициента корреляции
.
Для этого выдвигаются нулевая (основная) и конкурирующая (альтернативная) гипотезы:
: rген = 0 (линейная корреляционная зависимость между переменными X и Y отсутствует, или
статистически близок к нулю, т.е. статистически незначим),
: rген № 0 (переменные X и Y находятся в линейной корреляционной зависимости, или
статистически далек от нуля, т.е. статистически значим).
По виду конкурирующей гипотезы определяют критическую область. В этом случае строят двустороннюю критическую область, описываемую неравенством:
.
Нулевая гипотеза проверяется при заданном уровне значимости a с помощью случайной величины
, (1.5)
которая при справедливости
имеет распределение Стьюдента с числом степеней свободы
, где
объем выборки.
По выборочным данным вычисляют tнабл, а по таблице критических точек распределения Стьюдента находят tкрит.дв(a, k) с учетом двусторонней критической области. Сравнивают tнабл и tкрит.дв(a, k).
Если
, т. е. наблюдаемое значение критерия попало в область принятия гипотезы, то нет оснований отвергать нулевую гипотезу. А если tнабл попало в критическую область, т.е.
, то нулевую гипотезу отвергаем, принимаем конкурирующую Н1.
Пример 1.1. Имеются выборочные данные о количестве внесенных удобрений (
, кг/га) и урожайности пшеницы (
, ц/га) по десяти фермерским хозяйствам:
| ||||||||||
|
a) найти выборочную ковариацию
, используя определение и альтернативную формулу для ее вычисления;
b) найти выборочный коэффициент корреляции
;
c) используя t-критерий, проверить значимость
при 5%-ом уровне значимости.
Решение. Результативный признак
– урожайность пшеницы, ц/га; факторный признак
– количество внесенных удобрений, кг/га.
Замечание. Поскольку в условии приведены результаты конкретной выборки, то
и
представляют здесь реализации случайных величин
и
в i-ом наблюдении. Поэтому они обозначены малыми строчными буквами.
a) Вычислим по данной выборке
, используя определение. Сначала найдем выборочные числовые характеристики признаков
и
.
Расчеты представим в таблице:
| № набл. |
|
|
|
|
|
|
| 24,5 13,5 –0,5 17,5 | ||||||
| Итого | 5630. |
Выборочная средняя факторного признака
;
Выборочная средняя результативного признака
.
Таким образом,
.
Теперь вычислим
, используя альтернативное выражение, т.е. свойство 1:
=
,
где
.
Заметим, что полученное разными способами значение
совпадает.
b) Вычислим выборочный коэффициент корреляции
по формуле (1.4):
rв =
.
Ранее получили, что
= 14,1. Используя свойства 1 и 3 выборочной ковариации, найдем выборочные дисперсии факторного и результативного признаков:
, где
;
, где 
Таким образом,
.
c) Проверим значимость выборочного коэффициента корреляции. Для этого выдвигаем гипотезы:
.
По условию уровень значимости
.
Для проверки нулевой гипотезы используем случайную величину
, имеющую при справедливости
распределение Стьюдента с числом степеней свободы
. По выборочным данным найдем наблюдаемое значение критерия tнабл =
» 4,42. По таблице критических точек распределения Стьюдента определим tкрит.дв(0,05; 8) = 2,31. Сравниваем tнабл и tкрит(0,05; 8). Так как
, т. е. tнабл попало в критическую область, нулевая гипотеза отвергается, принимается конкурирующая гипотеза: rген ¹ 0. Можно считать, что урожайность пшеницы и количество внесенных удобрений находятся в достаточно тесной корреляционной зависимости, rв значим.