Корреляционное отношение. Его свойства

 

Простейшие случаи парной нелинейной корреляционной зависимости - это гиперболическая и параболическая зависимости. Их уравнения регрессии, соответственно, имеют следующий вид:

.

Как и в случае линейной зависимости, параметры ai, i = 0, 1, 2 находятся методом наименьших квадратов, который дает приведенные ниже системы нормальных уравнений.

Для гиперболической зависимости:

Для параболической зависимости:

Параметры ai находим, решая данные системы нормальных уравнений.

Прежде чем находить уравнение регрессии, необходимо оценить тесноту взаимосвязи между признаками и проверить значимость этой взаимосвязи.

Теснота взаимосвязи между признаками в нелинейной зависимости измеряется с помощью корреляционного отношения , рассчитываемого по формуле

где Dобщ - общая дисперсия признака Y;

Dм/гр - межгрупповая дисперсия признака Y.

Можно показать, что общая дисперсия результативного признака Y складывается из двух дисперсий: межгрупповой и внутригрупповой, то есть Dобщ = Dм/гр + Dвн/гр,

Межгрупповая дисперсия Dм/гр характеризует вариацию признака Y за счет учтенного фактора, а внутригрупповая дисперсия Dвн/гр - за счет неучтенных факторов.

Dобщ = ; Dм/гр = ;

Dв/гр = , j = ,

где yi - значение признака Y, i = ;

- условнаясредняя признака Y, j = ;

- общая средняя признака Y;

- частота значений признака Y;

- частота значений признака X;

n - объем выборки (сумма всех частот).

Отметим основные свойства корреляционного отношения.

1. Корреляционное отношение изменяется от 0 до 1, то есть

.

Доказательство. Так как для вычисления следует извлечь арифметический квадратный корень из отношения , то . Так как , то . Следовательно, .

2. Если , то корреляционная зависимость между признаками Х и Y отсутствует.

Доказательство. Если , то . Тогда . Следовательно, , где j=1,2,…,k. Поэтому с ростом значений признака X условные средние признака Y не меняются. А это и означает, что между признаками отсутствует корреляционная зависимость.

3. Если , то между факторами X и Y существует функциональная зависимость.

4. Корреляционное отношение связано с выборочным коэффициентом корреляции следующим неравенством:

.

5. Если корреляционная зависимость между признаками X и Y линейная, то .

Доказательство. Так как связь между признаками предполагается линейной, то ее можно описать с помощью линейного регрессионного уравнения: , где .

Тогда

Так как , то выражение для межгрупповой дисперсии примет вид Dм/гр = .

Поэтому , что и требовалось доказать.

Замечание. Так как корреляционное отношение вычисляется по значениям переменных, случайно попавшим в выборку, то величина меняется от выборки к выборке. Следовательно, корреляционное отношение - величина случайная. Поэтому является оценкой генерального корреляционного отношения .

Проверка значимости корреляционного отношения h основана на том, что статистика (критерий) имеет распределение Фишера - Снедекора с и степенями свободы. Здесь - число различных значений дискретного признака X или число частичных интервалов изменения значений непрерывного признака X в выборке.

Выберем уровень значимости . В качестве нулевой гипотезы следует выдвинуть гипотезу H0: , то есть корреляционное отношение h, найденное по выборке, незначимо. В качестве конкурирующей гипотезы следует выдвинуть гипотезу
H1: , то есть h, найденное по выборке, значимо. По виду гипотезы H1 строится правосторонняя критическая область .

Пример 4. Распределение 100 заводов по производственным средствам (Х, тыс. р.) и по суточной выработке (Y, т) дается в следующей корреляционной таблице:

Х Y
           

Оценить тесноту взаимосвязи между производственными затратами и суточной выработкой при уровне значимости =0,05.

Решение. Признак Y - суточная выработка, т; признак Х - производственные затраты, тыс. р.

Признаки находятся в статистической зависимости. Тесноту взаимосвязи оценим с помощью корреляционного отношения: , где Dобщ = и Dм/гр = .

Найдем групповые средние и общую среднюю признака Y.

общ

Расчеты Dм/гр и Dобщ представим в таблице:

yi (yi - )2 ( - )2
2939,07 4990,59 2043,04 42,25 2270,7 5245,35 17,5 24,375 45,26 45,0 52,86 - - 2265,76 4583,290 893,8512 219,04 935,4352 -
Итого - 8897,3764

Dм/гр = ;

Dобщ = .

.

Проверим значимость полученного выборочного корреляционного отношения h при =0,05. Для этого выдвинем гипотезы и . По виду гипотезы H1 строим правостороннюю критическую область .

Воспользуемся статистикой , которая имеет распределение Фишера - Снедекора со степенями свободы и . Здесь - объем выборки, - число различных значений дискретного признака X в выборке, то есть = 100, = 5. Найдем наблюдаемое значение -критерия:

.

Найдем критическое значение -критерия по таблице критических точек распределения Фишера - Снедекора при уровне значимости =0,05 и числах степеней свободы и : .

Так как наблюдаемое значение критерия попало в критическую область ( ), то нулевая гипотеза отвергается, имеет место гипотеза , иными словами, выборочное корреляционное отношение значимо.

Легко проверить, что выборочный линейный коэффициент корреляции для данных наблюдения =0,59. Так как , то корреляционная зависимость между признаками X и Y нелинейная.

Пример 5. Размер производительности горных комбайнов (размер добычи на один выход) в зависимости от длины лавы характеризуется следующими данными:

Х  
Y 1,74 2,02 2,12 2,05 2,17 2,74 2,40 2,48 2,50 2,39 .

Сгруппировав данные по длине лавы в границах (55; 95) и (105; 145), оценить тесноту взаимосвязи параболической зависимости и составить уравнение регрессии.

Решение. Признак Х - длина лавы; признак Y - производительность горного комбайна. Предполагается, что признаки имеют нормальное распределение. Они находятся в статистической зависимости, по условию задачи известно, что они связаны параболической зависимостью.

Предварительно оценим тесноту взаимосвязи между ними, вычислив корреляционное отношение .

Расчеты представим в таблице:

  х О (55;95) х О (105;145)
  yi yi
  1,74 2,02 2,12 2,05 2,17 3,0276 4,0804 4,4944 4,2025 4,7089 2,74 2,40 2,48 2,50 2,39 7,5076 5,76 6,1504 6,25 5,7121
Итого 10,1 20,5138 12,51 31,3801

общ =

;

Dобщ = общ - = 5,1894 - (2,26)2 = 0,0818;

Dм/гр = ;

.

Проверим значимость полученного выборочного корреляционного отношения h при =0,15. Для этого выдвинем гипотезы и . По виду гипотезы H1 строим правостороннюю критическую область .

Воспользуемся статистикой , которая имеет распределение Фишера - Снедекора со степенями свободы и . Здесь - объем выборки, - число частичных интервалов изменения значений непрерывного признака X в выборке, то есть = 10,
= 2.

Найдем наблюдаемое значение -критерия:

.

Найдем критическое значение -критерия по таблице критических точек распределения Фишера - Снедекора при уровне значимости =0,05 и числам степеней свободы и : .

Так как наблюдаемое значение критерия попало в критическую область ( ), то нулевая гипотеза отвергается, имеет место гипотеза , иными словами, выборочное корреляционное отношение значимо, и признаки X и Y связаны нелинейной (параболической) зависимостью.

Связь тесная, представим ее аналитически в виде уравнения регрессии вида х » a0 + a1х + a2х2. Параметры ai (i = 0,1,2) найдем из системы нормальных уравнений

Расчеты представим в таблице:

хi yi yixi yi
1,74 2,02 2,12 2,05 2,17 2,74 2,40 2,48 2,50 2,39 95,7 131,3 174,25 206,15 287,7 337,5 346,55 5263,5 8534,5 11925 14811,25 19584,25 30208,5 45562,5 50249,75
Итого 1000 22,61 2324,15 256629,25

 

= 2,261; = 232,415; = 25662,925.

Система нормальных уравнений примет вид

Решая систему, получим: a0 » 0,185, a1 » 0,0362, a2 » - 0,0001. Итак, уравнение регрессии имеет вид

» 0,185 + 0,0362x - 0,0001x2.

Из приведенных громоздких расчетов следует необходимость использования ЭВМ. Ниже приведено решение этой же задачи на ЭВМ.