Тема 8. КОРРЕЛЯЦИОННЫЙ МЕТОД АНАЛИЗА СВЯЗЕЙ. МОДЕЛИ ПАРНОЙ РЕГРЕССИИ

Корреляционный метод имеет две основные задачи:

1)обнаружить зависимость между факторным и результативным признаками и описать её форму с помощью уравнения регрессии;

2)установить меру тесноты связи между признаками (в какой мере вариация х обуславливает вариацию у).

Приступая к изучению корреляционной зависимостиследует помнить о том, что, прежде всего, необходимо провести предварительный теоретический анализ. Он должен ответить на вопрос о том, существует ли такая связь вообще. Из истории статистики известно, что несоблюдение этого правила не раз приводило исследователей к курьезным результатам.

Предварительный теоретический анализ позволяет во многих случаях подсказать и форму связи (прямолинейная или более сложная), установить, является ли связь прямой пли обратной.

Сказанное выше означает, что каждый, кто прибегает к использованию метода корреляции, должен хорошо владеть не только данным методом, но и знанием предмета своего исследования.

Корреляционную связь, в которой есть только один признак-фактор и один признак-результат, именуют парной. Уравнение, выражающее такую связь, представляют какой-либо математической формулой прямой или кривых линий (гипербола, парабола и др.).

Для нахождения формы связи и описания ее в виде уравнения линии используют:

группировку статистических данных;

построение графика эмпирической линии.

Если точек очень много, то рассматривают не линию, а облако точек на графике корреляционного поля. В реальной практике не всегда удается достаточно уверенно по эмпирической линии установить форму линии связи. В этих случаях принимают несколько вариантов формы связи, по каждому из них делают расчеты и в конце дают оценку вариантов с помощью показателя тесноты связи. Вариант, в котором теснота связи оказалась наиболее высокой, принимается за наиболее верный.

Если форма связи выражается прямой линией, то уравнение регрессии имеет вид:

,

где - теоретическое значение,

и - параметры уравнения.

Параметр экономической интерпретации не имеет. Параметр называется коэффициентом регрессии, который показывает насколько изменится результативный признак ( ) при изменении признака-фактора (x) на одну единицу.

Параметры уравнения и найдем из решения системы двух нормальных уравнений:

Уравнение регрессии можно использовать для прогнозирования, если связь между факторным и результативным признаками достаточно тесная.

В случае прямолинейной формы связи теснота может быть измерена линейным коэффициентом корреляции по формуле:

.

Коэффициент корреляции может находится в пределах от 0 (связь отсутствует) до (связь полная). Знак «+» указывает на прямую, а знак «-» на обратную связь.

Существуют способы оценки тесноты связи. В частности, по таблице Чэддока тесноту связи определяют:

 

Значение коэффициента (по модулю) Теснота связи
0,1-0,3 0,3-0,5 0,5-0,7 0,7-0,9 0,9-0,99 слабая умеренная заметная высокая весьма высокая

 

В упрощенном виде считают, что если коэффициент (по модулю) составляет от 0,1 до 0,3 – связь слабая, от 0,3 до 0,7 – средняя, от 0,7 и выше – тесная.

Уравнение линейной регрессии также можно найти по формуле (II способ):

,

где – линейный коэффициент корреляции;

, , , , ,

, .

Оценить тесноту связи можно также с помощью корреляционного отношения, которое вычисляется по формуле:

,

где - индивидуальные значения результативного признака,

- теоретические значения результативного признака, которые находятся по уравнению регрессии,

- среднее значение результативного признака.

При этом абсолютная величина коэффициента корреляции равна корреляционному отношению.

Для оценки степени соответствия модели фактическим данным служит коэффициент детерминации

.

Коэффициент детерминации показывает, какую часть фактической вариации переменной y составляет вариация регрессии.

К простейшим показателям степени тесноты связи относят

а) коэффициент корреляции знаков Фехнера:

,

где - число совпадений знаков отклонений индивидуальных величин от средней величины;

- число несовпадений знаков отклонений индивидуальных величин от средней величины.

б) коэффициент корреляции рангов Кендалла:

.

Для расчета все единицы ранжируются по признаку x, по ряду другого признака y подсчитывается для каждого ранга число последующих рангов, превышающих данный (их сумму обозначим P) и число последующих рангов, ниже данного (их сумму обозначим Q).

в) коэффициент корреляции рангов Спирмена:

,

 

где - разность между рангами переменной x и y.

Коэффициенты корреляции знаков Фехнера,рангов Кендалла, рангов Спирмена могут принимать значения от -1 до +1. Если эти коэффициенты больше нуля, то существует прямая корреляционная связь между исследуемыми признаками, а если меньше нуля, то обратная корреляционная связь. Чем ближе значения этих коэффициентов по модулю к единице, тем теснее связь между изучаемыми признаками. Причем значения, равные также свидетельствуют о корреляционной связи ( в отличие от линейного коэффициента корреляции).

Преимущество коэффициентов корреляции рангов состоит в том, что ранжировать можно и по таким признакам, которые нельзя выразить численно: можно проранжировать кандидатов на занятие определенной должности по профессиональному уровню, по умению руководить коллективом и т.п.

Недостатком коэффициентов корреляции рангов является то, что одинаковым разностям рангов могут соответствовать совершенно отличные разности значений признаков (в случае количественных признаков). Поэтому для количественных признаков следует считать корреляцию рангов, как и коэффициент знаков Фехнера, приближёнными мерами тесноты связи.

Значимость (надежность) вычисленного значения линейного коэффициента корреляции r определяется с помощью t-критерия Стьюдента. Проверяется нулевая гипотеза (о незначимости линейного коэффициента корреляции) при конкурирующей гипотезе .

1. Наблюдаемое значение критерия находится по формуле:

;

2. Критическую точку t-критерия Стьюдента определяем по соответствующей таблице

,

где - уровень значимости, обычно или ( , где - доверительная вероятность);

n-2 – число степеней свободы, а n – количество наблюдений;

3. Сравниваем наблюдаемое значение критерия и критическую точку:

Если , то принимаем нулевую гипотезу об отсутствии связи между показателями x и y.

Если , то отклоняем нулевую гипотезу об отсутствии связи между показателями x и y. Т.е. полученное значение r считается значимым и принимаем гипотезу о наличии статистической связи между показателями.

Значимость простой линейной регрессии проверяется с помощью F-критерия Фишера. Проверяется нулевая гипотеза при конкурирующей гипотезе .

1. Наблюдаемое значение критерия находится по формуле:

;

2. Критическую точку F-критерия Фишера определяем по соответствующей таблице

,

где - уровень значимости, обычно или ( , где - доверительная вероятность), m – количество объясняющих переменных модели (для модели простой парной корреляции m=1);

m и n-m-1= n-2 – числа степеней свободы, а n – количество наблюдений;

3. Сравниваем наблюдаемое значение критерия и критическую точку:

Если , то принимаем нулевую гипотезу об отсутствии линейной регрессии между показателями x и y (необходимо строить нелинейную регрессию).

Если , то отклоняем нулевую гипотезу о равенстве нулю коэффициента детерминации. Т.е. принимаем конкурирующую гипотезу о наличии линейной регрессии между показателями x и y.

Значимость коэффициента регрессии b проверяется с помощью t-критерия Стьюдента. Проверяется нулевая гипотеза (о незначимости коэффициента регрессии) при конкурирующей гипотезе .

1. Наблюдаемое значение критерия находится по формуле:

,

где - среднеквадратическая (стандартная) ошибка параметра регрессии b, находится по формуле

 

;

2. Критическую точку t-критерия Стьюдента определяем по соответствующей таблице

,

где - уровень значимости, обычно или ( , где - доверительная вероятность);

n-2 – число степеней свободы, а n – количество наблюдений;

3. Сравниваем наблюдаемое значение критерия и критическую точку:

Если , то принимаем нулевую гипотезу о незначимости коэффициента регрессии, т.е. коэффициент регрессии почти не отличается от нуля или равен нулю.

Если , то отклоняем нулевую гипотезу о незначимости коэффициента регрессии, т.е. коэффициент регрессии не равен нулю.

Значимость параметра a проверяется с помощью t-критерия Стьюдента. Проверяется нулевая гипотеза при конкурирующей гипотезе .

1. Наблюдаемое значение критерия находится по формуле:

,

где - среднеквадратическая (стандартная) ошибка параметра регрессии a, находится по формуле

;

2. Критическую точку t-критерия Стьюдента определяем по соответствующей таблице

,

где - уровень значимости, обычно или ( , где - доверительная вероятность);

n-2 – число степеней свободы, а n – количество наблюдений;

3. Сравниваем наблюдаемое значение критерия и критическую точку:

Если , то принимаем нулевую гипотезу о незначимости параметра a, т.е. параметра a почти не отличается от нуля или равен нулю.

Если , то отклоняем нулевую гипотезу о незначимости параметра a, т.е. параметра a не равен нулю.

Доверительные интервалы параметров регрессии при уровне значимости определяются по формулам:

где

- среднеквадратическая ошибка параметра регрессии a,

- среднеквадратическая ошибка параметра регрессии b,

- табличное значение критерия Стьюдента при заданном уровне значимости и числе степеней свободы .

Доверительный интервалдля прогнозного значения при уровне значимости определяется по формуле:

где

- точечный прогноз, находится по построенной модели линейной регрессии;

- средняя ошибка прогноза в точке , рассчитывается по формуле:

где - среднеквадратическая (стандартная) ошибка регрессии, рассчитывается по формуле:

Пример.Имеются данные об объемах реализованной продукции и балансовой прибылью предприятия по месяцам отчетного года (см. табл. 8.1).

 

Таблица 8.1

Месяц Объем реализованной продукции, млн. руб. Балансовая прибыль, млн. руб.
Январь Февраль Март Апрель Май Июнь Июль Август Сентябрь Октябрь Ноябрь 1,2 1,8 2,0 2,5 3,0 3,2 3,5 4,9 5,0 6,2 7,3

 

Необходимо:

1) построить модель линейной регрессии зависимости балансовой прибыли предприятия от объема реализованной продукции;

2) оценить тесноту связи между указанными признаками с помощью

а) линейного коэффициента корреляции,

б) коэффициента корреляции знаков Фехнера,

в) коэффициента корреляции рангов Кендалла,

г) коэффициента корреляции рангов Спирмена

и сделать соответствующие выводы;

3) определить значимость построенной модели с помощью коэффициента детерминации;

4) при уровне значимости проверить значимость

а) линейного коэффициента корреляции,

б) простой линейной регрессии,

в) параметров регрессии

и сделать соответствующие выводы;

5) дать точечный и интервальный (при уровне значимости ) прогноз балансовой прибыли при объеме реализации, равном 75 млн. руб.

 

Решение.

1) Так как балансовая прибыль зависит от объема реализованной продукции, то в качестве факторного признака (x) будет выступать объем реализованной продукции, а в качестве результативного (y) – балансовая прибыль.

Уравнение линейной регрессии найдем по формуле:

,

Рассчитаем необходимые суммы в таблице 8.2.

 

Таблица 8.2

  x y
  1,2 537,397 6,205
  1,8 330,579 3,576
  84,306 2,859
  2,5 173,760 1,418
  51,579 0,477
  3,2 38,215 0,241 118,4
  3,5 10,124 0,036
  4,9 7,942 1,462 225,4
  219,579 1,714
  6,2 666,579 6,296 427,8
  7,3 1355,579 13,026
Итого: 40,6 3475,636 37,309 2105,6

 

Тогда (млн. руб.);

(млн. руб.);

;

; (млн. руб.);

; (млн. руб.);

;

Уравнение линейной регрессии имеет вид:

или .

2а) Линейный коэффициент корреляции между переменными x и y равен , что свидетельствует о прямой весьма высокой связи между этими признаками, т.е. между объемом реализованной продукции и балансовой прибылью предприятия.

2б) Найдем коэффициент корреляции знаков Фехнера.

В таблице 8.3 запишем знаки отклонений индивидуальных величин от средней.

 

Таблица 8.3

x y Знак Знак «с» - совпадение знаков «н» - несовпадение знаков
1,2 1,8 2,0 2,5 3,0 3,2 3,5 4,9 5,0 6,2 7,3 ─ ─ ─ ─ ─ ─ ─ + + + + ─ ─ ─ ─ ─ ─ ─ + + + + с с с с с с с с с с с

 

Итак, число совпадений знаков отклонений и число несовпадений знаков отклонений . Тогда . Следовательно, между изучаемыми признаками существует прямая тесная корреляционная связь.

2в) Найдем коэффициент корреляции рангов Кендалла.

В таблице 8.4 запишем ранги переменных x и y.

 

Таблица 8.4

x y Ранг x Ранг y
1,2 1,8 2,0 2,5 3,0 3,2 3,5 4,9 5,0 6,2 7,3

 

Упорядочим все единицы по признаку x (см. табл. 8.5)

 

Таблица 8.5

x y Ранг x Ранг y
1,2 1,8 2,5 2,0 3,0 3,2 3,5 4,9 5,0 6,2 7,3

 

По признаку y подсчитаем суммы P и Q:

P=10+9+7+7+6+5+4+3+2+1+0=54, Q=0+0+1+0+0+0+0+0+0+0+0=1.

Тогда . Следовательно, между изучаемыми признаками существует прямая тесная корреляционная связь.

 

2г) Найдем коэффициент корреляции рангов Спирмена.

Рассчитаем в таблице квадраты разностей между рангами переменных x и y (см. табл. 8.6).

 

Таблица 8.6

x y Ранг x Ранг y (Ранг x– Ранг y)
1,2 1,8 2,5 2,0 3,0 3,2 3,5 4,9 5,0 6,2 7,3
      Итого:

 

Тогда . Следовательно, между изучаемыми признаками существует прямая тесная корреляционная связь.

3) Коэффициент детерминации найдем по формуле:

,

необходимые суммы рассчитаны в таблицах 8.7 и 8.2.

 

Таблица 8.7

 

 
  1,340 5,525 0,020
  1,847 3,399 0,002
  2,354 1,786 0,021
  2,760 0,867 0,577
  2,963 0,530 0,001
  3,064 0,393 0,018
  3,368 0,104 0,017
  3,977 0,082 0,853
  5,193 2,258 0,037
  6,309 6,853 0,012
  7,424 13,937 0,015
Итого: 40,6 35,734 1,575

 

следовательно, модель объясняет зависимость между переменными на 95,78 %.

4а) При уровне значимости проверим гипотезу о значимости линейного коэффициента корреляции.

,

.

1. Наблюдаемое значение критерия

.

2. Критическая точка .

3. Т.к. (14,2895>2,26), то отклоняем нулевую гипотезу об отсутствии связи между показателями x и y. Т.е. полученное значение r считается значимым, и принимаем гипотезу о наличии статистической связи между показателями.

4б) При уровне значимости проверим гипотезу о значимости простой линейной регрессии.

,

.

1. Наблюдаемое значение критерия

.

2. Критическая точка .

3. Т.к. (204,1897>5,12), то отклоняем нулевую гипотезу о равенстве нулю коэффициента детерминации. Т.е. принимаем конкурирующую гипотезу о значимости линейной регрессии между показателями x и y.

4в) При уровне значимости проверим гипотезы о значимости параметров регрессии.

Для коэффициента регрессии b:

,

.

1. Наблюдаемое значение критерия

,

где (необходимые суммы найдены в таблицах 8.2 и 8.7);

2. Критическая точка .

3. Т.к. (14,2895>2,26), то отклоняем нулевую гипотезу о незначимости коэффициента регрессии, т.е. коэффициент регрессии не равен нулю.

Для параметра a:

,

.

1. Наблюдаемое значение критерия

,

где (необходимые суммы найдены в таблицах 8.2 и 8.7);

2. Критическая точка .

3. Т.к. (|-2,075|<2,26), то принимаем нулевую гипотезу о незначимости параметра a, т.е. параметра a почти не отличается от нуля или равен нулю, и он может не использоваться в модели. Однако наличие свободного члена в линейном уравнении может лишь уточнить вид зависимости. Поэтому, если нет серьезных причин для удаления свободного члена из уравнения регрессии, то лучше его использовать в модели.

5) Точечный прогноз балансовой прибыли при объеме реализации, равном 75 млн. руб. найдем по построенной модели:

(млн. руб.)

Доверительный интервалдля прогнозного значения млн. руб. будет иметь вид:

где

,

 

стандартная ошибка регрессии .

Т.к. , то доверительный интервал будет иметь вид:

или .

Таким образом, при уровне значимости при объеме реализации, равном 75 млн. руб. балансовая прибыль предприятия ожидается в пределах от 5,8057 млн. руб. до 8,0287 млн. руб.

 

Если связь между признаками выражается какой-либо кривой линией, то нужно применить соответствующую формулу для расчета уравнения регрессии. Так, например, при связи, выраженной в форме гиперболы, уравнение регрессии имеет вид:

,

Параметры уравнения и находятся из решения системы уравнений:

Если уравнение регрессии имеет форму параболы второго порядка, то его уравнение будет: .

Параметры уравнения , и находятся из решения системы уравнений:

Показателем тесноты криволинейной корреляции является корреляционное отношение, которое вычисляется по выше приведенной формуле.