Тема 7. КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ
Методические указания
Виды связей между признаками
Существующие между признаками связи принято классифицировать на функциональные (жёстко детерминированные) и статистические (стохастически детерминированные).
Связь признака у с признаком х называется функциональной, если каждому возможному значению независимого признака х соответствует одно или несколько строго определённых значений зависимого признака у.
Функциональную связь можно представить уравнением:
,
где yi – результативный признак;
– известная функция связи результативного и факторного признаков;
– факторный признак.
Стохастическая связь — это связь между величинами, при которой одна из них, случайная величина у, реагирует на изменение другой величины x или других величин x1, x2, …, xn (случайных или неслучайных).
В случае корреляционной связи среднее значение (математическое ожидание) случайной величины результативного признака у закономерно изменяется в зависимости от изменения другой величины х или других случайных величин x1, x2, …, xn .Такая связь проявляется не в каждом отдельном случае, а во всей совокупности в целом, и только при достаточно большом количестве наблюю-дений становится очевидным, вызывает ли изменение значений случайного признака х изменение распределения средних величин случайного признака у . Корреляционная связь является частным случаем стохастической связи.
На первом этапе корреляционно-регрессионного анализа устанавливается факт наличия связи и её форма. На втором этапе измеряется теснота связи и проводится оценка её существенности. На заключительном этапе – построение модели связи (уравнения регрессии).
Измерение тесноты связи
Для установления факта наличия связи и её формы используют различные методы.
Для определения степени тесноты парной линейной зависимости служит линейный коэффициент корреляции (r). При любой форме зависимости (линейной или криволинейной) рассчитывается эмпирическое корреляционное отношение ( ).
Линейный коэффициент корреляции рассчитывается следующим образом:
или
где – отклонения вариантов признака-фактора от их средней величины;
– отклонения вариантов значений результативного признака от их средней величины;
– число единиц в совокупности;
– среднее квадратическое отклонение соответственно признака-фактора и результативного признака.
Эмпирическое корреляционное отношение определяется по формуле
где – межгрупповая дисперсия результативного признака, вызванная влиянием признака-фактора.
– общая дисперсия результативного признака.
Линейный коэффициент корреляции может принимать значения в пределах от –1 до +1. Чем ближе он по абсолютной величине к 1, тем теснее связь. Знак при этом указывает на направление связи: «+» говорит о прямой связи, «–» – об обратной. Эмпирическое корреляционное отношение изменяется в пределах от 0 до 1; чем ближе значение к 1, тем теснее связь, направление связи оно не показывает.
Оценка существенности линейного коэффициента корреляции при большом объёме выборки свыше 500 проводится с использованием t-критерия Стьюдента, который представляет собой отношение отношения коэффициента корреляции (r) к его средней квадратической ошибке ( ):
,
где .
При недостаточно большом объёме выборки величина средней квадратической ошибки коэффициента корреляции определяется по формуле
.
Уравнение регрессии
Если это отношение окажется больше значения t-критерия Стьюдента, определяемого по Приложению 5 при числе степеней свободы k = n – 2 и с вероятностью (1 – a) , то следует говорить о существенности коэффициента корреляции при уровне значимости а = 0,01 или 0,05.
Квадрат коэффициента корреляции r2 называется коэффициентом детерминации и показывает, на сколько процентов вариация результативного признака обусловлена вариацией признака-фактора.
После установления достаточной степени тесноты связи выполняется построение модели связи (уравнения регрессии). Тип модели выбирается на основе сочетания теоретического анализа и исследования эмпирических данных посредством построения эмпирической линии регрессии. Чаще всего используются следующие типы функций:
1) линейная ;
2) гиперболическая ;
3) параболическая ;
4) показательная .
Для определения численных значений параметров уравнения связи (линии регрессии) используется метод наименьших квадратов и решается система нормальных уравнений.
Для определения параметров уравнения прямолинейной корреляционной связи система нормальных уравнений (для несгруппированных данных) имеет вид:
Параметры а и b можно определить и по следующим формулам
;
.
Для проверки возможности использования линейной функции в качестве модели связи определяется разность (ŋ2−r2). Если она менее 0,1, то считается возможным применение линейной функции. Для решения этой же задачи можно использовать величину ω2, определяемую по формуле
,
где m − число групп, на которое разделён диапазон значений факторного признака.
Если ω2 окажется меньше табличного значения F-критерия, то нулевая гипотеза о возможности использования в качестве уравнения регрессии линейной функции не опровергается. Значение F – критерия определяется по таблице в зависимости от уровня значимости а = 0,05 (вероятность Р = 0,95) и числа степеней свободы числителя (k1 = m−2) и знаменателя (k2 = n–m) (приложение В).
В качестве меры достоверности уравнения корреляционной зависимости используется процентное отношение средней квадратической ошибки уравнения Se к среднему уровню результативного признака :
;
,
где y − фактические значения результативного признака;
− значения результативного признака, рассчитанные по уравнению регрессии;
l − число параметров уравнения регрессии.
Если это соотношение не превышает 10 − 15%, то следует считать, что уравнение регрессии достаточно хорошо отображает изучаемую взаимосвязь.
Решение типовых задач
Пример 7.1
Известны следующие данные о величине оборотного капитала и прибыли по группе предприятий торговли.
№ п/п | Оборотный капитал, тыс. руб. | Прибыль, тыс. руб. | № п/п | Оборотный капитал, тыс. руб. | Прибыль, тыс. руб. |
На основе приведённых данных: 1) определим тесноту связи между оборотным капиталом и прибылью и дадим оценку существенности линейного коэффициента корреляции; 2) построим уравнение регрессии и оценим возможность использования линейной функции.
Решение
1. Факторный признак – величина оборотного капитала (x); результативный признак – прибыль (y).
Предполагая, что зависимость между оборотным капиталом и прибылью имеет линейную форму, определим тесноту связи на основе линейного коэффициента корреляции. Данные для расчёта приведены во вспомогательной таблице 1:
Вспомогательная таблица 1
№ п/п | Оборот-ный капитал, тыс. руб. (х) | При-быль, тыс. руб. (у) | x2 | y2 | xy | ![]() | ![]() | ![]() |
143,6 | -16,6 | 275,56 | ||||||
104,4 | -18,4 | 338,56 | ||||||
180,4 | 3,6 | 12,96 | ||||||
94,0 | -12 | 144,00 | ||||||
152,4 | -15,4 | 237,16 | ||||||
108,8 | 1,2 | 1,44 | ||||||
213,6 | -20,6 | 424,36 | ||||||
182,8 | 7,2 | 51,84 | ||||||
212,8 | -28,8 | 829,44 | ||||||
196,4 | -7,4 | 54,76 | ||||||
155,6 | -20,6 | 424,36 | ||||||
190,4 | -15,4 | 237,16 | ||||||
112,4 | 2,6 | 6,76 | ||||||
224,4 | -14,4 | 207,36 | ||||||
185,6 | -16,6 | 275,56 | ||||||
228,4 | -13,4 | 179,56 | ||||||
263,6 | 0,4 | 0,16 | ||||||
260,8 | -19,8 | 392,04 | ||||||
230,4 | 4,6 | 21,16 | ||||||
161,2 | 5,8 | 33,64 | ||||||
222,8 | 52,2 | 2724,84 | ||||||
189,2 | -32,2 | 1036,84 | ||||||
176,8 | -12,8 | 163,84 | ||||||
267,6 | 46,4 | 2152,96 | ||||||
273,6 | 12,4 | 153,76 | ||||||
Итого | 93731,14 | 10380,08 |
Линейный коэффициент корреляции составит:
Значение линейного коэффициента корреляции 0,95 свидетельствует о прямой и тесной связи между величиной оборотного капитала и прибылью предприятий торговли.
Чтобы это утверждать, дадим оценку существенности линейного коэффициента корреляции на основе расчёта t-критерия Стьюдента:
Показатель tтабл находим по таблицам Стьюдента (приложение Б).
Для числа степеней свободы К = n−2=25−2=23 и уровня значимости 1% tтабл = 2,797; 14,591 > 2,797.
Следовательно, с вероятностью 0,99 можно утверждать существенность коэффициента корреляции.
2. В случае линейной связи параметры уравнения регрессии определяются следующим образом:
;
.
Используя данные таблицы 1, рассчитаем среднее значение факторного и результативного признака, дисперсию и среднее квадратическое отклонение.
Среднее значение факторного признака:
тыс. руб.
Дисперсия факторного признака:
.
Среднее квадратическое отклонение факторного признака:
тыс. руб.
Среднее значение результативного признака:
тыс. руб.
Дисперсия результативного признака:
.
Среднее квадратическое отклонение результативного признака:
руб.
Теперь можем определить параметры уравнения регрессии:
;
.
Подставим значения параметров в уравнение регрессии:
.
Коэффициент регрессии b = 0,4 говорит о том, что при увеличении оборотного капитала на 1 тыс. руб. прибыль в среднем возрастет на 0,4 тыс. руб., или на 400 руб.
Возможность использования линейной функции может быть оценена на основе величины:
,
где m − число групп, на которое разделен диапазон значений факторного признака.
Для расчёта ω2 необходимо исчислить эмпирический коэффициент детерминации:
Для определения межгрупповой дисперсии произведём группировку по факторному признаку и выполним вспомогательные расчёты (таблица 2).
Таблица 2 – Группировка предприятий по величине оборотного капитала
№ п/п | Оборотный капитал, тыс. руб. | Число предприятий | Середина интервала (Xi) | Прибыль в среднем на одно предприятиe ![]() |
510 − 600 | 98,25 | |||
600 − 690 | 141,5 | |||
690 − 780 | 175,43 | |||
780 − 870 | 218,67 | |||
870 − 960 | 276,25 |
Межгрупповая дисперсия:
Тогда эмпирический коэффициент детерминации оставит:
.
Значение эмпирического коэффициента детерминации говорит о том, что на 87,6% вариация прибыли в этой совокупности предприятий обусловлена вариацией оборотного капитала и на 12,4% – вариацией прочих неучтенных факторов.
Тогда составит:
.
При уровне значимости а = 0,05 (вероятность Р=0,95), и числа степеней свободы числителя 3 (k1= m -2 = 5 - 2 = 3 ), и знаменателя 20 (k2 = n – m = 25-5 = 20) (приложение В) Fтабл= 3,10. Так как ω2 меньше табличного значения F-критерия, то нулевая гипотеза о возможности использования в качестве уравнения регрессии линейной функции не опровергается.
В качестве меры достоверности уравнения корреляционной зависимости используется процентное отношение средней квадратической ошибки уравнения Se к среднему уровню результативного признака :
;
,
где у − фактические значения результативного признака;
− значения результативного признака, рассчитанные по уравнению
регрессии;
l — число параметров уравнения регрессии.
Теоретические значения по уравнению регрессии находим следующим образом: фактическое значение х = 634 тыс. руб. подставляем в уравнение регрессии = −110 + 0,4x =>
= −110+0,4х∙634 = 143,6; для остальных значений оборотного капитала расчёт теоретических значений величины прибыли производится аналогично. Вспомогательные расчёты для определения средней квадратической ошибки уравнения регрессии приведены в таблице 1.
Полученное соотношение не превышает 15%, а это значит, что уравнение регрессии достаточно хорошо отображает изучаемую взаимосвязь и может быть использовано для прогнозов.