Условия построения парной линейной регрессии методом наименьших квадратов

Для построения парной линейной регрессии используют широко известный в математической статистике метод наименьших квадратов (МНК). Однако его применение возможно при выполнении ряда условий, которые обеспечивают точные и надежные результаты. Прежде всего, необходимо убедиться в достаточно большом объеме изучаемой совокупности, состоящей не менее чем из 8–10 ед. Это даст надежность результатов.

Далее необходимо убедиться, что изучаемое множество представлено однородными единицами, одинаковыми по своей внутренней сущности и близкими по значениям каждого из признаков, т.е. как у, так и х. На однородность значений каждого признака указывают коэффициент вариации, не превышающий 60–80%, а также близкие к нулю (и статистически незначимые) коэффициенты асимметрии и эксцесса. Если и (или близки к нулю), то переменные у их можно рассматривать как аналоги случайных переменных и для обработки их значений использовать МНК. Если данное условие не выполняется, то это указывает на неоднородность изучаемых объектов с предельно большими или малыми значениями переменных у и х. Чтобы повысить степень однородности множества, следует выявить и поэтапно удалить один за другим все аномальные объекты. Только по однородному множеству можно получить высокоинформативную модель связи переменных у и х.

Процедура построения парной регрессионной модели методом наименьших квадратов

Суть МНК заключается в том, что сумма квадратов отклонений фактических значений результата у от расчетных у, полученных при подстановке в уравнение фактических значений фактора х, является величиной минимальной:

Исходя из этого условия строим систему нормальных уравнений

Решаем систему уравнений либо методом последовательного исключения переменных, либо через систему определителей второго порядка:

Значения определителей второго порядка рассчитываем, используя формулы Крамера:

Допустим, предлагается изучить зависимость инвестиций в экономику региона (у) от среднегодовой стоимости основных фондов в экономике региона (x), используя официальную информацию государственной статистики по территориям Центрального федерального округа (табл. 6.1). Чтобы выполнить расчет, добавим в таблицу исходных данных графы: , а также заключительные строки: "Итого", "Средняя", "Дисперсия" (),

Среднее квадратическое отклонение (σ)". Покажем порядок решения задачи.

Из 18 территорий Центрального федерального округа исключены Москва и Московская область, так как они имеют аномально высокие значения инвестиций и основных фондов, нарушающие однородность изучаемой совокупности. Таким образом, дальнейшее исследование зависимости валового регионального продукта от инвестиций выполним по 16 однородным территориям.

Чтобы правильно выбрать ту или иную форму уравнения (линейную или одну из нелинейных), полезно построить график фактических значений и (рис. 6.1). Линейная регрессия, как правило, лучше других отражает форму связи большинства экономических и социальных процессов, поэтому ее используют как базу сравнения при выборе оптимального уравнения зависимости из нескольких разных но форме.

Таблица 6.1

Расчет параметров парной линейной зависимости инвестиций от среднегодовой стоимости основных фондов в экономике по терртиториям Центрального федерального округа

Территории федерального округа и основные параметры расчета

1. Орловская обл.

93.6

4,7

8760,96

439,92

3,9

0,8

0,7

9,8

2. Ивановская обл.

99.7

2,9

9940,09

289.13

4,2

-1,3

1,7

15,5

3. Костромская обл.

108.4

5,6

11 750,56

607,04

4,7

0,9

0,8

10,4

4. Калужская обл.

123,2

7,2

15 178,24

887,04

5,6

1,6

2,7

19,3

5. Брянская обл.

147,3

4,1

21 697,29

603,93

6,9

-2,8

8.1

33,5

6. Тамбовская обл.

160.5

4,9

25 760,25

786,45

7,7

-2,8

7,8

33,0

7. Владимирская обл.

162,9

8,6

26 536,41

1400,94

7,8

0,8

0.6

9,0

8. Рязанская обл.

167,7

6,7

28 123,29

1123,59

8,1

-1,4

2,0

16,6

9. Смоленская обл.

175,5

10,5

30 800,25

1842,75

8,6

1,9

3.8

22,8

10. Курская обл.

177,5

9,7

31 506,25

1721,75

8,7

1,0

1,0

12,0

11. Липецкая обл.

191,5

10,4

36 672,25

1991,60

9,5

0,9

0,8

10,8

12. Белгородская обл.

194,1

10.2

37 674,81

1979,82

9,6

0,6

0,3

6,7

13. Тульская обл.

215,3

9,1

46 354,09

1959,23

10,8

-1,7

3,0

20,5

14. Тверская обл.

225,4

14

50 805,16

3155,60

11,4

2,6

6.6

30,3

15. Ярославская обл.

258,0

12,6

66 564,00

3250,80

13,3

-0,7

0,5

8,2

16. Воронежская обл.

290,1

14,8

84 158,01

4293,48

15,1

-0,3

0.1

4.0

17. Московская обл.

909,5

60

X

X

X

X

X

X

18. Москва

2048,6

205,4

X

X

X

X

X

X

Итого

2790,7

136,0

532 281,91

26 333,07

136,0

0,0

40,7

262,4

Средняя

174,42

8,50

X

X

X

X

2,5

16,4

Дисперсия (о2)

2845,7

11,91

X

X

X

X

X

X

Среднее квадратическое отклонение (о)

53,35

3,45

X

X

X

X

X

X

Коэффициент вариации (v)

30,58

40.60

X

X

X

X

X

X

По данным: Регионы России. Социально-экономические показатели 2008: стат. сб. / Росстат. – М., 2008. С. 20, 21 (табл. 1.2)

Рис. 6.1. Зависимость инвестиций от розничного товарооборота

Для расчета определителей найдем их итоговые значения по 16 однородным единицам. В результате имеем:

Значения определителей используем для расчета параметров уравнения:

В итоге получаем уравнение

После подстановки в уравнение фактических значений фактора получаем расчетные значения результата , т.е. такие его теоретические значения, которые сформировались бы при фактических значениях фактора и средней степени взаимодействия последнего с результатом. Для иллюстрации результата полезно нанести на уже построенный график эмпирической регрессии точки с координатами соединяя которые отрезками прямой, получаем теоретическую линию регрессии. Если расчеты выполнены верно, то теоретическая регрессия пройдет через эмпирическую и пересечет ее в нескольких точках (рис. 6.2).

Рис. 6.2. Эмпирическая (1) и теоретическая (2) регрессии зависимости от розничного товарооборота