Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

Обеспечение устойчивости решения системы нормальных уравнений при плохо обусловленной информационной матрице

По экспериментальным данным из приложения 3 методом наименьших квадратов найти оценки регрессионных коэффициентов регрессионной модели и сравнить их с истинными значениями, приведенными в приложении 3.

Проверить наличие мультиколлинеарности, вычислив меру обусловленности матрицы нормальной системы уравнений. Найти корреляционную матрицу и установить источник мультиколлинеарности.

Используя метод регуляризации, установить мультиколлинеарность. Для определения параметра регуляризации построить гребневый след – график зависимости оценок от . Указать значение параметра , при котором оценки стабилизируются.

С учетом истинных значений регрессионных коэффициентов, приведенных в приложении 3, построить зависимость квадратичной ошибки оценок коэффициентов от параметра регуляризации и найти оптимальное значение параметра регуляризации.

Указать оценки регрессионных коэффициентов, соответствующих оптимальному значению параметра регуляризации, сравнить их с истинными значениями и оценить погрешности.

Таблица 1

k x1k x2k yk
-1 -1,971 -10,908
-0,765 -1,511 -6,859
-0,530 -1,063 -4,057
-0,295 -0,6 -1,537
-0,060 -0,114 -0,198
0,175 0,344 0,587
0,410 0,833 -0,340
0,645 1,274 -1,310
0,880 1,763 -3,531
2,003 -5,036

Решение:

Матрица регрессоров имеет вид:

 

  -1 -1,971 1,971
  -0,765 -1,511 1,155915
  -0,530 -1,063 0,03339
  -0,295 -0,6 0,177
F= -0,060 -0,114 0,00684
  0,175 0,344 0,0602
  0,410 0,833 0,34153
  0,645 1,274 0,82173
  0,880 1,763 1,55144
  2,003 2,003

  -1 -0,765 -0,53 -0,295 -0,06 0,175 0,41 0,645 0,88
= -1,971 -1,511 -1,063 -0,6 -0,114 0,344 0,833 1,274 1,763 2,003
  1,971 1,155915 0,56339 0,177 0,00684 0,0602 0,34153 0,82173 1,55144 2,003

Информационная матрица

4,3459 8,652045 0,842348
8,652045 17,22641 1,761993
0,842348 1,761993 12,78425

Матрица дисперсий ковариаций C= :

4448,534 -2235,84 15,04297
-2235,84 1123,792 -7,56872
15,04297 -7,56872 0,130208

 

  -12,051 -7,392 27,446 31,847 -11,924 10,271 -33,415 33,210 -3,731 0,285
C = 5,925 3,617 -13,861 -16,043 5,986 -5,143 16,841 -16,623 1,966 -0,042
  0,132 0,079 0,146 0,127 -0,039 0,037 -0,093 0,167 0,096 0,144

 

МНК оценки коэффициентов регрессионной модели

9,840
-3,428
-3,986

 

Модель принимает вид

Сравним полученные оценки b с истинными значениями , вычислив относительные погрешности:

884% 442,8% 0,35%

Как видно, оценки b1, и b2 несут на себе непозволительно большую погрешность, которая серьезно исказит предсказанные по модели значения. Попробуем это исправить. Для начала проверим наличие мультиколлинеарности, вычислив меру обусловленности матрицы , которая является правой частью в системе уравнения МНК.

Выберем норму вида

Мера обусловленности матрицы

= 27,64044* 2227,741= 61575,74

Слишком большое значение меры обусловленности свидетельствует о плохой обусловленности информационной матрицы. Установим ее источник. Стандартизируем регрессионную модель, чтобы потом вычислить ее корреляционную матрицу R.

Процесс стандартизации для элементов матрицы F и yk выглядит следующим образом:

, , ,

, , .

В результате получим значения, приведенные в таблице:

k 1k 2k 3k k
-0,503 -0,499 0,480 -0,708
-0,390 -0,388 0,126 -0,330
-0,277 -0,280 -0,131 -0,069
-0,164 -0,168 -0,299 0,166
-0,051 -0,051 -0,373 0,291
0,062 0,060 -0,350 0,365
0,175 0,178 -0,228 0,278
0,288 0,285 -0,019 0,188
0,401 0,403 0,298 -0,020
0,459 0,461 0,494 -0,160

 

  -0,503 -0,390 -0,277 -0,164 -0,051 0,062 0,175 0,288 0,401

 

0,459
= -0,499 -0,388 -0,280 -0,168 -0,051 0,060 0,178 0,285 0,403 0,461
  0,480 0,126 -0,131 -0,299 -0,373 -0,350 -0,228 -0,019 0,298 0,494

 

Вычислим корреляционную матрицу.

  0,999963 0,092827
R= 0,999963 0,097933
  0,092827 0,097933

Таким образом, источником мультиколлинеарности является сильная корреляция между 1k и 2k или и . det R= 0,00005.

Устраним мультиколлинеарность, применив метод регуляризации.

Регуляризованные оценки вычисляются по формуле

где – параметр регуляризации.

Определим его двумя способами, предварительно составив таблицу, в которой приведем значения и значения квадратичной ошибки регрессионных коэффициентов в зависимости от . Последнюю можно вычислить по формуле:

Первый способ определения параметра регуляризации предусматривает построение «гребневого следа» (графика зависимости от ) и определения по нему значения , при котором оценки стабилизируются.

alpha b1 b2 b3 Q
9,840468 -3,42836 -3,986 97,76448
0,001 2,022663 0,500809 -4,01211 1,295179
0,002 1,3789 0,824264 -4,01396 0,174644
0,003 1,140062 0,944202 -4,01444 0,022939
0,004 1,015495 1,006706 -4,01454 0,000496
0,005 0,939012 1,045044 -4,01447 0,005958
0,006 0,887269 1,070946 -4,01431 0,017946
0,007 0,849929 1,08961 -4,01411 0,03075
0,008 0,821708 1,103691 -4,01388 0,042732
0,009 0,799627 1,114685 -4,01362 0,053488
0,01 0,781876 1,123504 -4,01336 0,06301
0,011 0,767293 1,13073 -4,01308 0,071414
0,012 0,755098 1,136756 -4,01279 0,078843
0,013 0,744747 1,141855 -4,0125 0,085433
0,014 0,73585 1,146223 -4,0122 0,091305
0,015 0,728119 1,150005 -4,0119 0,096562

 

Построим графики для из [0,002; 0,015]

Как видно, оценки стабилизируются при =0,008.

Найдем параметр регуляризации вторым способом, который заключается в поиске минимального значения квадратичной ошибки.

Таким образом, при =0,004 получили наилучшие результаты регуляризации. Значит, данное значение является оптимальным.

Запишем оценки регрессионных коэффициентов, соответствующие оптимальному значению параметра регуляризации =0,004:

  1,015
1,007
  -4,015

Модель будет иметь вид:

Сравним с истинными значениями , вычислив относительную погрешность

1,5% 0,7% 0,735%

Видим значительное улучшение результатов по сравнению с результатами, полученными при оценивании коэффициентов простым МНК.