Перевірка адекватності регресійної моделі

Для практичного використання моделей регресії велике значення має їх адекватність, тобто відповідність фактичним статистичним даним.

Кореляційний і регресійний аналіз зазвичай проводиться для обмеженої за об'ємом сукупності. Тому показники регресії і кореляції – параметри рівняння регресії, коефіцієнти кореляції і детерміації можуть бути спотворені дією випадкових чинників. Щоб перевірити, наскільки ці показники характерні для всієї генеральної сукупності, чи являється вони результатом збігу випадкових обставин, необхідно перевірити адекватність побудованих статистичних моделей.

Показником ступеня щільності зв'язку є лінійний коефіцієнт кореляції r.

При розрахунку цього показника| враховуються не тільки знаки відхилень значень від середньої, але і самі величини таких відхилень, тобто . Проте безпосередньо співставити отримані абсолютні величини неможна, так як вони зазвичай виражаються в різних одиниця. Тому порівнянню можуть підлягати відхилення, виражені у відносних величинах, наприклад, в долях середнього квадратичного відхилення (нормовані відхилення). Так, для факторної ознаки ця величина буде рівна , а для результативної - , де , - вибіркові середні, а , - вибіркові середньоквадратичні відхилення.

Для того, щоб на основі зіставлення розрахованих нормованих відхилень одержати узагальнену характеристику міри щільності зв'язку між ознаками, розраховують середній добуток нормованих відхилень. Отримана таким чином середня і є лінійним коефіцієнтом кореляції r

 

.

 

Перетворивши формулу, отримаємо:

 

;

 

або

.

 

Лінійний коефіцієнт кореляції приймає значення від - 1 до +1. Чим ближче коефіцієнт r за абсолютною величиною до 1, тим міцніший кореляційний зв'язок. Для практичних обчислень при малому числі спостережень (n<30) лінійний коефіцієнт кореляції зручніше обчислювати за| формулою:

.

 

Від’ємні значення вказують на протилежний зв'язок, позитивні – на пряму регресію. При r = 0 лінійний зв'язок відсутній. Чим ближче коефіцієнт кореляції за абсолютною величиною до одиниці, тим тісніший зв'язок між ознаками. І, нарешті, при r = ±1 – зв'язок функціональний.

іїВикористовуючи пакет MahtСad, визначимо коефіцієнт кореляції R за допомогою вбудованої функції corr(X, Y):

,

або за формулою

 

Отримаємо: r = R=0,419. Величина знайденого коефіцієнта кореляції свідчить, що зв'язок між параметрами не дуже тісний.

Квадрат лінійного коефіцієнта кореляції r2 називається лінійним коефіцієнтом детерміації. З визначення коефіцієнта детерміації очевидно, що його числове значення завжди знаходиться в межах від 0 до 1.

 

Засобами пакету MahtСad, отримаємо:

R2

-

Коєфіцієнт детерміації R2вказує, що варіація змінної Y в залежності від зміни Х складає 17, 6%.

 

Перевіримо значущість коефіцієнта регресії при р=0,05.

Якщо в результаті проведеної перевірки немає підстав сумніватися в адекватності лінійної моделі, то необхідно перевірити гіпотезу про те, що насправді в генеральній сукупності відсутня лінійна регресія (гіпотеза Н0), а те, що отриманий коефіцієнт регресії відмінний від нуля пояснюється тільки випадковістю вибірки.

Гіпотеза Н0 перевіряється за допомогою стандартного t -критерія Стьюдента. Значення t -критерія визначається за формулою:

 

 

 
n
i
Y
i
(
)
å
=
A0
n
i
Y
i
å
=
×
-
A1
n
i
X
i
Y
i
×
(
)
å
=
×
-
(n
2)(ΣX2 - nX2 )
-
t :=

 

При лінійному однофакторному| зв'язку t-критерій| можна розрахувати за формулою:

 

r
n
r
t
розр
-
-
=
,

де (n - 2) – число степенів свободи при заданому рівні значущості р і об'ємі вибірки п. За допомогою пакету MahtСad,отримаємо: tрозр| = 0,394. Порівняємо отриман tрозр= 0,394 з критичним значенням із таблиці Стьюдента, де п - 2=14, а р=0,05. Якщо значення tрозр>tp, то нульова гіпотеза відхиляється, і можна зробити висновок, що лінійна регресія значуща на рівні значущості р. Інакше гіпотеза Н0 приймається.

Задамо рівень значущості р=0,05.

t0.05=2,14 – значення знайдене за таблицею критичних точок Стьюдента.

 

Оскільки t<t0.05, то на рівні значущості 0,05 відхиляємо гіпотезу Н0, тобто коефіцієнт регресії не є статистично значущим. Це означає, що припущення про лінійну залежність не достовірне.

Розв’яжемо задачу для Y1.

Предстадставимо початкову інформацію у вигляді векторів, вводячи перепозначення:

 

, ,

 

Оскільки всі обчислення виконуються за тими самими формулами, що і попередні, то виконувати їх будемо лише засобами MathCad

 

1) Визначення вільного члена рівняння регресії А0 за допомогою вбудованої функції intercept(X.Y)

 

Intercept (X,Y);
A0
 
 
,
 
:=

 

A0
16.326.
=

 

2) Визначення коефіцієнта А1 рівняння регресії за допомогою вбудованої функції slope(X.Y)

 

A1
0,023
=

 

y(x) = 0,023x +16,326.

Визначимо коефіцієнт кореляції R за допомогою вбудованої функції corr(X, Y):

R=- 0,069.

Величина знайденого коефіцієнта кореляції свідчить, що зв'язок між параметрами не відсутній.

Коєфіцієнт детерміації

R2=

вказує, що варіація змінної Y в залежності від зміни Х складає всього 0,5%.

Перевіримо значущість коефіцієнта регресії при р=0,05.

За допомогою вбудованих функцій отримаємо значення t -критерія:

 

 

тобто tрозр =- 0,064. Порівняємо отримане tрозр = 0,-064 із критичним значенням з| таблиці Стьюдента, де п - 2=14, а р=0,05. Якщо значення tрозр>tp, то нульова гіпотеза відхиляється, і можна зробити висновок, що лінійна регресія значуща на рівні значущості р. Інакше гіпотеза Н0 приймається.

Задамо рівень значущості р=0,05.

t0.05=2,14 – значення знайдене за таблицею критичних точок Стьюдента.

 

Оскільки t<t0.05, то на рівні значущості 0,05 відхиляємо гіпотезу Н0, тобто коефіцієнт регресії не є статистично значущим. Це означає, що припущення про лінійну залежність не достовірне.

За допомогою вбудованої функції stderrзнайдемо стандартнупомилку, а саме:

 

 

СПИСОК ЛІТЕРАТУРИ

 

1. Основы математической статистики: Учебное пособие для y-тов физ. культ./ Под. ред В. С. Иванова. – М.: Физкультура и спорт, 1990. – 176., ил.

2. Лакин Г. Ф. Биометрия: Учеб. пособие для биол спец. вузов – 4-е изд., перераб. и доп. – М.: Высш. шк., 1990. – 352 с., ил.

 

3. Кирьянов Д. В.Самоучитель Mathcad И. - СПб.: БХВ-Петербург, 2003. - 560 с: ил.

4. Гурский Д. А., Турбина Е. С. Вычисления в Mathcad 12. — СПб.: Питер, 2006. — 544 с: ил.

5. Алексеев Е. Р., Чеснокова О. В. Решение задач вычислительной математики в пакетах Mathcad 12, МАТLАВ 7, Мар1е 9/Алексеев Е. Р., Чеснокова О. В. - М. : НТ Пресс, 2006. - 496 с. : ил. - (Самоучитель).

6. Макаров Е. Г. Инженерные расчеты в Mathcad . Учебный курс. – Спб.; Питер, 2005. – 448 с.: ил.

 

7. http://www.exponenta.ru/educat/systemat/kazah/matecon/2_5.asp Лабораторные работы по курсам "Математика для экономистов" и "Экономико-математические методы и моделирование" в системе MathCAD Р.М. Оспанов

 

8. http://www.statsoft.ru/HOME/TEXTBOOK/modules/stmulreg.html

 

9. http://iskunstvo.narod.ru/edu/inf/regr.htm

 

10. http://edu.nstu.ru/courses/enc/control_quality/full/XX42.htm