Визначення коефіцієнтів (параметрів) моделі

Після вибору форми функціональної залежності рівняння регресії переходять до визначення коефіцієнтів (параметрів) моделі, де інструментом аналізу "Регресія" застосовується для підбору параметрів рівняння регресії за допомогою методу найменших квадратів (МНК). Регресія використовується для аналізу дії на окрему залежну змінну значень однієї або декількох незалежних змінних. Наприклад, на спортивні якості атлета впливають декілька чинників, включаючи вік, зростання і вагу. Можна вичислити міру впливу кожного з цих трьох чинників за результатами виступу спортсмена, а потім використати отримані дані для пророцтва виступу іншого.

Тому розглянемо цей метод докладніше.

2.2.3.1 Метод найменших квадратів (МНК)

Сутність методу полягає у виборі таких значень параметрів моделі (її коефіцієнтів), при яких сума квадратів відхилення експериментальних значень залежної змінної yi(xji) від відповідних розрахункових значень yі(xji) буде мінімальна (j = l.m; i = l,N), де m - число незалежних факторів, що включені в модель (xj); N - число експериментальних значень кожного з цих факторів, що беруть участь у побудові регресивної моделі.

Іншими словами, метод найменших квадратів забезпечує вибір таких параметрів моделі, y(xj); (j = l,m;), при яких забезпечується мінімум наступного функціоналу:

(2.11)

В цьому випадку дисперсія (розсіювання) похибки моделі служить статистичною оцінкою точності отриманої моделі і визначиться величиною:

(2.12)

де - середнє значення результативного признаку Y

 

Особливістю регресивних моделей є те, що дослідник включає до розгляду лише найбільш значущі фактори. Фактори, що мають незначний вплив на величину функції відгуку (у) взагалі не розглядаються ( тобто їхнім впливом зневажають). Оцінка невідомих значень залежної змінної.

Рішення цієї задачі зводиться до рішення задачі одного з типів :

1. Оцінка значень залежної змінної усередині даного інтервалу початкових даних, тобто пропущених значень; при цьому вирішується задача інтерполяції.

2. Оцінка майбутніх значень залежної змінної, тобто знаходження значень поза заданим інтервалом початкових даних; при цьому вирішується задача екстраполяції.

3. Обидві задачі вирішуються шляхом підстановки в рівняння регресії знайдених оцінок параметрів значень незалежних змінних. Результат рішення рівняння є оцінкою значення цільовій(залежною)

Тому узагальну дисперсію коливань відгуку у відносно його середнього значення

(2.13)

розглядають як суму двох дисперсій:

- факторної дисперсії Dу , що викликана впливом факторів, включених до моделі. Ця дисперсія зазвичай визначається за допомогою формули:

(2.14)

що оцінює розсіювання розрахункових значень відносно ;

- залишкової дисперсії De, що оцінює розсіювання експериментальних даних відносно розрахункових даних моделі у і яка характеризує по суті, статистичну похибку моделі

(2.15)

З урахуванням сказаного можна записати:

(2.16)

Відношення

(2.17)

що характеризує долю дисперсії у, обумовлену впливом лише врахованих факторів, у загальній дисперсії називається коефіцієнтом детермінації (для нелінійних моделей - індексом детермінації).

Величина (2.19)

носить назву коефіцієнта кореляції (для нелінійних моделей - індексу кореляції). Ця величина характеризує щільність зв'язку між відгуком у і незалежними факторами, що включені до моделі. Практично приймається що якщо R0,7, то така модель достатньо повно відображає вплив цих факторів (оскільки R20,49, що свідчить про те, що більше 49% змінності у обумовлено саме включеними у модель змінними хj).

При R < 0,7 можна стверджувати, що модель є неповною і недостатньо характеризує вплив збурень xj (j=I..k), що мають місце, навідгук у. Це означає, що деякі важливі і значущі фактори не включені до моделі.

Визначення тісноти зв'язку в регресивному аналізі можливо також із застосуванням так званого критерію Фішера, який визначається за допомогою формули [16]:

 

(2.20)

де n - кількість даних, що використовується при одержанні рівняння регресії; m — кількість статистичних характеристик даних експерименту, що застосовуються при визначенні рівняння регресії.

Після розрахунку Fe воно порівнюється з критичним значенням , що наводиться в таблицях значень F- критерію в будь-якій літературі по статистиці (наприклад в [16]). Якщо , то вважається, що кореляційний зв'язок між змінними в рівнянні регресії є істотним..

 

Для оцінки адекватності рівняння регресії часто також використовують показник середньої помилки апроксимації

 

 

Можлива ситуація, коли частина вичислених коефіцієнтів регресії не має необхідної міри значущості, тобто значення цих коефіцієнтів будуть менше їх стандартної помилки. В цьому випадку такі коефіцієнти мають бути виключені з рівняння регресії. Тому перевірка адекватності побудованого рівняння регресії разом з перевіркою значущості коефіцієнта детермінації включає також і перевірку значущості кожного коефіцієнта регресії. Для оцінки адекватності рівняння регресії часто також використовують показник середньої помилки апроксимації

де - стандартне значення помилки для коефіцієнта регресії .

У математичній статистиці доказується, що якщо гіпотеза виконується, то величина t має розподіл Стьюдента з k= n-m-1 числом ступенів свободи, т.ч.

 
 

 

 


Гіпотеза про незначущість коефіцієнта регресії відкидається, якщо

знаючи значення можна знайти межі довірчих інтервалів для коефіцієнтів регресії

 

При економічній інтерпретації рівняння регресії також широко використовуються приватні коефіцієнти еластичності, що показують, на скільки відсотків в середньому зміниться значення результативної ознаки при зміні значення відповідної факторної ознаки на 1% і визначувані по формулі

де - середнє значення відповідної факторної ознаки;

- середнє значення результативної ознаки;

- коефіцієнт регресії при відповідній факторній ознаці.