Вираження параметрів парної лінійної регресії через числові характеристики показника і фактора

Парна лінійна регресія

Важливою характеристикою кореляційного зв’язку є лінія регресії — емпірична в моделі аналітичного групування і теоретична в моделі регресійного аналізу. Емпірична лінія регресії представлена груповими середніми результативної ознаки , кожна з яких належить до відповідного інтервалу значень групувального фактора хj. Теоретична лінія регресії описується певною функцією яку називають рівнянням регресії, а Y — теоретичним рівнем результативної ознаки.

На відміну від емпіричної, теоретична лінія регресії неперервна. Так, уважають, що маса дорослої людини в кілограмах має бути на 100 одиниць менша за її зріст у сантиметрах. Співвідношення між масою і зростом можна записати у вигляді рівняння: , де у — маса; х — зріст.

Безперечно, така форма зв’язку між масою та зростом людини надто спрощена. Насправді збільшення маси не жорстко пропорційне до збільшення зросту. Люди одного зросту мають різну масу, проте в середньому зі збільшенням зросту маса зростає. Для точнішого відображення зв’язку між цими ознаками в рівняння слід увести другий параметр, який був би коефіцієнтом пропорційності при х, тобто Y = – 100 + bx.

Рівняння регресії в такому вигляді описує числове співвідношення варіації ознак х і у в середньому. Коефіцієнт пропорційності при цьому відіграє визначальну роль. Він показує, на скільки одиниць у середньому змінюється у зі зміною х на одиницю. У разі прямого зв’язку b — величина додатна, у разі оберненого — від’ємна.

Подаючи у як функцію х, тим самим абстрагуються від множинності причин, штучно спрощуючи механізм формування варіації у. Аналіз причинних комплексів здійснюється за допомогою множинної регресії.

Різні явища по-різному реагують на зміну факторів. Для того щоб відобразити характерні особливості зв’язку конкретних явищ, статистика використовує різні за функціональним видом регресійні рівняння. Якщо зі зміною фактора х результат у змінюється більш-менш рівномірно, такий зв’язок описується лінійною функцією:

Y = ax + b.

Параметр a (коефіцієнт регресії) — величина іменована, має розмірність результативної ознаки і розглядається як ефект впливу x на y. Параметр b — вільний член рівняння регресії, це значення y при x = 0. Якщо межі варіації x не містять нуля, то цей параметр має лише розрахункове значення.

Параметри рівняння регресії визначаються методом найменших квадратів, основна умова якого — мінімізація суми квадратів відхилень емпіричних значень y від теоретичних Y.

Метод найменших квадратів

Розглянемо суть методу найменших квадратів.

Нехай емпірична формула має вигляд

, (1)

де , , …, невідомі коефіцієнти. Треба знайти такі значення коефіцієнтів , за яких крива (1) якомога ближче проходитиме до всіх точок , , …, , знайдених експериментально. Зрозуміло, що жодна з експериментальних точок не задовольняє точно рівняння (1). Відхилення від підстановки координат у рівняння (1) дорівнюватимуть величинам .

За методом найменших квадратів найкращі значення коефіцієнтів ті, для яких сума квадратів відхилень

(2)

дослідних даних від обчислених за емпіричною формулою (1) найменша. Звідси випливає, що величина (2), яка є функцією від коефіцієнтів , повинна мати мінімум. Необхідна умов мінімуму функції багатьох змінних її частинні похідні мають дорівнювати нулю, тобто

, , …, .

Диференціюючи вираз (2) по невідомих параметрах , матимемо відносно них систему рівнянь:

(3)

Система (3) називається нормальною. Якщо вона має розв’язок, та він єдиний, і буде шуканим.

Якщо емпірична функція (1) лінійна відносно параметрів , то нормальна система (3) буде системою з лінійних рівнянь відносно шуканих параметрів.

Будуючи емпіричні формули, припускатимемо, що експериментальні дані додатні.

Якщо серед значень і є від’ємні, то завжди можна знайти такі додатні числа і , що і .

Тому розв’язування поставленої задачі завжди можна звести до побудови емпіричної формули для додатних значень .

Вираження параметрів парної лінійної регресії через числові характеристики показника і фактора

Нехай між даними існує лінійна залежність. Шукатимемо емпіричну формулу у вигляді

, (4)

де коефіцієнти і невідомі.

Знайдемо значення і , за яких функція матиме мінімальне значення. Щоб знайти ці значення, прирівняємо до нуля частинні похідні функції

Звідси, врахувавши, що , маємо

(5)

Розв’язавши відносно і останню систему, знайдемо

, (6)

. (7)

Або в більш зручному вигляді:

, (8)

.

Рівняння регресії відбиває закон зв’язку між х і у не для окремих елементів сукупності, а для сукупності в цілому; закон, який абстрагує вплив інших факторів, виходить з принципу «за інших однакових умов».

Важливою характеристикою регресійної моделі є відносний ефект впливу фактора х на результат у — коефіцієнт еластичності:

. (9)

Він показує, на скільки процентів у середньому змінюється результат у зі зміною фактора х на 1%.

 

Коефіцієнт кореляції

Поряд із визначенням характеру зв’язку та ефектів впливу факторів х на результат у важливе значення має оцінка щільності зв’язку, тобто оцінка узгодженості варіації взаємозв’язаних ознак. Якщо вплив факторної ознаки х на результативну у значний, це виявиться в закономірній зміні значень у зі зміною значень х, тобто фактор х своїм впливом формує варіацію у . За відсутності зв’язку варіація у не залежить від варіації х.

Серед мір щільності зв’язку найпоширенішим є коефіцієнт кореляції Пірсона. Позначається цей коефіцієнт символом r. Оскільки сфера його використання обмежується лінійною залежністю, то і в назві фігурує слово «лінійний». Обчислення лінійного коефіцієнта кореляції r ґрунтується
на відхиленнях значень взаємозв’язаних ознак x і у від середніх.

За наявності прямого кореляційного зв’язку будь-якому значенню хі > відповідає значення , а відповідає . Узгодженість варіації х і у схематично показано на рис. 1 у вигляді кореляційного поля зі зміщеною системою координат.

Рис. 1. Узгодженість варіації взаємозв’язаних ознак

 

Точка, координатами якої є середні і , поділяє кореляційне поле на чотири квадранти, в яких по-різному поєднуються знаки відхилень від середніх:

 

Квадрант (х – ) (у – )
I + +
II +
III
IV +

 

Для точок, розміщених у І та ІІІ квадрантах, добуток додатний, а для точок з квадрантів ІІ і ІV — від’ємний. Чим щільніший зв’язок між ознаками х і у, тим більша алгебраїчна сума добутків відхилень . Гранична сума цих добутків дорівнює .

Коефіцієнт кореляції визначається відношенням зазначених сум:

. (10)

Очевидно, що в разі функціонального зв’язку фактична сума відхилень дорівнює граничній, а коефіцієнт кореляції r = ±1; при кореляційному зв’язку абсолютне його значення буде тим більшим, чим щільніший зв’язок.

Коефіцієнт кореляції, оцінюючи щільність зв’язку, указує також на його напрям: коли зв’язок прямий, r — величина додатна, а коли він зворотний — від’ємна.