Основи регресійного аналізу

 

Регресійний аналіз призначений для вибору форми зв’язку, типу моделі, для визначення розрахункових значень залежності змінної (результативної ознаки).

Методи регресійного та кореляційного аналізів застосовуються у комплексі один з одним.

Рівняння регресії показує як в середньому змінюється у при зміні будь-якого хі та має вигляд:

y = f(x1,..,xn),

де: у – залежна змінна;

хі – незалежні змінні (фактори).

Якщо незалежна змінна одна, то це простий регресійний аналіз, якщо незалежних змінних декілька (n ≥ 2) то такий аналіз називається багатофакторним.

При проведенні регресійного аналізу вирішується дві основні задачі:

1. Побудова рівняння регресії, тобто знаходження виду залежності, між результативним показником і незалежними факторами х1, х2,..,хn.

2. Оцінювання значущості отриманого рівняння, тобто визначення того факту, наскільки обрані результативні показники пояснюють варіацію показника у.

Залежності, що розглядаються, можуть бути не тільки прямими, а й оберненими та нелінійними.

Так, рівняння ух=а+bх є рівнянням лінійної регресії, ступеневій регресії відповідає рівняння ух=ахb, а показниковій – ух=abх.

У багатофакторному аналізі часто використовуються лінійні моделі виду:

yx=a+b1x1+b2x2+…+bnxn.

Головною властивістю рівняння регресії є те, що вона (регресія) мінімізує суму квадратів (дисперсів) відхилень точок на лінії від експериментальних даних.

Побудова рівняння регресії здійснюється, як правило, метода найменших квадратів, тобто

 

де m – число спостережень.

У лінійній моделі a та b є параметрами регресії, які необхідно визначити. Параметр b відображає середню зміну результативного показника при зміні фактора х, коефіцієнта а виступає як постійна величина результативного показника й не залежить від зміни фактора.

На підставі головної властивості рівняння регресії (4.1.21) і з урахуванням того, що у= а+bх, можливо побудувати функцію двох змінних поки що невідомих параметрів рівняння регресії а та b:

Мінімум функції , знайдений з умов, що її часткові похідні дорівнюють нулю, дає таку систему рівнянь

(4.1.22)

 

Розглянемо приклад щодо розрахунку параметрів регресії, використовуючи дані табл. 4.1.3.

Підставимо конкретні похідні величини з таблиці в систему рівнянь:

Розв’язок цієї системи: b = 684,63; а = 5901,39

Отримане рівняння регресії має вигляд:

ух = 5901,39 + 684,63х.

Для математичного відображення криволінійної залежності використовується рівняння гіперболи:

Параметри a i b визначаються за допомогою такої системи рівнянь:

 

Якщо при збільшенні одного показника значення іншого зростають до певного рівня, а потім починають зменшуватися, то для запису такої залежності найкраще підходить парабола другого порядку:

ух = а + bx + cx2.

Відповідно до вимог методу найменших квадратів для визначення параметрів a, b, i c необхідно розв’язати систему рівнянь:

 

 

Якість кореляційно-регресійного аналізу забезпечується виконанням ряду умов, серед яких важливішим є однорідність інформації, що досліджується, значущість коефіцієнта кореляції, надійність рівняння зв’язку (регресії).

Однорідність інформації оцінюється у залежності від відносного розподілу біля середнього рівня. Критеріями служать середньоквадратичне відхилення і коефіцієнт варіації, що обумовлені по кожному факторному і результативному показнику.

Середньоквадратичне відхилення (σ) характеризує абсолютне відхилення індивідуальних значень від середньої арифметичної:

Відносна міра відхилень від середньої арифметичної, чи коефіцієнт варіації (V) визначається за формулою:

 

Незначною визначається варіація, що не перевищує 10%.

Нетипові спостереження треба виключати з розрахунків, якщо V > 33%.

Значущість коефіцієнта кореляції може бути оцінена за допомогою t – критерія Стьюдента:

Якщо отримане емпіричне значення критерія (te) буде більше критичного табличного значення (te > tтабл), то коефіцієнт кореляції можна визначити значущим.

Значущість коефіцієнтів лінійної регресії (а і b) також може бути встановлено за допомогою t – критерію Стьюдента. Крім того, адекватність однофакторної регресійної моделі можна оцінити за допомогою F – критерію Фішера:

де m - число параметрів у рівнянні регресії,

n - обсяг вибірки, кількість спостережень;

– дисперсія по лінії регресії;

- залишкова дисперсія.

Якщо емпіричне розрахункове значення F – критерію виявиться вище табличного (Fe > Fm), то рівняння регресії треба визначити адекватним.

Розглянемо приклад

 

Приклади розв’язування задач

 

1. Поле кореляції Y та Х (млн. грн.) приведено в таблиці.

Необхідно:

а) знайти групові середні та побудувати лінії регресії;

б) оцінити щільність та напрямок зв’язку між змінними, за допомогою коефіцієнта кореляції; перевірити значущість коефіцієнта кореляції та побудувати для нього 95%-ий довірчий інтервал;

в) обчислити емпіричні кореляційні відношення та оцінити їх значущість на 5%-ому рівні;

г) на рівні значущості 0,05 перевірити гіпотезу про лінійну кореляційну залежність між змінними Y та X.

 

    х Разом
0-4,5 4,5-9 9-13,5 13,5-18 18-22,5
Y 0-1,4      
1,4-2,8      
2,8-4,2    
4,2-5,6    
5,6-7    
7-8,4      
Разом

 

Для більшої наочності перепишемо таблицю у такому вигляді:(В таблиці через хj і уi позначені середини відповідних інтервалів, а ni i nj відповідні їх частоти).

 

    х  
  0-4,5 4,5-9 9-13,5 13,5-18 18-22,5 n1
    yi yj 2,25 6,75 11,25 15,75 20,25
Y 0-1,4 0,7      
1,4-2,8 2,1      
2,8-4,2 3,5    
4,2-5,6 4,9    
5,6-7 6,3    
7-8,4 7,7      
nj
                   

 

a) групові середні

для кожного хi

 

 

 

 

для кожного yj

 

 

 

 

 

 

 

Побудуємо лінії регресії: та , де вибірковий коефіцієнт регресії

 

Знайдемо відповідні середні:

 

 

 

 

Якщо

 

б) оцінити щільність та напрямок зв’язку між змінними, за допомогою коефіцієнта кореляції; перевірити значущість коефіцієнта кореляції та побудувати для нього 95%-ий довірчий інтервал.

 

 

 

 

 

проте bxу > 0 i byх > 0, тому

 

З результату знаходження вибіркового коефіцієнту кореляції зробимо висновок, що зв’язок між змінними прямий та має велику щільність.

 

 

t0,95;58 = 2;

 

Так як t > t 0,95;58, то коефіцієнт кореляції значимо відрізняється від нуля.

 

 

 

Ф(t1-a)=0,95;

t0,05 =1,96

 

це і є 95% довірчий інтервал (0,776;0,914).

 

в) обчислити емпіричні кореляційні відношення та оцінити їх значущість на 5%-ому рівні;

 

та

Знайдемо міжгрупову дисперсію:

 

 

 

m = 6, n = 60,

 

F0,05;5;54 = 2,4, звідси F > F0,05;5;54, тобто ηух значимо відрізняється від нуля.

 

г) на рівні значущості 0,05 перевірити гіпотезу про лінійну кореляційну залежність між змінними Y та X.

Fα;1;n-1 = F0,05;1;58 = 4,01;

Так як F>F0,05;1;58, то r = R значно відрізняється від нуля, що позначає лінійну залежність між змінними X i Y.

 

Контрольні запитання та завдання

 

1. Призначення регресійного аналізу, його завдання.

2. Однофакторний і багатофакторний регресійний аналіз.

3. Запишить рівняння регресії для:

а) лінійної залежності, б) криволінійної залежності; в) для залежності ух = а+ bx + cx2.

4. Знайти групові середні та побудувати лінії регресії для завдань п.5 контрольних запитань та завдань попереднього підрозділу.