Дослідження тісноти взаємозв’язку

Дослідимо тісноту взаємозв’язку y від x на основі зібраних статистичних даних. Цю залежність можна характеризувати співвідношенням поясненого до загального відхилення. Загальне відхилення між фактичними та теоретичними значеннями можна представити

. (8.7)

Можна аналітично вивести таку залежність:

(8.8)

цю тотожність можна переписати таким чином

. (8.9)

Очевидно, що величина першого доданку правої частини вказує на пояснену частку відхилення, а другий – непояснену. Для оцінки тісноти взаємозв’язку використовують такі показники:

. (8.10)
. (8.11)

З наведених вище формул видно, що величина цих коефіцієнтів лежить в межах [0,1]. Адже R2 характеризує частку поясненого відхилення. Тому чим більша ця частка, тим краще дана економіко-математична модель пояснює сутність досліджуваного взаємозв'язку. За значенням R можна зробити висновки:

o R2 < 0,4 - даний взаємозв'язок не є коректним і йому довіряти не можна;

o R2 = 0,4 - 0,6 - довіряти теж не варто, а висновок про наявність взаємозв'язку слід робити після більш детальних досліджень;

o R2 > 0,6 - можна припустити, що взаємозв'язок існує;

o R2 > 0,9 - зв'язок існує і є близький до функціонального;

R у випадку лінійної регресії може бути як додатнім, так і від'ємним. Обернений зв'язок буде, коли R від'ємний, пряма залежність спостерігається при R додатному. При R = 1 - між ознаками існує прямий функціональний зв'язок; а при R = -1 - обернений.

Для лінійної регресії a - точка перетину осі 0y; b - кут нахилу лінії регресії.

На практиці для обчислення коефіцієнта кореляції лінійної регресії зручно використовувати такі формули:

. (8.12)

Наприклад, розглянемо залежність ваги людини від її росту. Дані наведені в таблиці

Таблиця 8.

Приклад проведення регресійного аналізу

№ з/п xi (ріст, см) yi (вага, кг) xi2 xiyi yi2 № з/п xi (ріст, см) yi (вага, кг) xi2 xiyi yi2
1 187 80 34969 14960 6400 12 182 69 33124 12558 4761
2 185 77 34225 14245 5929 13 170 60 28900 10200 3600
3 180 73 32400 13140 5329 14 178 65 31684 11570 4225
4 188 81 35344 15228 6561 15 182 72 33124 13104 5184
5 179 67 32041 11993 4489 16 194 87 37636 16878 7569
6 174 70 30276 12180 4900 17 181 70 32761 12670 4900
7 176 60 30976 10560 3600 18 178 70 31684 12460 4900
8 186 72 34596 13392 5184 19 172 60 29584 10320 3600
9 178 65 31684 11570 4225 20 184 68 33856 12512 4624
10 178 73 31684 12994 5329 21 168 58 28224 9744 3364
11 170 62 28900 10540 3844 å

Невідомий розподіл шукаємо у вигляді . Для знаходження невідомих параметрів a i b потрібно розв’язати таку систему рівнянь

Звідси а=-115,43; b= 1,0294 або y=1.0294x-115,43. Графічне зображення наведено на рис. 8.1.

Рис. 6. Лінія регресії

У невеликих за обсягом сукупностях коефіцієнт регресії b схильний до випадкових коливань, тому його істотність слід перевіряти. У випадку, коли передбачуваний зв'язок лінійний, істотність коефіцієнта регресії перевіряють за допомогою t-критерія Стьюдента. Для гіпотези H0: b=0 визначається відношення коефіцієнта b до власної стандартної похибки mв

. (8.13)

Тоді довірчий інтервал для коефіцієнта b визначається як .

В певних випадках досліджують значущість коефіцієнта кореляції і теж використовується t-критерій Стьюдента, але розраховуємо величину

. (8.14)

Теоретичне значення функції розподілу Стьюдента для заданої ймовірності і n-2 ступенів вільності знаходять у таблиці. Якщо tрозр < tтабл, тоді гіпотеза про нульове значення коефіцієнта кореляції в генеральній сукупності підтверджується.

Перевірку значущості кореляційного відхилення виконують аналогічно перевірці значущості коефіцієнта кореляції.

При нелінійній кореляції часто застосовують допоміжну оцінку точності наближення, середню відносну похибку апроксимації.

. (8.15)

У випадку дослідження взаємозв'язку між двома змінними такий аналіз носить назву однофакторного або парної регресії. В економіці дуже часто використовуються нелінійні, наприклад, степеневі функції , які відображають функції споживання, виробничі функції. Степенева функція зводиться шляхом логарифмувань до лінійного виду

. (8.16)

В реальності часто досліджується взаємозв'язок між багатьма факторами, тобто в такому випадку проводиться множинний аналіз і будується багатофакторне рівняння регресії, яке для лінійного випадку має такий вигляд

. (8.17)

Для знаходження невідомих коефіцієнтів b0, b1, … bm використовують метод найменших квадратів.

. (8.18)

Прирівнявши частинні похідні по bi до 0 отримуємо систему нормальних рівнянь, з якої знайдемо невідомі коефіцієнти bі.

. (8.19)

Коефіцієнт детермінації у випадку багатофакторної регресії за змістом і способом розрахунку ідентичний коефіцієнтам детермінації парної (однофакторної) регресії.

. (8.20)

Коефіцієнт еластичності

Важливою характеристикою регресійної моделі є відносний ефект впливу фактора х на результат - коефіцієнт еластичності, який показує на скільки відсотків у середньому змінюється результат y зі зміною фактора х на 1%.

. (8.21)

у випадку лінійної регресії коефіцієнт еластичності буде рівним:

. (8.22)

Рангова кореляція

Взаємозв'язок між ознаками, які можна проранжувати, передусім на основі простих оцінок, вимірюється методами рангової кореляції.

Рангами називають числа натурального ряду, які згідно з означенням ознаки надаються елементам сукупності і певним чином упорядковують їх порядок. Ранжування проводиться за кожною ознакою окремо. Перший ранг надається найменшому значенню ознаки, останній - найбільшому (можливо й навпаки). Кількість рангів рівна обсягу варіантів сукупностей. Рангова кореляція не потребує додаткових математичних обмежень (наприклад, дотримання нормального розподілу). Ранги, надані елементам сукупності за ознакою х, позначають відповідно Rxi, ранги елементів y - відповідно Ryi.

Таблиця 9

Рангові показники Фехнера і Спірмена.

Коефіцієнт Спірмена , де di = Rxi -Ryi; n - обсяг сукупності; di – різниця рангів. (8.23)
Коефіцієнт Фехнера   де С - число співпадінь знаку між відхиленнями поточного значення від середнього; Н - число незбіжностей ; (8.24)

Коефіцієнти Спірмена та Фехнера лежать в межах від -1 до +1. При j = -1 - спостерігається повна зворотна кореляція рангів, при j = 0 - кореляція відсутня, при j = 1 - повна пряма кореляція рангів.