Основні властивості кореляційних відношень
(при досить великому об’ємі вибірки n):
1. Кореляційне відношення – це невід’ємна величина, не більша за 1: .
2. Якщо , то кореляційний зв'язок відсутній.
3. Якщо , то між змінними існує функціональна залежність.
4. , тобто на відміну від коефіцієнта кореляції r ( для якого ) при обчисленні кореляційного відношення важливо, яку змінну вважати незалежною, а яку – залежною.
Емпіричне кореляційне відношення є показником розсіювання точок кореляційного поля відносно емпіричноїлінії регресії , що відображається ламаною, яка об’єднує значення . Проте, у зв’язку з тим , що закономірна зміна порушується випадковими зигзагами ламаної, що виникають як наслідок остаточної дії неврахованих факторів, перебільшує тісноту зв’язку. Тому, разом із , розглядається показник тісноти зв’язку , що характеризує розсіювання точок кореляційного поля відносно лінії регресії . Показник дістав назву теоретичного кореляційного відношення або індексу кореляції Y по X:
, де і - дисперсії, в яких групові середні
замінені умовними середніми , обчисленими за рівнянням регресії.
Аналогічно обчислюється індекс кореляції X по Y:
Перевагою показників і є те, що вони можуть бути обчислені при будь-якій формі зв’язку між змінними. Хоча і підвищує тісноту зв’язку у порівнянні з , та для його обчислення не потрібно знати рівняння регресії. Кореляційні відношення і зв’язані з коефіцієнтом кореляції r наступним чином: . Можна показати, що у випадку лінійної моделі , індекс кореляції дорівнює за абсолютною величиною коефіцієнту кореляції r.
Розбіжність між і (чи ) може бути використана для перевірки лінійності кореляційної залежності. Перевірка значущості кореляційного відношення грунтується на тому, що статистика
( де - кількість інтервалів групування) має - розподіл Фішера – Снедекора з степенями вільності. Тому значно відрізняється від нуля, якщо , де - табличне значення - критерію на рівні значущості при числі степенів вільності .
Індекс кореляції двох змінних є значущим, якщо значення стати-
стики більше табличного , де .
◄Приклад 6.6 За даними табл. 6.1 обчислити кореляційне відношення і індекс кореляції і перевірити їх значущість на рівні .
Розв’язання. Визначимо . В прикладі 6.2 обчислені: загальне середнє ; дисперсія ; групові середні в табл. 6.1. Частоти інтервалів також знаходяться в таблиці. Розрахунки представимо у вигляді таблиці 6.2.
. . Значення близьке до значення . Тому припущення про лінійний зв’язок є обгрунтованим.
Для обчислення за рівнянням регресії
знаходимо значення (див. табл. 6.2), і .
Таблиця 6.2
22,5 | 10,3 | 131,5 | 10,4 | 127,5 | |
27,5 | 13,3 | 170,4 | 13,8 | 126,5 | |
32,5 | 17,8 | 16,3 | 17,2 | 1,6 | |
37,5 | 20,3 | 125,7 | 20,6 | 149,0 | |
42,5 | 23,0 | 73,9 | 23,9 | 97,4 | |
517,8 | - | 502,0 |
Бачимо, що (розбіжності викликані правилами округлення при обчисленнях). Тому, у випадку лінійного зв’язку, достатньо обчислити лише . Величина коефіцієнта детермінації показує, що варіація залежної змінної Y на 55,1% пояснюється варіацією незалежної змінної Х .
Для перевірки значущості (кількість інтервалів групування
=5) знайдемо . Табличне значення . Оскільки , то значно відрізняється від нуля. Аналогічно перевіряємо значущість : .
Отже, індекс кореляції є значущим.►
Основні поняття про багатовимірний кореляційний аналіз подані у додатку 2.
Контрольні питання
1. Відмінність кореляційної залежності від статистичної (загальної).
2. Як будується емпірична лінія регресії?
3. Основна мета застосування коефіцієнта кореляції.
4. Властивості коефіцієнта кореляції.
5. Про які властивості вибірки свідчать кореляційне відношення та індекс кореляції?