Кореляційний і регресійний аналіз

Одним із важливих завдань аналізу є встановлення та оцінювання взаємозв'язків між окремими ознаками для певної сукупності об'єктів. Цю роботу починають з побудови кореляційних таблиць (таблиць спряженості двох ознак, двовимірних таблиць). Вони дають змогу впорядковувати інформацію про розподіл сукупності об'єктів за двома ознаками. Такі таблиці мають прямо­кутну форму. Кількість рядків у них дорівнює кілько­сті можливих значень однієї ознаки, а кількість стовп­чиків — кількості можливих значень другої ознаки. У таблиці 4.5 у клітинці на перетині другого рядка і тре­тього стовпчика знаходиться число 42 (в центрі клі­тинки) — кількість робітниць (значення ознаки «Стать» — «жіноча»), що не задоволені умовами праці (значення ознаки «Задоволеність умовами праці» — « незадоволений »).

 

Таблиця 4.5. Двовимірна таблиця (ознаки «Стать» і «Задоволеність умовами праці»)

  Задоволений Не зовсім задоволений Незадово­лений Всього
Чоловіки 18,40% 86,67% 75,94% 64,66% 5,66% 22,22% 100% 60,92%
Жінки 4,41% 13,33% 64,71% 35,34% 30,88% 77,78% 100% 39,08%
Всього 12,93% 71,55% 15,52% 100%

 

Крім того, двовимірна таблиця, як правило, містить ще один додатковий стовпчик і ще один додатковий ря­док — так звані маргінальні стовпчик і рядок. У таблиці маргінали позначені словом «Всього». Кожна клітинка маргінального стовпчика містить суму чисел відповідно­го рядка, тобто кількість об'єктів, що мають відповідне значення першої ознаки (незалежно від того, якого зна­чення для цих об'єктів набуває друга ознака), а також відсоток, який становить це число щодо загальної кіль­кості об'єктів. Так, з маргінального стовпчика таблиці бачимо, що на підприємстві працює 136 жінок (39,08% загальної кількості працівників). Маргінальний рядок містить відповідні суми стовпчиків таблиці.

У кожній клітинці таблиці, як правило, записують відсоток стосовно відповідного значення в маргінально­му стовпчику (цей відсоток записують вище від самого числа) та відсоток стосовно відповідного значення в ма­ргінальному рядку (записують нижче від числа). Якщо знову повернутися до клітинки в другому рядку третьо­го стовпчика таблиці, побачимо, що кількість незадоволених умовами праці жінок (таких на підприємстві 42) становить 30,88% від загальної кількості жінок (всього на підприємстві — 136 жінок) та 77,78% від загальної кількості незадоволених умовами праці (всього умова­ми праці на підприємстві не задоволені 54 працівники).

Числа в таблиці свідчать, що серед жінок відсоток незадоволених умовами праці на підприємстві значно вищий, ніж серед чоловіків. Отже, є підстави для гіпо­тези, що стать працівника та його задоволеність умова­ми праці взаємопов'язані.

Вміння читати двовимірні таблиці приходить з дос­відом. Нелегко знаходити закономірності в досить вели­ких за розміром таблицях. Крім того, зв'язок між озна­ками простежується далеко не завжди. Тому на практи­ці наявність зв'язку між двома ознаками встановлюють за допомогою так званого критерію %2, який ґрунтуєть­ся на аналізі частот, записаних у клітинках таблиці. Це дає змогу дійти висновків про те, чи можна висувати та аналізувати гіпотезу про наявність зв'язку між двома ознаками.

Застосовуючи зазначений критерій, необхідно обчи­слити коефіцієнт х-квадрат за формулою (формула за­лежить від частот у клітинках таблиці та маргінальних частот), а одержане значення порівняти з табличним (критичним). При цьому слід мати на увазі певний рі­вень значущості (ймовірність прийняття хибного рі­шення) — в соціології, як правило, 0,05 або 0,01. Крім того, табличне значення залежить від кількості ступе­нів свободи, що визначають-за кількістю рядків і стовп­чиків таблиці. Отже, для заданого рівня значущості та кількості ступенів свободи необхідно знайти в таблиці критичне значення і порівняти його з обчисленим. Як­що обчислене значення більше від критичного, то факт існування зв'язку можна вважати встановленим.

Силу зв'язку можна оцінити обчисленням та аналі­зом коефіцієнтів спряженості (Пірсона, Чупрова, Крамера). Значення цих коефіцієнтів перебувають в інтер­валі від нуля до одиниці та мають такий зміст: чим бли­жче значення до одиниці, тим тісніший зв'язок. Якщо обидві ознаки, між якими вивчають зв'язок, мають ли­ше по два значення (тобто фіксують наявність або відсут­ність певної ознаки в об'єкті), то для таких «чотириклітинкових» таблиць обчислюють коефіцієнти асоціації та контингенції.

Якщо певному значенню однієї величини відповідає сукупність значень другої, то між цими двома величи­нами існує кореляційний зв'язок. Він виявляється тоді, коли на досліджуване явище впливає не один, а багато чинників. Наприклад, стаж впливає на продуктивність праці, але не остаточно визначає її, бо залежить від рів­ня освіти, віку, кваліфікації працівника та інших фак­торів. Оскільки явища суспільного життя складні та багатофакторні, зв'язок між ознаками в соціології прак­тично завжди кореляційний.

Якщо кожному значенню однієї ознаки відповідає сукупність значень другої ознаки, близько розміщених біля свого середнього значення (тобто всі значення су­купності не дуже відрізняються від свого середнього арифметичного), то такий кореляційний зв'язок вважа­ють сильнішим. Кількісно силу кореляційного зв'язку оцінюють за допомогою коефіцієнтів кореляції.

Для кількісних ознак часто використовують коефіцієнт Пірсона (r), який оцінює силу зв'язку за лінійної кореляції (за припущення, що значення однієї ознаки пов'язані з відповідними значеннями другої ознаки лінійною залежністю). Всі значення коефіцієнта кореляції Пірсона належать інтервалу від -1 до 1. Знак коефіцієнта показує напрям зв'язку: додатне значення свідчить про «прямий» зв'язок (зростання однієї ознаки зумовлює зростання другої), від'ємне значення — про «зворотний» зв'язок, а значення «0» — про відсутність лінійного кореляційного зв'язку. Наприклад, зв'язок між заробітною платою робітника та кількістю виготов­лених ним деталей — прямий, а між заробітною платою та кількістю бракованих деталей — зворотний. При r —1 або r = -1 маємо функціональний зв'язок між ознаками (тобто кожному значенню однієї ознаки відповідає одне значення другої ознаки, і ці значення пов'язані ліній­ною залежністю). Отже, чим далі значення коефіцієнта Пірсона від нуля (чим більша його абсолютна величи­на), тим тісніший лінійний кореляційний зв'язок існує між ознаками. Однак якщо r = 0, то це означає відсут­ність лише лінійного зв'язку, а не відсутність зв'язку між ознаками взагалі: зв'язок може існувати, але нелі­нійний. Для оцінювання сили нелінійного зв'язку вико­ристовують кореляційне відношення, що набуває зна­чення між 0 та 1 (0 означає відсутність зв'язку, 1 — функціональний зв'язок).

Для ознак, заданих у порядкових шкалах, обчислю­ють рангові коефіцієнти кореляції (Спірмена та Кендела), які також набувають значення між —1 та 1 та інтер­претуються так само, як і коефіцієнт кореляції Пірсона.

Встановлення кореляції між двома ознаками ще не означає встановлення причинного зв'язку між ними. Це лише свідчення того, що одна з ознак частково спри­чинила іншу або обидві ознаки і є наслідком деяких спільних для них причин. Зауважимо, що кількісна оцінка кореляційних зв'язків не може замінити спеці­альних знань, але може допомогти дослідникові відкину­ти несуттєві зв'язки, чіткіше окреслити напрям пошу­ків, порівняти вплив різних чинників тощо. Крім того, коефіцієнти часткової кореляції дають змогу оцінити зв'язок між двома ознаками, усуваючи вплив однієї або кількох інших ознак. Якщо після усунення впливу тре­тьої ознаки коефіцієнт кореляції між двома ознаками збільшується, то третя ознака послаблює зв'язок, а як­що зменшується, то саме ця третя ознака певною мірою спричинює наявність цього зв'язку (тобто зв'язок, мож­ливо, є лише наслідком впливу цієї третьої ознаки). Об­числити коефіцієнти часткової кореляції досить склад­но через коефіцієнти кореляції Пірсона. Обсяг обчис­лень зростає з кількістю тих ознак, вплив яких бажають усунути. Силу спільного зв'язку сукупності ознак дає змогу оцінити коефіцієнт множинної кореляції.

Методи регресійного аналізу забезпечують не тільки оцінювання сили зв'язку між двома ознаками, а й вста­новлення виду цього зв'язку у вигляді рівняння (рів­няння регресії), що описує залежність між середнім значенням однієї ознаки (залежної, поведінку якої вив­чають) та значеннями певної сукупності ознак (незале­жних, вплив яких на залежну ознаку намагаються оці­нити). У соціологічних дослідженнях, як правило, від­бувається пошук такої залежності у лінійному вигляді (у вигляді лінійного рівняння), тому йдеться про рів­няння багатовимірної (множинної) лінійної регресії.

Знання залежності у вигляді рівняння дає змогу не тільки пояснювати поведінку залежної ознаки, а й прогнозувати її значення за різних змін значень неза­лежних ознак. Наприклад, на основі аналізу факторів, що впливають на рівень заробітної плати на підприєм­стві, було побудовано рівняння лінійної регресії: у = 4,27 х1 1,83 х2-9,20. Воно описує зв'язок між заробіт­ною платою у (залежна ознака, вимірюється в гривнях) і двома незалежними ознаками працівника: стаж х1 (ви­мірюється в роках) та освітній рівень х2 (вимірюється в роках). Аналіз цього рівняння наводить на думку, що зростання трудового стажу працівника на один рік зу­мовлює зростання його середньої заробітної плати на 4,27 грн., а зростання освітнього рівня на один рік — зростання середньої заробітної плати лише на 1,83 грн. Отже, на даному підприємстві трудовий стаж суттєвіше впливає на середню заробітну плату працівника, ніж його освітній рівень. Якість рівняння регресії (наскіль­ки точно рівняння регресії описує зв'язок між ознака­ми) оцінюють коефіцієнтом множинної кореляції.

Суттєвим для одержання надійних, статистично об­ґрунтованих результатів є оцінювання значущості ста­тистичних показників — комплекс математичних процедур, що дають змогу відповісти на низку питань щодо розрахованих статистичних показників і парамет­рів вибіркової сукупності. Так, після обчислення коефі­цієнта кореляції між двома ознаками та отримання чис­ла, що не дорівнює нулю, цілком логічно постають запи­тання: чи справді цей коефіцієнт суттєво відрізняється від нуля (а отже, фіксує наявність лінійного кореляційного зв'язку), чи ця різниця випадкова і спричинена лише похибкою нашої вибірки? Відповідь на них можна дати, оці­нивши значущість відмінності коефіцієнта кореляції від нуля і звернувши особливу увагу на обсяг вибірки та рі­вень значущості (ймовірність прийняття хибного рішен­ня). Ця процедура така ж, як і процедура застосування критерію х2, і дає змогу за певною формулою обчислити критерій. Одержане ж значення порівнюють із таблич­ним. На основі результатів порівняння роблять висновок. Крім оцінювання значущості відмінності від нуля коефіцієнта кореляції між двома ознаками, часто засто­совують і процедури оцінювання значущості різниці між двома відсотками (наприклад, різниці між відсот­ками незадоволених умовами праці на певному підпри­ємстві серед жінок і чоловіків), різниці між двома серед­німи (між середньою заробітною платою на одному та іншому підприємствах), двох коефіцієнтів кореляції. Для кожної такої задачі існують формула обчислення критерію та статистичні таблиці, якими користуються для порівняння.