ANCOVA - Модель при наявності у фіктивної змінної двох альтернатив
Спочатку розглянемо найпростішу ANCOVA-модель із однією кількісною й однією якісною змінною, що має два альтернативні стани: Y = βо + γ D + β1X +u . (2)
Нехай, наприклад, Y - заробітна плата співробітника фірми, X -стаж співробітника, D - стать співробітника, тобто
0, якщо співробітник - жінка,
D = 1, якщо співробітник - чоловік.
Тоді очікуване значення заробітної плати співробітників для х років виробничого стажу буде:
M(Y | х, D = 0) = βо + β1 х для жінки, (3)
M(Y | х, D = 1) = βо + β1 х + γ = (βо + γ) + β1 х для чоловіка. (4)
Причому, як для чоловіків, так і для жінок заробітна плата змінюється із тим самим коефіцієнтом пропорційності β1. А вільні члени в моделях (3), (4) відрізняються на величину γ. Перевіривши за допомогою t-статистики статистичні значимості коефіцієнтів βо й (βо + γ), можна визначити, чи має місце у фірмі дискримінація за гендерною ознакою. Якщо ці коефіцієнти виявляться статистично значущими, то, можливо, дискримінація існує. Більше того, при γ > 0 вона буде на користь чоловіків, при γ < 0 - на користь жінок.
Значення якісної змінної, для якої приймається D = 0, називається базовим або порівняльним. Вибір базового значення звичайно диктується цілями дослідження, але може бути й довільним.
Коефіцієнт γу моделі (2) іноді називається диференціальним коефіцієнтом вільного члена, бо він показує, на яку величину відрізняється вільний член моделі при значенні фіктивної змінної, яке = 1 , від вільного члена моделі при базовому значенні фіктивної змінної.
У цьому випадку стать співробітників має два альтернативні значення, а в моделі це відображається однією фіктивною змінною. Виникає питання, чи не можна за допомогою більшої кількості фіктивних змінних описувати більш складні комбінації? Наприклад, нехай Y = βо + β1X + γ1 D1 + γ2 D2+ u, (5)
0, якщо співробітник - жінка, 1, якщо співробітник - жінка,
D1 = 1, якщо співробітник - чоловік. D2 = 0, якщо співробітник - чоловік.
Але в цій ситуації між змінними D1 і D2 існує строга лінійна залежність: D2 = 1 – D1, тобто має місце мультиколінеарність, за якої коефіцієнти рівняння регресії однозначно визначені бути не можуть. Найпростішим способом подолання даної проблеми є відкидання однієї з фіктивних змінних і використання для розглянутого завдання моделі (2).
Значення фіктивної змінної можна змінювати на протилежні. Суть моделі від цього не зміниться. Наприклад, у моделі (2) можна покласти, що:
0, якщо співробітник - чоловік,
D = 1, якщо співробітник - жінка.
Однак при цьому знак коефіцієнта в зміниться на протилежний.
Існує загальне правило: якщо якісна змінна має k альтернативних значень, то при моделюванні використовуються тільки ( k - 1) фіктивні змінні. Якщо не дотримуватися даного правила, то при моделюванні можна потрапити до ситуації мультиколінеарності або так звану пастку фіктивної змінної.