ANCOVA - Модель при наявності у фіктивної змінної двох альтернатив

Спочатку розглянемо найпростішу ANCOVA-модель із однією кількісною й однією якісною змінною, що має два альтернативні стани: Y = βо + γ D + β1X +u . (2)

Нехай, наприклад, Y - заробітна плата співробітника фірми, X -стаж співробітника, D - стать співробітника, тобто

0, якщо співробітник - жінка,

D = 1, якщо співробітник - чоловік.

Тоді очікуване значення заробітної плати співробітників для х років виробничого стажу буде:

M(Y | х, D = 0) = βо + β1 х для жінки, (3)

M(Y | х, D = 1) = βо + β1 х + γ = (βо + γ) + β1 х для чоловіка. (4)

 

Причому, як для чоловіків, так і для жінок заробітна плата змінюється із тим самим коефіцієнтом пропорційності β1. А вільні члени в моделях (3), (4) відрізняються на величину γ. Перевіривши за допомогою t-статистики статистичні значимості коефіцієнтів βо й о + γ), можна визначити, чи має місце у фірмі дискримінація за гендерною ознакою. Якщо ці коефіцієнти виявляться статистично значущими, то, можливо, дискримінація існує. Більше того, при γ > 0 вона буде на користь чоловіків, при γ < 0 - на користь жінок.

Значення якісної змінної, для якої приймається D = 0, називається базовим або порівняльним. Вибір базового значення звичайно диктується цілями дослідження, але може бути й довільним.

Коефіцієнт γу моделі (2) іноді називається диференціальним коефіцієнтом вільного члена, бо він показує, на яку величину відрізняється вільний член моделі при значенні фіктивної змінної, яке = 1 , від вільного члена моделі при базовому значенні фіктивної змінної.

 

У цьому випадку стать співробітників має два альтернативні значення, а в моделі це відображається однією фіктивною змінною. Виникає питання, чи не можна за допомогою більшої кількості фіктивних змінних описувати більш складні комбінації? Наприклад, нехай Y = βо + β1X + γ1 D1 + γ2 D2+ u, (5)

0, якщо співробітник - жінка, 1, якщо співробітник - жінка,

D1 = 1, якщо співробітник - чоловік. D2 = 0, якщо співробітник - чоловік.

 

Але в цій ситуації між змінними D1 і D2 існує строга лінійна залежність: D2 = 1D1, тобто має місце мультиколінеарність, за якої коефіцієнти рівняння регресії однозначно визначені бути не можуть. Найпростішим способом подолання даної проблеми є відкидання однієї з фіктивних змінних і використання для розглянутого завдання моделі (2).

Значення фіктивної змінної можна змінювати на протилежні. Суть моделі від цього не зміниться. Наприклад, у моделі (2) можна покласти, що:

0, якщо співробітник - чоловік,

D = 1, якщо співробітник - жінка.

Однак при цьому знак коефіцієнта в зміниться на протилежний.

 

Існує загальне правило: якщо якісна змінна має k альтернативних значень, то при моделюванні використовуються тільки ( k - 1) фіктивні змінні. Якщо не дотримуватися даного правила, то при моделюванні можна потрапити до ситуації мультиколінеарності або так звану пастку фіктивної змінної.