Лабораторна робота: Dummy-змінні

Освоїти загальну методику введення dummy-змінних для обліку в регресійній моделі якісних факторів.

Dummy у перекладі – макет, і деякі автори вживають словосполучення “макетні змінні”, але частіше використовується неправильна термінологія “фіктивні змінні”. Фіктивною є “змінна” Х0 º 1, яку вводять, щоб у матричній формі врахувати в моделі наявність вільного члена. На відміну від Х0, dummy-змінні дійсно варіюють і тому не повинні називатися “фіктивними”. Найбільш близьким за змістом є назва “індикаторні змінні”.

Dummy-змінні призначені для обліку в моделі якісних ознак, які вимірюються в так званій шкалі імен і не можуть бути охарактеризовані одним числом. Різні рівні якісної ознаки прийнято називати “категоріями”. Приклади: стать – чоловіча або жіноча, стан економіки – до нафтової кризи або пізніше, сезон – зимовий, весняний, літній, осінній, тощо.

Уявимо, треба врахувати якісну ознаку, що має кілька різних категорій. Вводимо таку ж кількість dummy-змінних, кожна з яких дорівнює одиниці для спостережень конкретної категорії і нулю – для всіх інших категорій. У сумі всі dummy-змінні утворять Х0 º 1, тому не можна включати в модель одразу всі dummy-змінні (або ж не треба включати в модель вільний член). Звичайно одну з категорій вибирають як еталон і у модель не включають еталонну dummy-змінну. У результаті одержують модель для еталонної категорії з виправленнями на усі інші категорії. Значимості цих виправлень за критерієм Ст’юдента є значимостями відмінностей кожної категорії від еталонної.

В розглянутому нижче прикладі (витрати на газ і електроенергію в США за 1977–1982 р.) вивчається типова ситуація, коли, бажаючи збільшити обсяг вибірки, замість середньорічних використали квартальні дані. Хоча вибірка при цьому збільшилася в чотири рази, значимість моделі різко знизилася, а коефіцієнт детермінації впав майже до нуля. Причина виявилася в тому, що при переході до квартальних даних були привнесені сезонні коливання, на інтенсивному фоні яких зовсім втратився досліджуваний ефект – часовий лінійний тренд. Тому для обліку різниці за кварталами варто ввести чотири додаткові “індикаторні” змінні: Z1 = 1 – для 1-го кварталу і Z1 = 0 – для всіх інших кварталів; Z2 = 1 – для 2-го кварталу і Z2 = 0 – для всіх інших кварталів; Z3 = 1 – для 3-го кварталу і Z3 = 0 – для всіх інших кварталів; Z4 = 1 – для 4-го кварталу і Z4 = 0 – для всіх інших кварталів. Якщо за еталон прийняти 1-й квартал, то змінну Z1 не слід включати в модель. У результаті розрахунків буде отримане рівняння регресії для еталонної категорії з виправленнями до вільного члена для інших категорій. Можна підключити в модель одразу всі dummy-змінні, але тоді з моделі треба виключити вільний член. У результаті таких розрахунків будуть отримані рівняння регресії для кожної категорії окремо, будуть правильно підраховані всі статистичні характеристики, за винятком статистики Фішера, яка буде занижена в (m+1)/m = 5/4 разів. При цих різних підходах за критерієм Ст’юдента оцінюються різні ефекти якісного фактору. За другою методикою оцінюється значимість ефекту кожної категорії, а по першою (що рекомендується) – значимість розходжень кожної категорії від еталонної.

Зараз неявно передбачається, що для кожної сукупності даних (для кожної категорії) зберігаються незмінними усі закономірності в залежностях від кількісних змінних, а вплив якісної ознаки проявляється тільки у виправленнях довільного члена. Бувають і більш складні ситуації, коли для різних категорій виявляються різними ефекти кількісних факторів. Тоді в моделі слід враховувати також члени із взаємодією.

Роботу виконуємо в наступному порядку.

а) до таблиці вихідних даних (стовпці Т та Y) додаємо стовпці індикаторних змінних Z1, Z2, Z3, Z4;

б) за допомогою функції ЛИНЕЙН розраховуємо параметри лінійної моделі

Yp = (b0 + b2*Z2 + b3*Z3 + b4*Z4) + b5*T (1-й квартал – еталон);

г) обчислюємо розрахункові значення (стовпець Yp);

д) будуємо графіки залежності спостережуваних і розрахункових значень;

е) відбіраємо з таблиці вибірки, що відносяться до різних кварталів;

ж) додаємо на графіку лінії регресії для кожного кварталу.

  A B C D E F G H I J K
Робота № 9. Dummy – змінні 1            
T - Номер кварталу, починаючи з 1977 по 1982 включно      
Y - витрати на газ і електроенергію в США, млрд доларів      
Z1=1 для кварталу I, і Z1=0 для інших кварталів (еталон)      
Z2=1 для кварталу II, і Z2=0 для інших кварталів        
Z3=1 для кварталу III, і Z3=0 для інших кварталів        
Z4=1 для кварталу IV, і Z4=0 для інших кварталів Критерії відбору
Z1 Z2 Z3 Z4 T Y Yp Z1 Z2 Z3 Z4
7,33 7,5141
4,7 4,7691        
5,1 4,9991 1-й квартал 2-й квартал
5,46 5,4158 T Yp T Yp
7,65 7,6405 7,5141 4,7691
4,92 4,8955 7,6405 4,8955
5,15 5,1255 7,7668 5,0218
5,55 5,5421 7,8932 5,1482
7,96 7,7668 8,0195 5,2745
5,01 5,0218 8,1459 5,4009
5,05 5,2518 3-й квартал 4-й квартал
5,59 5,6685 T Yp T Yp
7,74 7,8932 4,9991 5,4158
5,1 5,1482 5,1255 5,5421
5,67 5,3782 5,2518 5,6685
5,92 5,7948 5,3782 5,7948
8,04 8,0195 5,5045 5,9212
5,27 5,2745 5,6309 6,0476
5,51 5,5045        
6,04 5,9212        
8,26 8,1459        
5,51 5,4009        
5,41 5,6309        
5,83 6,0476        
b0 b2 b3 b4 b5            
7,4825 -2,777 -2,578 -2,193 0,0316            
                     
b5 b4 b3 b2 b0   T Z4 Z3 Z2  
7,2975 -25,91 -30,66 -33,15 98,546   tb4 tb3 tb2 tb1 tb0
0,0316 -2,193 -2,578 -2,777 7,4825   b4 b3 b2 b1 b0
0,0043 0,0846 0,0841 0,0838 0,0759   Sb4 Sb3 Sb2 Sb1 Sb0
0,9867 0,1449 #Н/Д #Н/Д #Н/Д   R2 Se      
351,16 #Н/Д #Н/Д #Н/Д   F df      
29,480 0,3988 #Н/Д #Н/Д #Н/Д   SSR SSE      

Рис. 35. Звіт до лабораторної роботи № 10

Усі розрахунки зроблені за допомогою функції ЛИНЕЙН, блок результатів якої доповнений зверху рядком статистик Ст’юдента і рядком заголовків. Поруч у блоці такого ж розміру наведені пояснення до результатів функції ЛИНЕЙН. Під таблицею даних розташований рядок заголовків b0, b2, b3, b4, b5 у потрібному порядку і нижче функцією ГПР наведені відповідні коефіцієнти регресії. Так, у клітинці А34 записана формула =ГПР(A33;$A$36:$E$39;3;0), яка далі скопійована у сусідні клітинки B34, C34, D34, E34. Тут $A$36:$E$39 – блок результатів функції ЛИНЕЙН, з якого витягується значення коефіцієнта регресії з ім'ям, записаним в А33; у діапазон цього блоку необхідно обов'язково включати рядок заголовків; адреси діапазону повинні бути абсолютними (F4), щоб ці адреси не змінювалися при копіюванні; числове значення витягується з 3-го рядка блоку (1-й рядок – заголовки, 2-й рядок – статистики Ст’юдента, 3-й рядок – коефіцієнти регресії, 4-й рядок – стандартні похибки коефіцієнтів регресії); нарешті, останній операнд формули ГПР прийнятий рівним нулю (НЕПРАВДА), що означає вимогу точної відповідності чисел зазначеному заголовку.

Розрахункові значення Yp обчислені за допомогою функції СУММПРОИЗВ. Так, для 1-го спостереження у клітинці G9 записана формула:

=$A$34+СУММПРОИЗВ($B$34:$E$34;B9:E9) .

Праворуч від таблиці даних зроблені вибірки розрахункових значень витрат на газ і електроенергію за кожним кварталом. Вибірки з таблиці можна зробити різними способами, наприклад, за допомогою розширеного фільтру. Першим рядком бази даних (таблиці, з якої витягаються дані) завжди повинен бути рядок заголовків стовпців. У блоці критеріїв відбору (у нас таких чотири блоки з адресами H8:H9, I8:I9, J8:J9, K8:K9) у першому рядку повинен бути заголовок хоча б одного стовпця бази даних, у наступних рядках блоку критеріїв записуються умови відбору (в 1-му блоці задана умова Z1=1).

Діапазон обраних записів повинен також починатися рядком заголовків стовпців таблиці, що нас цікавлять. Усі чотири діапазони відбору записів (H12:I18, J12:K18, H20:I26, J20:K26) містять однакові заголовки T і Yp. Встановлюємо табличний курсор у будь-яке місце таблиці і через меню Данные, Фильтр, Расширенный фильтр викликаємо панель розширеного фільтра, на якій поле Исходный диапазон вже заповнено за замовчуванням.

Включаємо умову скопировать результат на другое место, заповнюємо поля Диапазон условий і Поместить результат в діапазон;нарешті натискуємо кнопку ОК.  

Попередження: У кожний із цих діапазонів має бути включений рядок заголовків. Не припустимі ніякі помилки при завданні діапазону умов (блоку критеріїв). Якщо виділити діапазон із зайвим рядком (порожнім), буде обрана вся таблиця, а якщо захопити зайвий стовпець – не буде обраний жодний запис. Справа в тому, що умови в декількох рядках поєднуються логічною операцією АБО, а в декількох стовпцях – операцією I.

Далі будуємо діаграму із графіками досліджуваної залежності. За допомогою графічних опцій Добавить тренд, Показать уравнение і R2 додаємо на графіку лінійний тренд, його рівняння і коефіцієнт детермінації.

Рис. 37. Помісячна динаміка витрат

Варто виділити в таблиці стовпці Т, Y, Yp разом із заголовками і викликати Майстер Діаграм, тоді в легенді автоматично будуть зазначені назви рядів Y і Yp. Після цього можна додати графіки для кожного кварталу наступним чином. Клацаємо правою кнопкою по області діаграми і у контекстному меню вибираємо Исходные данные, Ряд, Добавить.

У поле Имя заносимо I (1-й квартал); це ім'я автоматично замінюється на ="I". У поле Значения Х указуємо діапазон Т і в поле Значения Y – діапазон Yр для 1-го кварталу.

Саме так додаємо графіки для 2-го, 3-го і 4-го кварталів. Нарешті, на діаграмі до ряду Y додаємо лінійний тренд, його рівняння і коефіцієнт детермінації R2.

На фоні інтенсивних сезонних коливань значимість досліджуваного лінійного тренда виявилася заниженою практично до нуля (R2 = 0,0086), оцінка кутового коефіцієнта занижена більш ніж у два рази.

Контрольне запитання: А якої величини були коефіцієнт регресії і коефіцієнт детермінації за 6-ю середнєрічними спостереженнями?

За допомогою всього трьох додаткових dummy-змінних Z2, Z3, Z4 дуже добре описана вся залежність разом із сезонними коливаннями. Помітимо, що спроби описати ці коливання аналітичним вираженням у вигляді трьох гармонік (з періодами рік, півроку, квартал) будуть неощадливими і зажадають 6-и додаткових параметрів (по два параметра на кожну гармоніку).

З блоку результатів функції ЛИНЕЙН виписуємо рівняння регресії:

Yp = 7,4825 – 2,777*Z2 – 2,278*Z3 – 2,193*Z4 + 0,0316*T

(tb) (98,5) (33,2) (30,7) (25,9) (7,3) .

Всі члени цієї моделі значимі за критерієм Ст’юдента (всі tb > t01 = 2,9), модель значима в цілому за критерієм Фішера F = 351,2 (F > F01 = 4,5); коефіцієнт детермінації дорівнює R2 = 0,9867, тобто модель із dummy-змінними пояснює практично всю мінливість даних.

Значимості коефіцієнтів регресії перед Z2, Z3, Z4 у цій моделі показують, що витрати на газ і електроенергію в еталонному 1-му кварталі істотно відрізняються від витрат в інших кварталах.

Наводимо рівняння регресії для кожного кварталу:

Yp(I) = 7,4825 + 0,0316*T (Z1 = 1),

Yp(II) = 7,4825 – 2,777 + 0,0316*T = 4,7059 + 0,0316*T (Z2 = 1),

Yp(III) = 7,4825 – 2,278 + 0,0316*T = 4,9034 + 0,0316*T (Z3 = 1),

Yp(IV) = 7,4825 – 2,193 + 0,0316*T = 5,2894 + 0,0316*T (Z4 = 1).

Вище вже вказувалося, що можна в модель включити одразу всі dummy-змінні, але тоді модель не повинна містити вільного члена. За допомогою функ­ції ЛИНЕЙН розраховуємо параметри лінійної моделі (рис. 39):

Yp = (b1*Z1 + b2*Z2 + b3*Z3 + b4*Z4) + b5*T (Константа – відсутня).

T Z4 Z3 Z2 Z1
7,2975 62,464 60,075 59,784 98,546
0,0316 5,2894 4,9043 4,7059 7,4825
0,0043 0,0847 0,0816 0,0787 0,0759
0,9867 0,1449 #Н/Д #Н/Д #Н/Д
280,93 #Н/Д #Н/Д #Н/Д
29,4795 0,3988 #Н/Д #Н/Д #Н/Д
Рис. 39. Блок функції ЛИНЕЙН

В результаті будуть отримані одразу всі рівняння для кожного кварталу – не потрібно перераховувати вільний член (див. блок висновків функції ЛИНЕЙН на рис. 39). Але тепер статистики Ст’юдента будуть оцінювати відхилення середнього рівня витрат у кожному кварталі від нуля, а не від обраного еталона. Всі характеристики (крім F) вийдуть тими ж самими, лише статистику Фішера треба буде збільшити в (m+1)/m = 5/4 разів: F = 280,93*5/4 = 351,16.

Контрольні запитання

1. Що таке "dummy-змінні"? З якою метою вони застосовуються? Які є пропозіції щодо найближчого перекладу назви цих змінних на українську мову?

2. В "коваріаційному аналізі", який є подальшою модіфікацією дисперсійного аналізу, крім середніх за групами спостережень оцінюється також лінійний ефект кількісної змінної. Чи не можна вважати модель коваріаціного аналізу єквівалентним частинним випадком регресійного аналізу з dummy-змінними? Для яких умов?

3. Яку роль відіграють члени взаємодій кількісних змінних з dummy-змінними?

4. В якому випадку анліз з dummy-змінними буде еквіваленим серії звичайних регресійних аналізів окремо для кожної категорії якісної змінної?

5. Як оцініти значущість членів моделі з dummy-змінними?