Понятие фиктивных переменных и их применение в пространственных и временных моделях
Лабораторная работа 9 - Построение регрессионных моделей с фиктивными переменными
Цели и задачи лабораторной работы
В данной лабораторной работе, на основе фактического материала, рассмотрим способы применения фиктивных переменных в регрессионных моделях, при этом выделим следующие задачи:
1) на основе данных о ценах на квартиры, оценить регрессионную модель с фиктивными переменными;
2) рассмотреть способ применения фиктивных переменных для описания сезонности;
3) рассмотреть использование фиктивных переменных для описания структурных сдвигов в макроэкономических рядах.
Понятие фиктивных переменных и их применение в пространственных и временных моделях
Факторы, применяемые в регрессионных задачах, обычно могут принимать значения из какого-либо непрерывного интервала. Но часто случается так, что отдельные факторы, которые необходимо (или хотелось бы) ввести в регрессионную модель, являются качественными по своей природе и, следовательно, не измеряются в числовой шкале. В качестве примеров можно привести следующие случаи:
1) Исследуется зависимость между продолжительностью полученного образования и доходом, и в выборке представлены лица как мужского, так и женского пола. Нужно выяснить, обусловливает ли пол различие в результатах.
2) Исследуется зависимость между доходом и потреблением в Бельгии, и выборка включает как франкоговорящие семьи, так и семьи, говорящие по-фламандски. Нужно выяснить, имеет ли существенное значение это этническое различие.
3) Исследуются факторы, определяющие инфляцию, и в некоторые годы периода наблюдений правительство проводило политику регулирования доходов. Нужно проверить, оказало ли это какое-либо влияние на исследуемую зависимость.
В каждом из этих примеров одним из возможных решений было бы оценивание отдельных регрессий для двух указанных категорий с последующим выяснением, различаются ли полученные коэффициенты. Другой возможный подход к решению состоит в оценивании единой регрессии с использованием всей совокупности наблюдений и измерением степени влияния качественного фактора посредством введения так называемой фиктивной переменной(манекены, дамми переменные, в отечественной литературе структурные переменные). Второй подход обладает двумя важными преимуществами: во-первых, имеется простой способ проверки, является ли воздействие качественного фактора значимым; во-вторых, при условии выполнения определенных предположений регрессионные оценки оказываются более эффективными.
В качестве фиктивных переменных обычно используются дихотомические (бинарные, булевые) переменные которые принимают всего два значения 0 и 1. Обычно фиктивные переменные обозначаются как Zi (или Di).
Следует отметить не совсем удачный перевод на русский язык термина dummy variables как «фиктивные» переменные. Во-первых, в модели регрессионного анализа уже имеет фиктивная переменная x0 при a0, всегда равная единицы. Во-вторых все процедуры регрессионного анализа проводятся при включении фиктивных переменных так, же как и обычных количественных переменных. «Фиктивность» же переменных Zi состоит только в том, что они количественным образом описывают качественный признак.
Вводя в уравнение регрессии фиктивную переменную и найдя параметры уравнения следующим шагом проверяют H0 о равенстве коэффициента при Zi=0, этим устанавливается существенность влияния фактора отражаемого фиктивной переменной на Y.
Если рассматриваемый качественный признак имеет несколько (k) уровней (градаций), то в принципе можно ввести в регрессионное уравнение дискретную переменную, принимающую такое же количественное значение. Однако так не поступают из-за трудности содержательной интерпретации соответственных коэффициентов регрессии, а вводят (k-1) бинарных переменных.
Вводить бинарную переменную Zk нельзя, так как при этом для любой i-го наблюдения Z1+Z2+…+Zk=1, т.е. при суммировании элементов столбцов общей матрицы, соответствующих фиктивных переменных Z1, Z2,…,Zk получим столбец, состоящий из одних единиц. А так как в матрице такой столбец из единиц уже есть, то это означает линейную зависимость значений (столбцов) общей матрицы X, т.е. нарушилось одна из предпосылок МНК. Таким образом, возникает проблема мультиколлинеарности и как следствие – невозможности получения не смещенных (достоверных) оценок МНК. Такая ситуация, когда сумма значений несколько переменных, включенных в регрессию, равна постоянному числу (единице) получила название «dummy trap» или «ловушка». Чтобы избежать такие ловушки, число вводимых переменных должно быть на единицу меньше числа уровней (градации) качественного признака.
Рекомендуемая литература
Для лучшего понимания материала изложенного в данной главе необходимо дополнительно проанализировать следующие источники литературы (см. список использованных источников):