Понятие фиктивных переменных и их применение в пространственных и временных моделях

Лабораторная работа 9 - Построение регрессионных моделей с фиктивными переменными

Цели и задачи лабораторной работы

 

В данной лабораторной работе, на основе фактического материала, рассмотрим способы применения фиктивных переменных в регрессионных моделях, при этом выделим следующие задачи:

1) на основе данных о ценах на квартиры, оценить регрессионную модель с фиктивными переменными;

2) рассмотреть способ применения фиктивных переменных для описания сезонности;

3) рассмотреть использование фиктивных переменных для описания структурных сдвигов в макроэкономических рядах.

Понятие фиктивных переменных и их применение в пространственных и временных моделях

Факторы, применяемые в регрессионных задачах, обычно могут принимать значения из какого-либо непрерывного интервала. Но часто случается так, что отдельные факторы, которые необходимо (или хотелось бы) ввести в регрессионную модель, являются качественными по своей природе и, следова­тельно, не измеряются в числовой шкале. В качестве примеров можно привести следующие случаи:

1) Исследуется зависимость между продолжительностью полученно­го образования и доходом, и в выборке представлены лица как мужс­кого, так и женского пола. Нужно выяснить, обусловливает ли пол раз­личие в результатах.

2) Исследуется зависимость между доходом и потреблением в Бель­гии, и выборка включает как франкоговорящие семьи, так и семьи, говорящие по-фламандски. Нужно выяснить, имеет ли существенное значение это этническое различие.

3) Исследуются факторы, определяющие инфляцию, и в некоторые годы периода наблюдений правительство проводило политику регули­рования доходов. Нужно проверить, оказало ли это какое-либо влия­ние на исследуемую зависимость.

В каждом из этих примеров одним из возможных решений было бы оценива­ние отдельных регрессий для двух указанных категорий с последующим выяс­нением, различаются ли полученные коэффициенты. Другой возможный под­ход к решению состоит в оценивании единой регрессии с использованием всей совокупности наблюдений и измерением степени влияния качественного фак­тора посредством введения так называемой фиктивной переменной(манекены, дамми переменные, в отечественной литературе структурные переменные). Второй под­ход обладает двумя важными преимуществами: во-первых, имеется простой спо­соб проверки, является ли воздействие качественного фактора значимым; во-вто­рых, при условии выполнения определенных предположений регрессионные оценки оказываются более эффективными.

В качестве фиктивных переменных обычно используются дихотомические (бинарные, булевые) переменные которые принимают всего два значения 0 и 1. Обычно фиктивные переменные обозначаются как Zi (или Di).

Следует отметить не совсем удачный перевод на русский язык термина dummy variables как «фиктивные» переменные. Во-первых, в модели регрессионного анализа уже имеет фиктивная переменная x0 при a0, всегда равная единицы. Во-вторых все процедуры регрессионного анализа проводятся при включении фиктивных переменных так, же как и обычных количественных переменных. «Фиктивность» же переменных Zi состоит только в том, что они количественным образом описывают качественный признак.

Вводя в уравнение регрессии фиктивную переменную и найдя параметры уравнения следующим шагом проверяют H0 о равенстве коэффициента при Zi=0, этим устанавливается существенность влияния фактора отражаемого фиктивной переменной на Y.

Если рассматриваемый качественный признак имеет несколько (k) уровней (градаций), то в принципе можно ввести в регрессионное уравнение дискретную переменную, принимающую такое же количественное значение. Однако так не поступают из-за трудности содержательной интерпретации соответственных коэффициентов регрессии, а вводят (k-1) бинарных переменных.

Вводить бинарную переменную Zk нельзя, так как при этом для любой i-го наблюдения Z1+Z2+…+Zk=1, т.е. при суммировании элементов столбцов общей матрицы, соответствующих фиктивных переменных Z1, Z2,…,Zk получим столбец, состоящий из одних единиц. А так как в матрице такой столбец из единиц уже есть, то это означает линейную зависимость значений (столбцов) общей матрицы X, т.е. нарушилось одна из предпосылок МНК. Таким образом, возникает проблема мультиколлинеарности и как следствие – невозможности получения не смещенных (достоверных) оценок МНК. Такая ситуация, когда сумма значений несколько переменных, включенных в регрессию, равна постоянному числу (единице) получила название «dummy trap» или «ловушка». Чтобы избежать такие ловушки, число вводимых переменных должно быть на единицу меньше числа уровней (градации) качественного признака.

Рекомендуемая литература

 

Для лучшего понимания материала изложенного в данной главе необходимо дополнительно проанализировать следующие источники литературы (см. список использованных источников):