Категории:

Астрономия
Биология
География
Другие языки
Интернет
Информатика
История
Культура
Литература
Логика
Математика
Медицина
Механика
Охрана труда
Педагогика
Политика
Право
Психология
Религия
Риторика
Социология
Спорт
Строительство
Технология
Транспорт
Физика
Философия
Финансы
Химия
Экология
Экономика
Электроника

Лабораторная работа № 9 Фиктивные переменные и категории

Цель: научиться использовать в модели фиктивные переменные сдвига и наклона, а также различные категории.

Основные формулы и понятия:

Фиктивная переменная необходима для описания качественного изменения и может принимать два значения 0 и 1.

модель с фиктивной переменной сдвига;

модель с фиктивной переменной наклона;

модель с фиктивной переменной наклона и сдвига.

Категория — событие, про которое для каждого наблюдения можно определенно сказать, произошло оно в этом наблюдении или нет.

Набор категорий — конечный набор взаимоисключающих событий, полностью исчерпывающий все возможности.

Для описания категорий необходимо ввести совокупность фиктивных переменных.

Электронная таблица Excel

До сих пор нами рассматривался только случай количественных регрессоров, поскольку значение цен и спроса являются числами. Однако может возникнуть ситуация, когда необходимо учесть некоторую специфическую информацию. Рассматривая модель спроса, можно предположить, что продаются два одинаковых продукта по одной цене, но имеющие некоторые различия. Например, наряду с уже давно продающимся чистящим порошком, поступает в продажу такой же порошок, но с новым ароматом. И имеется задача исследовать, насколько большим или меньшим спросом пользуется новая продукция. Конечно, можно построить две различные модели, и посмотреть разницу между ними, однако нас будет интересовать общая модель. В этом случае в модель необходимо вносить качественный регрессор, для чего нужно использовать фиктивную переменную. Данная переменная может принимать только два значение 0 или 1, в зависимости от отсутствия или наличия нового качества. В этом случае можно строить модель с фиктивной переменной наклона и сдвига. Работа с фиктивными переменными ни чем не отличается от построения регрессионной модели.

Поэтому рассмотрим задачу. Значение цены x и спроса y на два различных товара, которые мы условно назовем «обычный» и «новый», представлены в таблице 17.

 

Таблица 17 Исходные данные

Номер наблюдения Вид Цена x1(т.) Спрос y (тыс. шт.)
новый 15,09т. 125,1779
новый 15,21т. 123,8094
старый 15,28т. 121,175
старый 15,49т. 116,9143
старый 15,54т. 119,8643
старый 15,62т. 118,0681
новый 15,70т. 123,5887
новый 15,91т. 117,0877
старый 15,92т. 116,1699
новый 15,95т. 118,3436
новый 16,31т. 116,2008
старый 16,33т. 111,4565
новый 16,60т. 115,1026
старый 16,69т. 110,1056
старый 16,76т. 110,0231

 

В электронной таблице Excel имеются возможности для быстрого задания значений фиктивной переменой. Для этого необходимо вставить столбец между колонками с названиями Вид и Цена. Озаглавим этот столбец как Фиктивная переменная, и для определения значений будем использовать логическую функцию ЕСЛИ. Данная функция имеет три аргумента. Первый — это логическое выражение, которое может принимать истинное или ложное значение. Вторым аргументом идет то значение, которое появляется в ячейке при истинности условия, а соответственно в третьем аргументе — значение, которое появляется в противном случае.

Выполнив данные действия, получим первые две строки таблицы 18.

Таблица 18 Расчетная таблица

Номер наблюдения Вид Фиктивная переменная Цена x1 (т.) Спрос y (тыс. шт.)
новый =ЕСЛИ(B2="новый";1;0) 15,09т. 125,1779

 

В столбце фиктивной переменной появится значение 1, если в предыдущем столбце находилось слово «новый», и 0 в противоположном случае. После этого необходимо значение функции, находящейся в столбце C, скопировать во все нижние ячейки, а поскольку адресация относительная, то адрес будет меняться. Необходимо отметить, что логическая функция может иметь и другой вид:

ЕСЛИ(B2 = "обычный";0;1).

Теперь наша задача заключается в определении степени влияния фиктивной переменной. А именно, влияет ли это значение на свободный член (в этом случае при изменении качества можно говорить о том, что спрос изменится на какое-то количество) или на наклон линии регрессии (спрос изменится во сколько-то), или на оба эти значения сразу.

Вначале оценим регрессию, при условии, что фиктивная переменная влияет только на значение свободного члена. В этом случае итоговая таблица после выполнения надстройки Регрессии, при условии, что Входной интервал Y задан в виде E1:E16, а Входной интервал X в виде С1:D16, имеет вид, изображенный в таблице 19.

Таблица 19 Вывод итогов

ВЫВОД ИТОГОВ
Регрессионная статистика
Множественный R 0,963696
R-квадрат 0,928711
Нормированный R-квадрат 0,916830
Стандартная Ошибка 1,363084
Наблюдения
 
Дисперсионный анализ        
df SS MS F Значимость F
Регрессия 290,4628387 145,231419 78,16547142 1,31E–07
Остаток 22,29599593 1,85799966    
Итого 312,7588347      
Коэффи- циенты Стандартная ошибка t- статистика P- значение Нижние 95 % Верхние 95 %
Y-пересечение 232,0028 10,78827 21,5051052 5,9691E-11 208,49 255,508
Фиктивная переменная 3,474500 0,7109700 4,8869856 0,00037407 1,9254 5,02357
Цена x(т.) -7,30442 0,675558 –10,8124125 1,5303E–07 –8,77634 –5,83251
               

 

Регрессионная модель имеет вид: y = 232 + 3,47D – 7,304x

Поскольку значение фиктивной переменной D равно 1 для «нового» вида и 0 для «обычного», то данную модель можно отдельно расписать для каждого случая.

y = 232 – 7,304x — обычный вид,

y = 235,47 – 7,304x — новый вид.

Следовательно, спрос на новый вид продукции приблизительно на 3,47 тыс. ед. больше. Коэффициент детерминации равен 0,928, что намного больше, чем данное значение для парного случая.

Рассмотрим теперь возможность построения модели с фиктивной переменной наклона, для чего в качестве регрессоров значения необходимо использовать переменные x и Dx. Следовательно, необходимо добавить дополнительный столбец между фиктивной переменной и значениями x, в который надо записать их произведения.

Опустим таблицу, которая генерируется надстройкой Регрессия. Однако, самостоятельно выполнив данные операции, можно получить следующую модель: y = 233,52 + 0,21Dx – 7,403x.

Аналогичным образом интерпретируя значение фиктивной переменной, можно расписать два случая:

y = 233,52 – 7,4x — для обычного вида продукции;

y = 233,52 – 7,19x — для нового вида продукции.

Выводы из полученных моделей совершенно очевидны, поскольку видна разница во влиянии цены на спрос для каждого вида продукции. Коэффициент детерминации в этом случае равен 0,929, что не намного больше соответствующего значения для фиктивной переменной сдвига, а следовательно, они обе пригодны для прогнозирования. Однако результаты использования моделей будут во многом различными. В первом случае спрос на «новый» вид продукции на 3,47 тыс. ед. больше, чем на «старый», во втором случае цена сильнее влияет на «старый» вид продукции.

При необходимости можно построить модель, в которой фиктивная переменная влияет как на наклон, так и на сдвиг.

До сих пор нами рассматривался случай, когда имеются всего два значения качества, то есть два вида продукции. Однако нередки случаи, когда необходимо проанализировать спрос для различных продуктов. Тогда необходимо вводить набор категорий — как конечный набор взаимоисключающих событий, полностью описывающий все возможности. Предположим, что исследуется влияние цены на спрос при наличии «старой», «обычной», «новой» и «самой новой» продукции.

В этом случае для описания этих категорий необходимо вводить набор фиктивных переменных по следующему правилу.

1. Число фиктивных переменных должно быть на единицу меньше, чем число категорий. В данном случае имеется четыре категории, а следовательно, необходимо ввести три фиктивные переменные, которые мы обозначим D1, D2, D3.

2. Выбрать произвольную категорию в качестве эталонной. Именно с этой категорий в последствии будут сравниваться все остальные. Для эталонной категории необходимо, чтобы значения всех фиктивных переменных равнялись нулю.

3. Для всех остальных категорий необходимо, чтобы одна из фиктивных переменных равнялась 1, в то время как значение всех остальных равно 0.

Достаточно легко можно расставить значения фиктивных переменных, используя ту же условную функцию ЕСЛИ. При наличии четырёх различных видов продукции необходимо вставить три дополнительных столбца, в которых будут находиться фиктивные переменных. Задать логические функции можно так, как показано в таблице 18.

 

Таблица 18 Логические функции

 

Номер наблюдения Вид Фиктивная переменная D1 Фиктивная переменная D2 Фиктивная переменная D3 Цена x1 (т.) Спрос y (тыс.шт.)
  =ЕСЛИ(B2= «обычный»;1;0) =ЕСЛИ(B2= «новой»;1;0) =ЕСЛИ(B2= «самой новый»;1;0) 15,09т. 125,1779

 

После копирования данных функций вниз для значения старой все фиктивные переменные будут равны нулю, для обычной — только значение первой фиктивной переменной будет равно 1 и т. д.

После этого можно вызвать надстройку Регрессия, у которой в качестве входного интервала X, необходимо указать значения всех фиктивных переменных D и нефиктивной переменной X, то есть задать Входной интервал X в виде С1:F16.

Полученные результаты поддаются достаточно простой интерпретации. Значение, находящееся напротив фиктивной переменной D1, показывает, насколько изменился спрос при переходе от эталонной к первой категории, то есть насколько различен спрос между «обычной» и «новой» продукцией. Аналогично интерпретируются значения, стоящие напротив других фиктивных переменных.