Лабораторная работа № 8. Спецификация переменных и проблема мультиколлинеарности

Цель: научиться распознавать влияние эффекта мультиколлинеарности и находить варианты избавления от этого эффекта.

Основные формулы и понятия:

Отсутствующая переменная:

истинная модель;

оцениваемая модель.

В этом случае

Электронная таблица Excel

Эффект мультиколлинеарности возникает тогда, когда коэффициент корреляции между регрессорами близок к единице, в то время как коэффициент корреляции между регрессором и зависимой переменной мал. Как правило, выделяют значение в 0,8.

Для анализа влияния мультиколлинеарности можно проанализировать значение ковариационной матрицы, которую можно получить, используя надстройку Корреляция. Поскольку, как уже было определенно ранее, лучшей является модель, в которой не учитывается значения регрессора x2, то построим корреляционную матрицу без учета значений на первый подобный товар. Данная матрица имеет вид, изображенный в таблице 1

 

Таблица 15 Матрица корреляции

 

  Цена x1 (т.) Цена на подобный товар x3 (т.) Средний доход населения x4 (т. т.) Спрос y (тыс.шт.)
Цена x1(т.)      
Цена на подобный товар x3 (т.) –0,17012    
Средний доход населения x4 (т. т.) –0,33828 0,195127  
Спрос y (тыс. шт.) –0,88704 0,423668 0,555581

 

Начнем рассмотрение результатов данной таблицы с последней строки, в которой находятся частные коэффициенты корреляции зависимой переменной y и регрессоров x1, x3 , x4. Имеется некоторая взаимосвязь между каждым регрессором и спросом, при этом максимальное значение коэффициента корреляции равно –0,887 и говорит о существенной связи цены x1 и спроса y. Именно эта парная регрессионная модель строилась ранее (лабораторная работа № 2), и это значение коэффициента корреляции было получено в лабораторной работе № 1.

Все остальные коэффициенты корреляции значительно меньше, поэтому нет оснований утверждать, что присутствует эффект мультиколленеарности, однако в некоторой незначительной степени этот эффект имеет место.

Если было подтверждено наличие эффекта мультиколлинеарности, то один из возможных способов её устранения либо в укрупнении регрессоров, либо в их исключении.

На основании полученных коэффициентов частной корреляции нетрудно самостоятельно подсчитать значение коэффициента детерминации R2, или, как его ещё иногда называют, множественного коэффициента корреляции.

Рассмотрим теперь более подробно тот факт, как и почему изменяется значение коэффициентов регрессии в зависимости от того, какая модель рассматривается. Ещё раз напомним, что в парном случае модель имела вид:

y = 239,96 – 7,703x1,

а во множественном случае лучшая модель будет

y = 142,21 – 6,61 x1 + 2,24 x3 + 10,56 x4.

Это модель с отсутствующей переменной, когда вместо двух, реально присутствующих в модели регрессоров, рассматривается парный случай, и модель с лишней переменной, когда исходная модель является парной, а она рассматривается как множественная. В случае лишней переменной происходит только потеря эффективности, в случае отсутствующей происходит нарушение наиболее важного свойства, а именно, нарушается несмещённость оценки. При этом показано, что математическое ожидание коэффициента в парной случае будет иметь вид

.

Для вычисления найдем ковариационную матрицу (таблица 16).

 

Таблица 16 Ковариационная матрица

 

  Цена x1 (т.) Цена на подобный товар x3 (т.) Средний доход населения x4 (т. т.) Спрос y (тыс. шт.)
Цена x1 (т.) 0,275665      
Цена на подобный товар x3 (т.) –0,04468 0,250289    
Средний доход населения x4 (т. т.) –0,01923 0,010569 0,011722  
Спрос y (тыс. шт.) –2,12663 0,967845 0,274663 20,85059

 

Используя полученные данные, нетрудно вычислить

,

что полностью совпадает со значением, полученным в парном случае.

Если сравнивать случаи с тремя регрессорами, которая была признана нами наилучшей, и общим случаем, то очевидно, что в общем случае стандартные ошибки коэффициентов больше, а следовательно, оценки менее эффективные.