Лабораторная работа № 8. Спецификация переменных и проблема мультиколлинеарности

Цель: научиться распознавать влияние эффекта мультиколлинеарности и находить варианты избавления от этого эффекта.

Основные формулы и понятия:

Отсутствующая переменная:

— истинная модель;

— оцениваемая модель.

В этом случае

Электронная таблица Excel

Эффект мультиколлинеарности возникает тогда, когда коэффициент корреляции между регрессорами близок к единице, в то время как коэффициент корреляции между регрессором и зависимой переменной мал. Как правило, выделяют значение в 0,8.

Для анализа влияния мультиколлинеарности можно проанализировать значение ковариационной матрицы, которую можно получить, используя надстройку Корреляция. Поскольку, как уже было определенно ранее, лучшей является модель, в которой не учитывается значения регрессора x², то построим корреляционную матрицу без учета значений на первый подобный товар. Данная матрица имеет вид, изображенный в таблице 1

Таблица 15 Матрица корреляции

	Цена x¹(т.)	Цена на подобный товар x³ (т.)	Средний доход населения x⁴ (т. т.)	Спрос y (тыс.шт.)
Цена x¹(т.)
Цена на подобный товар x³ (т.)	–0,17012
Средний доход населения x⁴ (т. т.)	–0,33828	0,195127
Спрос y (тыс. шт.)	–0,88704	0,423668	0,555581

Начнем рассмотрение результатов данной таблицы с последней строки, в которой находятся частные коэффициенты корреляции зависимой переменной y и регрессоров x¹, x³ , x⁴. Имеется некоторая взаимосвязь между каждым регрессором и спросом, при этом максимальное значение коэффициента корреляции равно –0,887 и говорит о существенной связи цены x¹и спроса y. Именно эта парная регрессионная модель строилась ранее (лабораторная работа № 2), и это значение коэффициента корреляции было получено в лабораторной работе № 1.

Все остальные коэффициенты корреляции значительно меньше, поэтому нет оснований утверждать, что присутствует эффект мультиколленеарности, однако в некоторой незначительной степени этот эффект имеет место.

Если было подтверждено наличие эффекта мультиколлинеарности, то один из возможных способов её устранения либо в укрупнении регрессоров, либо в их исключении.

На основании полученных коэффициентов частной корреляции нетрудно самостоятельно подсчитать значение коэффициента детерминации R², или, как его ещё иногда называют, множественного коэффициента корреляции.

Рассмотрим теперь более подробно тот факт, как и почему изменяется значение коэффициентов регрессии в зависимости от того, какая модель рассматривается. Ещё раз напомним, что в парном случае модель имела вид:

y = 239,96 – 7,703x¹,

а во множественном случае лучшая модель будет

y = 142,21 – 6,61 x¹ + 2,24 x³ + 10,56 x⁴.

Это модель с отсутствующей переменной, когда вместо двух, реально присутствующих в модели регрессоров, рассматривается парный случай, и модель с лишней переменной, когда исходная модель является парной, а она рассматривается как множественная. В случае лишней переменной происходит только потеря эффективности, в случае отсутствующей происходит нарушение наиболее важного свойства, а именно, нарушается несмещённость оценки. При этом показано, что математическое ожидание коэффициента в парной случае будет иметь вид

Для вычисления найдем ковариационную матрицу (таблица 16).

Таблица 16 Ковариационная матрица

	Цена x¹(т.)	Цена на подобный товар x³ (т.)	Средний доход населения x⁴ (т. т.)	Спрос y (тыс. шт.)
Цена x¹(т.)	0,275665
Цена на подобный товар x³ (т.)	–0,04468	0,250289
Средний доход населения x⁴ (т. т.)	–0,01923	0,010569	0,011722
Спрос y (тыс. шт.)	–2,12663	0,967845	0,274663	20,85059

Используя полученные данные, нетрудно вычислить

что полностью совпадает со значением, полученным в парном случае.

Если сравнивать случаи с тремя регрессорами, которая была признана нами наилучшей, и общим случаем, то очевидно, что в общем случае стандартные ошибки коэффициентов больше, а следовательно, оценки менее эффективные.