Мультиколлениарность, выявление и устранение

Лабораторная работа 4 - Выявление и устранение мультиколлениарности и гетероскедостичности

Цели и задачи лабораторной работы

 

В данной лабораторной работе рассмотрим основные алгоритмы выявления и устранения нарушений условий Гаусса-Маркова, при этом будут решаться следующие задачи:

1) Построение регрессионной модели на основе выборочной совокупности;

2) Тестирование наличия мультиколлениарности и построение статистически значимой модели;

3) Тестирование наличия гетероскедостичности и построение статистически значимой модели.

Понятие мультиколлениарности и гетероскедостичности, методы выявления и устранения

 

Для того чтобы регрессионный анализ, основанный на обычном методе наименьших квадратов, давал наилучшие из всех возможных результаты, случайный член должен удовлетворять четырем условиям, известным как условия Гаусса-Маркова.

1) Математическое ожидание случайного члена в любом наблюдении должно быть равно нулю.

2) Дисперсия случайного члена должна быть постоянна для всех наблюдений.

3) Отсутствие систематической связи между значени­ями случайного члена в любых двух наблюдениях.

4) Случайный член должен быть распределен независимо от объясняющих переменных.

5) Зависимая переменная yi (или εi) есть нормально распределенная величина.

Мультиколлениарность, выявление и устранение

Мультиколлениарность – это понятие, которое используется для описания проблемы, когда нестрогая линейная зависимость между объясняющими переменными приводит к получению ненадежных оценок регрессии.

Выделим некоторые наиболее характерные признаки мультиколлинеарности.

1) В первую очередь анализируют матрицу R парных коэффициентов корреляции, точнее, ту ее часть, которая относится к объясняющим пе­ременным. Считается, что наличие значений коэффициентов корреляции, по абсолютной величине превосходящих 0,75-0,80, свидетельствует о при­сутствии мультиколлинеарности.

2) Анализ корреляционной матрицы R позволяет лишь в первом при­ближении судить о наличии или отсутствии мультиколлинеарности в исходных данных. Более внима­тельное изучение этого вопроса достигается с помощью расчета значений коэффициентов детерминации R2 каждой из объясняющих перемен­ных хi по всем остальным предикторам X = (х1 ,..., хn)

3) Небольшое изменение исходных данных (например, добавление новых наблюдений) приводит к существенному из­менению оценок коэффициентов модели.

4) Оценки имеют большие стандартные ошибки, малую значимость, в то время как модель в целом является значимой (высокое значение коэффициента детерминации R2 и соответствующей F-статистики Фишера).

5) Оценки коэффициентов имеют неправильные с точки зрения теории знаки или неоправданно большие значения.

Существует несколько способов борьбы с мультиколлениарностью:

1) Отбор наиболее существенных объясняющих перемен­ных заключается в возможности перехода от исходного числа k анализируемых показателей x1, x2, …, xk к существенно меньшему числу k’ наиболее информативных переменных.

Существует несколько подходов к решению задачи отбора наиболее существенных регрессоров в модель. Остановимся на одном из распространенных, на процедуре последовательного наращивания числа объясняющих переменных, реализуемой в двух версиях: версия «всех возможных регрессий» и версия «пошагового отбора переменных».

а) метод всех возможных регрессий – это самая громоздкая процедура. Она вообще не реализуема без соответствующих пакетов программ. Данный метод требует построения каждого из всех возможных регрессионных уравнений, которые содержат x0 (фиктивная переменная x0=0) и некоторое число переменных x1,…, xk . Поскольку для каждой переменной xi есть всего две возможности: либо входить, либо не входить в уравнение, и это относится ко всем xi то всего будет 2k (для k=10 получаем 210=1024) уравнений. Каждое регрессионное уравнение оценивается с помощью ряда критериев.

б) метод пошагового отбора переменных более экономичен, чем метод всех возможных регрессий, поскольку в нем делается попытка исследовать только наилучшие регрессионные уравнения, содержащие определенное число переменных. Основные шаги этого метода сводятся к следующему:

1) Рассчитывается регрессионное уравнение, включающее все переменные.

2) Вычисляется величина F-критерия для каждой объясняющей переменной в предположении как будто бы она была последней переменной, введенной в регрессионное уравнение.

3) Наименьшая величина частного F-критерия, обозначаемая, как – сравнивается с заранее выбранным критерием значимости F0.

Если FL < F0 то переменная xL которая обеспечила достижение только уровня FL, исключается из рассмотрения и производится перерасчет уравнения регрессии с учетом оставшихся переменных, затем переходят к следующему шагу.

Если FL > F0 то регрессионное уравнение оставляют таким, как оно было рассчитано.

2) Переход к смещенным методам оценивания.