Опишите методы выявления влиятельных наблюдений в задаче множественной регрессии

Мера Кука (Cook’s distance): каждому наблюдению присваивается мера Кука, объекты с большой мерой Кука (> ) – влиятельные, и нам нужно их выкинуть из регрессионной модели.

72. Почему возникает автокорреляция и чем она плоха в случае использования МНК-регрессии?

Из-за естественной взаимосвязи изучаемых явлений, временной и пространственной (сосуществования объектов в едином пространственно-временном континууме).

Из учебника Айвазяна, Мхитаряна: в ситуациях, когда исходные наблюдения регистрируются во времени, регрессионные остатки оказываются коррелированными, а значит, и их ковариационная матрица не может быть диагональной.

Последствия автокорреляции:

1) Неверно рассчитываются стандартные ошибки, а именно они обычно занижаются, т.к. автокорреляция может быть с «+» или с «-». Мы чаще всего отвергаем Н0.

«-»: большему остатку в t соответствует меньший в t+1 (примеры задач из сферы массового обслуживания: приемный день в ЗАГСе)

«+»: приводит к занижению стандартных ошибок (чаще всего в политологических задачах)

2) МНК-оценки сохраняют несмещенность и состоятельность, но утрачивают эффективность (т.к. есть другие несмещенные оценки с меньшей дисперсией). Кроме того, временная автокорреляция (temporal) приводит к нарушению условий Гаусса-Маркова.

73. Каковы методы выявления автокорреляции в задаче регрессионного анализа?

1) Построение box plot, оценить, как «гуляет» медиана.

2) Временной критерий Дарбина-Уотсона, выявляет автокорреляцию первого порядка. d-статистика, d принимает значения [0, 4] если меньше 2, то есть автокорреляция. d= 2(1-R)

3) Статистическая автокорреляционная функция.

74. В чем состоит проблема эндогенности в задаче регрессии? Каковы последствия эндогенности для МНК-регрессии?

Если в регрессионной модели У=Хb+е регрессоры Х коррелируют с ошибкой е, то они называются эндогенными


Проблема

• Обычные оценки МНК в этом случае

– смещены и

– несостоятельны

• Содержательная интерпретация ошибочна

• Рекомендации, выработанные на основе модели неверны

 

 

Причины эндогенности

1. Пропуск существенных переменных

2. Ошибки измерения регрессоров

3. Самоотбор

4. Одновременность

5. Автокорреляция ошибок при наличии в уравнении лага зависимой переменной в роли регрессора

 

 

Инструменты

Некие переменные Z, удовлетворяющие требованиям:

• сильной коррелированности с

инструментируемыми эндогенными Х

• некоррелированности с ошибкой

 

 


Проблема выбора инструментов

• Инструменты должны браться вне модели

• Требования к инструментам противоречивы:

-Если Z должны сильно коррелировать с Х, а Х должны сильно коррелировать с У, то Z будут сильно коррелировать с У, а, следовательно, коррелировать с ошибкой

Следствия противоречивости требований к инструментам

• Либо инструменты экзогенные (нет корреляции с ошибкой), но слабые (слабо коррелируют с Х)

• Либо инструменты сильные, но эндогенные (сильно коррелируют с ошибкой)

75.В чем состоит проблема гетероскедастичности? Из-за чего она возникает и каковы ее по-следствия для МНК-оценок коэффициентов регрессии?

Гетероскедастичность – это, когда дисперсия ошибок не является постоянной (не выполняется условие) D(e|X)=сигма2.

Это приводит к тому, что:

1) оценки регрессионных коэффициентов являются несмещенными и состоятельными, но не являются наиболее эффективными среди всех МНК-оценок

2) не получается правильно оценить значимость регрессионных коэффициентов, потому что мы неверно оцениваем дисперсию b^. В итоге мы не можем проверять гипотезы на основе такой регрессионной модели, т.к., возможно, будем признавать значимыми незначимые коэффициенты.

Причины гетероскедастичности:

1) есть неучтенный фактор (omitted variable)

2) зависимость между y и предикторами нелинейная (называется неверная функциональная форма регрессии)

3) используются данные, полученные по разной методике

4) среди наблюдений есть «выбросы»