Тема № 10 Множественная линейная регрессия

Экономические показатели обычно зависят не от одного, а от нескольких факторов. Модель множественной линейной регрессии является обобщением линейной регрессии:

,

где у – зависимая переменная, х1, х2, ….хк - объясняющие переменные, α, β1, … βк –коэффициенты регрессии, ε – случайная компонента.

Это уравнение можно записать в компактной форме в виде матрицы:

Y =Xβ +ε.

В модели множественной линейной регрессии метод наименьших квадратов представляет собой обобщение МНК для парной линейной регрессии.

Оцененное уравнение множественной линейной регрессии для всех наблюдений:

ŷ =α+β1хi1 + β2xi2+….+ βkxik, i= 1,2,…,n

Оцененное уравнение в матричной форме: Ŷ =Xβ.

МНК заключается в определении коэффициентов оцененного уравнения из условия минимума суммы квадратов отклонений:

При практическом построении модели линейной регрессии существенен вопрос о значимости ее коэффициентов, вычисленных по конкретной выборке. Обычно формулируются гипотеза о равенстве коэффициентов нулю или о неравенстве. Если абсолютное наблюдаемое значение меньше или равно t-критического, то гипотеза принимается, т.е при определенном уровне значимости коэффициенты значимы.

Критерием качества уравнения регрессии выступает разброс случайной величины у в выборке, на основе которого определяется коэффициент детерминации. Он представляет собой долю вариации зависимой переменной у, объясненную с помощью оцененного уравнения регрессии.

Для оценки значимости коэффициента детерминации используется F-статистика Фишера.

Выдвигается гипотеза о равенстве всех коэффициентов регрессии нулю, при этом альтернативная гипотеза, хотя бы один из коэффициентов отличен от нуля.

Наблюдаемое значение, имеющее распределение Фишера, для множественной регрессии: . Оно сравнивается с критическим значением (таблица Фишера), если наблюдаемое значение больше критического, то коэффициент детерминации считается значимым при выбранном уровне значимости.

Мультиколлинеарность – это значит коррелированность двух или нескольких объясняющих переменных в уравнении регрессии. Следствием мультиколлинеарности является незначимость коэффициентов регрессии. Для определения сильно коррелированных переменных используется матрица частных коэффициентов корреляции. Способы устранения мультиколлинеарности: исключение из уравнения одной или нескольких объясняющих переменных, преобразование переменных.

Кроме проверки значимости коэффициентов и качества уравнения регрессии, необходима проверка выполнения условий Гаусса-Маркова, обеспечивающих несмещенность и эффективность оценок параметров регрессии.

Третье условие Гаусса-Маркова – независимость случайных членов в разных наблюдениях. Если нарушается это условие, т.е. существует связь между случайными переменными, то возникает явление автокорреляции.

В случае положительной автокорреляции, реализация случайного члена εІ для ряда последовательных наблюдений смещают значения зависимой переменной в одном направлении, затем для последовательных наблюдений – в противоположном направлении, потом снова в первоначальном направлении и т.д. При отрицательной автокорреляции каждая реализация случайного члена εІ, как правило, сменяется реализацией случайного члена εІ+1 противоположного знака.

Для обнаружения автокорреляции используется статистика Дарбина - Уотсона: DW = 2 (1-r1).

При положительной автокорреляции DW ≈ 0, при отрицательной DW ≈ 4, при отсутствии DW ≈ 2. Указывают нижнюю и верхнюю границы для критических значений статистики Дарбина - Уотсона. Автокорреляция первого порядка отсутствует, если статистика DW попадает в интервал (du, 4-du). Критерий Дарбина –Уотсона неприменим для моделей, включающих в состав объясняющих переменных лаги зависимой переменной.

Автокорреляцию первого порядка можно устранить простой манипуляцией с моделью.

Выполнение второго условия Гаусса-Маркова - постоянство дисперсии случайного члена εІ – это случай гомоскедастичности.

Если дисперсия случайного члена меняется от наблюдения к наблюдению, то мы имеем дело с гетероскедастичностью. При гетероскедастичности оценки коэффициентов регрессии несмещенные, но неэффективные, следовательно, коэффициенты регрессии не будут значимыми. Для обнаружения гетероскедастичности используются тест Голдфелда – Квандта, а также взвешенные и логарифмические регрессии.

Если дисперсия случайного члена меняется от наблюдения к наблюдению , то мы имеем дело с гетероскедастичностью.

Основная литература: [4, С.90-175], [10], [14]

Дополнительная литература: [20],[22],[23],[25], [32]