Использование фиктивной переменной во множественной регрессии

⇐ Назад

Качественные признаки:

· Пол

· Профессия

· Образование

· Климатические условия

· Принадлежность к какому-либо региону

Чтобы ввести эти признаки в модель, им присваивают цифровые метки, т.е. качеств.-е переменные преобразуют в колич.-е. Такого вида переменные в эконометрике принято называть фиктивными переменными.

Рассмотрим применение фиктивных переменных для ф-ции спроса (D). Пусть по группе лиц М и Ж пола изучается зависимость потребления кофе (у) от цены (х).

у=а+bx

Если мы хотим получить уравнения для М и Ж отдельно,то: у1=а1+b1x1

У2=а2+b2x2.

Тогда различия в потреблении проявятся в различии средних величин ӯ1и ӯ2. Вместе с тем сила влияния фактора не результат может оказаться примерно одинаковой, т.е. b≈b1≈b2. В этом случае возможно построение общего уравнения регрессии с включением в него фактора «пол» в виде фиктивной переменной. Ур-ние тогда будет иметь вид: у= А+А1z1+bx1

z1- принимает значение 1 для М и 0 для Ж: z1= 1 – М

0 - Ж

Зависимость потребления кофе для М: у= А+А1+bx, для Ж: у= А+bx. Различия будут состоять лишь в разнице свободного члена.

Если число градаций качественного признака >2, то в модель вводится несколько фиктивных переменных, число кот.д. б. < числа качественных градаций на 1. В этом случае возможна оценка параметров модели с помощью МНК.

21.Мультиколлинеарность факторов- понятие, проявление и меры устранения

Мультиколлениарность факторов – тесная корреляционная взаимосвязь между отбираемыми для анализа факторами, совместно воздействующими на общий результат, которая затрудняет оценивание регрессионных параметров

Мульт-ность. ф – наличие высокой линейной связи между всеми или несколькими факторами.

Причинами возникновения мультиколлинеарности между признаками являются:

1. Изучаемые факторные признаки, характеризуют одну и ту же сторону явления или процесса. Например, показатели объема производимой продукции и среднегодовой стоимости основных фондов одновременно включать в модель не рекомендуется, так как они оба характеризуют размер предприятия;

2. Использование в качестве факторных признаков показателей, суммарное значение которых представляет собой постоянную величину;

3. Факторные признаки, являющиеся составными элементами друг друга;

4. Факторные признаки, по экономическому смыслу дублирующие друг друга.

5. Одним из индикаторов определения наличия мультиколлинеарности между признаками является превышение парным коэффициентом корреляции величины 0,8 (rxixj) и др.

Наличие мультиколлинеарности факторов может означать, что некоторые факторы будут всегда действовать в унисон, и в результате нельзя будет оценить воздействие каждого фактора в отдельности.

Включение в модель мультиколлинеарных факторов нежелательно в силу следующих последствий:

1) оценки параметров становятся ненадежными, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только в величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

2) затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированны; параметры линейной регрессии теряют экономический смысл;

3) нельзя определить изолированное влияние факторов на результативный показатель.

Для оценки мультиколлинеарности факторов может использоваться определитель матрицы парных коэффициентов корреляции между факторами. Чем ближе к 0 определитель матрицы межфакторной корреляции, тем сильнее мультиколлениарность факторов и ненадежнее результаты множественной регрессии. Чем ближе определитель к 1 – тем ниже мультиколлениарность.

Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются неинтерпретируемыми.

Существуют различные подходы преодоления сильной межфакторной корреляции. Простейший из них - исключение из модели фактора (или факторов), в наибольшей степени ответственных за мультиколлинеарность при условии, что качество модели при этом пострадает несущественно (а именно, снизится несущественно).

22. Гетероскедастичность – понятие, проявление и меры устранения

Дисперсия - среднее арифметическое из квадратов отклонений наблюденных значений (x1, x2,...,xn) случайной величины от их среднего арифметического. Гомоскедастичность остатков означает, что для каждого значения фактора xj остатки имеют одинаковую дисперсию. Если это условие применения МНК не соблюдается, то имеет место гетероскедастичность. Наличие гетеродастичности можно наглядно видеть из поля корреляции.

а — дисперсия остатков растет по мере увеличения х;

б — дисперсия остатков достигает максимальной величины при средних значениях переменной х и уменьшается при минимальных и максимальных значениях х;

в — максимальная дисперсия остатков при малых значениях х и дисперсия остатков однородна по мере увеличения значений х.

Наличие гомоскедастичности или гетероскедастичности можно видеть и по графику зависимости остатков от теоретических значений результативного признака .

Большая дисперсия для больших значений .

Гетероскедастичность будет сказываться на уменьшении эффективности оценок .В частности, становится затруднительным использование формулы стандартной ошибки коэффициента регрессии , предполагающей единую дисперсию остатков для любых значений фактора. Практически при нарушении гомоскедастичности мы имеем неравенства:

или

При этом величина может меняться при переходе от одного значения фактора к другому. Это означает, что сумма квадратов отклонений для зависимости при наличии гетероскедастичности должна иметь вид:

При минимизации этой суммы квадратов отдельные ее слагаемые взвешиваются: наблюдениям с наибольшей дисперсией придается пропорционально меньший вес.

Задача состоит в том, чтобы определить величину и внести поправку в исходные переменные. С этой целью рекомендуется использовать обобщенный метод наименьших квадратов, который эквивалентен обыкновенному МНК, примененному к преобразованным данным. Чтобы убедиться в необходимости использования обобщенного МНК, обычно не ограничиваются визуальной проверкой гетероскедастичности, а приводят ее эмпирическое подтверждение.

При малом объеме выборки для оценки нарушения гомоскедастичности можно использовать метод Гольдфельда-Квандта, который включает:

1.Упорядочение наблюдений n по мере возрастания переменной х.

2. Исключения из рассмотрения центральных наблюдений C; при этом где p – число оцениваемых параметров.

3. Разделение совокупности на две группы (с малыми и большими значениями фактора х) и определение по каждой из групп уравнений регрессии.

4. Определение остаточной суммы квадратов для обеих групп и и нахождение их отношения: При выполнении нулевой гипотезы о гомоскедастичности отношение R будет соответствовать F-критерию с степенями свободы для каждой остаточной суммы квадратов. Чем больше величина R превышает табл. значение F-критерия, тем больше нарушена предпосылка о равенстве дисперсий остаточных величин.

Вопрос 23 ОМНК при построении модели регрессии

Дисперсия остатков гомоскедостична, если для каждого фактора x_i остатки E_iимеют одинаковую дисперсию. Если это условие МНК не соблюдается, то имеет место гетероскедостичноть. При нарушении гомоскедостичности и наличии автокорреляции ошибок необходимо традиционный метод наименьших квадратов заменить обобщенным МНК.

Обобщенный метод применяется к преобразованным данным и позволяет получать оценки которые обладают свойством несмещенности.

Предположим, что среднее значение остаточных величин = 0, а дисперсия пропорциональна величине k_i

σ_E²=k_i*σ²

То есть дисперсия остатков (σ_E²) при конкретном i значении фактора

σ²– постоянная дисперсия ошибки при соблюдении предпосылки о гососкедостичности остатков

k_i – коэф. Пропорциональности, меняющийся с изменением величины фактора и обуславливающий неоднородность дисперсии, при этом σ² - неизвестна, а в отношении величины Ki выдвигаются определенные гипотезы, характеризующие структуру гетероскедастичности, т.е. неоднородности остатков. Тогда уравнение y_i=a+b*x_i+E_i примет вид: y=a+b*x+ *E_i

в этой модели остаточные величины гетероскедостичны.

Предположим отсутствуе автокорреляции остатков и перейдем к уравнению с гомоскедастичными остатками, поделив все переменные зафискированные в ходе I наблюдения на

Тогда дисперсия остатков будет величиной постоянной, то есть перейдем к уравнению регрессии в следующем виде:

y_i/ = a/ + b*x_i/ + E_i

Где матрица исходных данных для результативного признака будет иметь вид:

Y₁/	X₁/
Y₂/	X₂/
…	…
Y_m/	X_m/

y/ =f(x/ )

По отношению к обычной регрессии уравнение с новыми преобразованными переменными представляет собой взвешенную регрессию с весами 1/

Поэтому оценка параметров нов уравнения с преобразованными переменными приводит к взвешенному МНК, для кот необходимо минимизировать сумму квадратов отклонений вида:

Σ(y_i-a+b*x_i)²min

Мы получим след систему норм уравнений:

1.∑y_i/K_i=a*∑1/K_i+b*∑x_i/K_i

2.∑y_i*x_i/K_i=a*∑x_i/K_i+b*∑x_i²/K_i

Аналогичный подход возможен и для уравнений множественной регрессии y=a+b₁x₁+b₂x₂+E, для которой дисперсия остаточных величин пропорциональна K_i², то есть E_i²=k_i²* σ²

Тогда модель примет вид: y=a+b₁x₁+b₂x₂+E*k_i

Чтобы получить уравнение с гомоскедостичными остатками перейдем к новым преобразованным переменным разделив все члены исходного уравнения на коэф пропорциональности K.

Уравнение с преобразованными переменными будет иметь следующий вид:

Y/k_i= a/k_i+ b₁*x₁/k_i+ b₂*x₂/k_i+ E_i Дальше как в обычном МНК

При использовании этого метода мы вынуждены переходить к относительным величинам, которые существенно снижают вариацию фактора и соответственно уменьшают дисперсию ошибки, т.е. это наиболее простой способ учета гетероскедостичности в регрессионных моделях.

Вопрос 24 Общее понятие о системах уравнений, используемых в эконометрике

При использовании отдельных уравнений регрессии для экономических расчетов предполагает что факторы можно изменять независимо друг от друга. Однако изменение одного из факторов ведет к изменениям во всей системе взаимосвязанных признаков. Поэтому используют системы так называемых одновременных уравнений, которые также называются структурными уравнениями.

Система уравнений может быть построена разными способами:

1) Систиема независимых уравнений: когда каждая зависимая переменная У рассматривается как функция одного и того же набора факторов Х.

Y₁=a₁₁x₁+a₁₂x₂+…a_1nx_n+E₁

Y₂=a₂₁x₁+a₂₂x₂+…+a_2nx_n+E₂

_…

Y_m=a_m₁x₁+a_m₂x₂+…+a_mnx_n+E_n

Каждое независимое уравнение системы рассматривается как самостоятельное.

Для нахождения параметров в уравнениях используется МНК. (пример - модель эконом эффективности с/х производства.)

2) Система рекурсивных уравнений (когда зависимая переменная одного уравнения выступает в виде фактора Х в другом уравнении).

Y₁=A₁₁X₁+A₁₂X₂+…+A_1nX_n+E₁
Y₂=B₂₁y₁+A₂₁X₁+ …+A_2nX_n+E₂
Y₃=B₃₁y₁+B₃₂y₂+ A₃₁X₁+…+A_3nX_n+E₃

…
Y_m=B_m1y₁+…+B_mm-1Y_m-1+A_m1X₁+…+A_mnX_n+E_m

Каждое уравнение может быть рассмотрено самостоятельно.

Параметры определяются методом МНК. (пример - модель производительности труда и фондоотдачи)

3) Система взаимозависимых уравнений (наибольшее распространение).В ней одни и те же зависимые переменные в одних уравнениях входят в левую часть, другие - в правую.
Y₁=B₁₁Y₂+B₁₂Y₃+…+B_1mY_m+1+A₁₁X₁+…+A_1nX_n+E₁

Y₂=B₂₁Y₁+B₂₂Y₃+…+B_2mY_m+1+A₂₁X₁+…+A_2nX_n+E₂
Y₃=B₃₁Y₁+B₃₂Y₂+…+B_3mY_m+1+A₃₁X₁+…+A_3nX_n+E₃

…
Y_m+1=B_m+₁₁Y₁+…+B_m+1mY_m+A_m1X₁+…+A_mnX_n+E_m
Получила название системы одновременных (совместных) уравнений: одни и те же переменные Y в одних уравнениях зависимые, а в других - независимые. Такая система называется структурной формой модели. В отличие от предыдущих систем, каждое уравнение не может рассматриваться самостоятельно. МНК не применим. Для определения параметров используются специальные приемы оценивания. (пример - модель динамики цены и з/п)

Вопрос 25 Виды переменных в системах взаимозависимых уравнений

Система совместных одновременных уравнений или структурная форма модели обычно содержит эндогенные и предопределенные переменны.

Эндогенные – зависимые переменные, число которых обычно равно числу уравнений в системе.

Предопределенные – которые влияют на эндогенные переменные, но не зависят от них. Они бывают 2х видов:

1. Экзогенные – которые определены вне системы;

2. Лаговые – эндогенные переменные в предыдущий момент времени.

Y_t=a₁₁x₁+y_t_-1

Y_t_-1 – предопределенная переменная

Структурная форма модели позволяет увидеть влияние изменений любой экзогенной переменной на значение эндогенной переменной. Поэтому в качестве экзогенных переменных целесообразно выбирать такие, которые могут быть объектом регулирования.

Управляя этими переменными можно заранее иметь целевые значения эндогенных переменных.

Классификация переменных на эндогенные и экзогенные зависит от теоретической концепции модели. Экономические переменные могут быть экзогенными в одной модели и эндогенными в другой модели. Внеэкономические переменные (например, климатические условия) – всегда экзогенные.

⇐ Назад

Далее ⇒