Предпосылки метода наименьших квадратов. Свойства оценок обычного метода наименьших квадратов

Для того чтобы регрессионная модель адекватно описывала исследуемое экономическое явление, необходимо выполнение шести предпосылок метода наименьших квадратов:

1. Возмущение ei (i=1, 2, …, n) есть величина случайная, а факторы X1, X2, …, Xp — величины неслучайные. Это означает, что вектор возмущений e — случайный вектор, а матрица значений факторов X — неслучайная (детерминированная).

Проверка этой предпосылки может проводиться путем визуального анализа графиков остатков от значений факторов X1, X2, …, Xp, либо от предсказанных уравнением регрессии значений результата Y. Остатки считают случайными, если на графике они расположены в виде горизонтальной полосы (рис. 3.1).

рис. 3.1. Модель регрессии со случайными возмущениями

рис. 3.2. Модель регрессии с выбросом в остатках

Анализируя значения остатков, можно выявить и аномальные наблюдения значения результата Y по отношению к другим наблюдениям — выбросы. Такие наблюдения резко отклоняются от значений, предсказываемых уравнением регрессии. Отношение остатка к стандартной ошибке регрессии Sрег (3.17) называется стандартизированным (стандартным) остатком

  (3.32)

где i=1, 2, …, n.

Если стандартизированный остаток превышает по абсолютной величине табличное значение t-критерия Стьюдента tтаб при уровне значимости a и числе степеней свободы (см. приложение 3), то это может свидетельствовать о том, что соответствующее наблюдение результата Y является выбросом (рис. 3.2). Подобным аномальным наблюдениям следует уделять особо пристальное внимание, так как их присутствие может грубо искажать значения оценок истинных параметров модели и статистические характеристики уравнения регрессии.

2. Математическое ожидание возмущения равно нулю ei:

  (i=1, 2, …, n). (3.33)

Другими словами, математическое ожидание вектора возмущений e есть нулевой вектор размера n:

  . (3.34)

Данная предпосылка всегда выполняется для линейных моделей со свободным коэффициентом b0. В этих моделях алгебраическая сумма остатков и, следовательно, их среднее равны нулю:

  . (3.35)

3. Дисперсия возмущения одинакова для всех наблюдений результата Y:

  (i=1, 2, …, n). (3.36)

Это условие называется условием гомоскедастичности (равноизменчивости) возмущений. В матричной форме данная предпосылка имеет вид:

  , (3.37)

где In — единичная матрица n-го порядка.

Нарушение условия гомоскедастичности возмущений, означает, что дисперсия возмущения зависит от значений факторов. Такие регрессионные модели называются моделями с гетероскедастичностью возмущений. Например, при исследовании зависимости стоимости туристической путевки (результативная переменная Y) от среднемесячного дохода клиента туристического агентства (фактор X) можно ожидать, что для более обеспеченных клиентов разброс затрат на отдых выше, чем для менее обеспеченных, и дисперсия возмущений не будет одинаковой для разных значений X (рис. 3.3).

Если имеет место гетероскедастичность возмущений, то оценки параметров модели регрессии обычным методом наименьших квадратов не будут эффективными (их дисперсии не будут наименьшими). Стандартные ошибки коэффициентов уравнения регрессии могут быть заниженными и, при проверке статистической значимости коэффициентов, может быть ошибочно принято решение об их значимом отличии от нуля, тогда как на самом деле это не так.

а) наблюдения и линия регрессии

б) остатки

рис. 3.3. Линейная модель регрессии с гетероскедастичностью возмущений

Выполнение предпосылки 3 может проверяться методом Глейзера в предположении линейной зависимости среднего квадратического отклонения возмущений регрессионной модели s(ei) от предсказанных уравнением регрессии значений результата (i=1, 2, …, n). Для этого по формуле (2.1) рассчитывается коэффициент корреляции между абсолютными величинами остатков и (i=1, 2, …, n). Статистическая гипотеза об одинаковой дисперсии возмущений не отклоняется, если коэффициент корреляции не превышает по абсолютной величине критическое значение для принятого уровня значимости a и числа степеней свободы (см. приложение 1).

Для парной регрессии удобнее исследовать зависимость абсолютной величины остатков от значений фактора X и рассчитывать соответствующий коэффициент корреляции .

4.Возмущения не коррелированны между собой. Это означает, что ковариация между отдельными возмущениями ej и ek (j¹k) равна нулю:

  , (3.38)

где m(ej) и m(ek) равны нулю в силу предпосылки 2.

Матричная форма записи предпосылки 4 имеет вид:

  , (3.39)

где ковариационная матрица возмущений

  , (3.40)

в которой все элементы, не лежащие на главной диагонали, равны нулю, а все элементы, лежащие на главной диагонали, равны одной и той же дисперсии :

  (i=1, 2, …, n). (3.41)

Видно, что матричные записи условий предпосылок 3 и 4 — (3.37) и (3.39) соответственно, совпадают. Если предпосылка 4 не выполняется, то в этом случае говорят, что в модели присутствует автокорреляция возмущений.

Основными причинами автокорреляции могут быть:

· неправильный выбор формы регрессионной зависимости;

· неучет в модели одного или нескольких важных факторов;

· наличие общей тенденции во временных рядах исследуемых переменных при построении модели по временным данным;

· цикличность значений экономических переменных;

· запаздывание изменения значений результата Y по отношению к изменению значений факторов.

При наличии автокорреляции возмущений обычный метод наименьших квадратов дает несмещенные и состоятельные оценки параметров модели, которые, однако, неэффективны (их дисперсии не будут наименьшими). По сравнению с гетероскедастичностью возмущений автокорреляция приводит, наоборот, к завышению стандартных ошибок коэффициентов уравнения регрессии. На основе таких результатов может быть сделан ошибочный вывод о несущественном влиянии исследуемого фактора на зависимую переменную Y, в то время как на самом деле влияние фактора на Y значимо.

Автокорреляция возмущений бывает положительной или отрицательной. Положительная автокорреляция проявляется в том, что завышенные значения возмущений предыдущих наблюдений результата Y приводят к завышению возмущений последующих наблюдений. На графике временного ряда остатков регрессии это выражается, например, в чередовании зон положительных и отрицательных остатков (рис. 3.4). При отрицательной автокорреляции, наоборот, завышенные значения возмущений предыдущих наблюдений занижают возмущения последующих наблюдений, а остатки регрессии «слишком часто» меняют знак (рис. 3.5).

Автокорреляцию возмущений выявляют путем исследования ряда остатков регрессии с помощью разных критериев. Наиболее часто для этой цели используется тест Дарбина–Уотсона, основанный на предположении, что если имеется автокорреляция возмущений, то она присутствует и в ряду остатков регрессии. Тест основан на расчете d‑статистикиДарбина–Уотсона. Если модель строится по временным рядам переменных, то d‑статистика определяется по временному ряду остатков по формуле

  . (3.42)

Значение d-статистики сравнивается с критическими значениями d1 и d2 (приложение 5). При этом могут возникнуть следующие ситуации:

· если , то возмущения признаются некоррелированными;

· если , то имеется положительная автокорреляция возмущений;

· если , то существует отрицательная автокорреляция;

· если или , то это указывает на неопределенность ситуации.

Для пространственных моделей d‑статистика рассчитывается по ряду остатков, который упорядочивается в зависимости от последовательно возрастающих значений результата Y, предсказанных уравнением регрессии.

При неопределенности ситуации для выявления автокорреляции рассчитывается коэффициент автокорреляции остатков первого порядка

  . (3.43)

Статистическая гипотеза об отсутствии автокорреляции возмущений не отклоняется на принятом уровне значимости a, если коэффициент автокорреляции не превышает по абсолютной величине критическое значение (см. приложение 5). В противном случае делают вывод о наличие автокорреляции возмущений: положительной ( ) или отрицательной ( ).

рис. 3.4. Модель регрессии с положительной автокорреляцией возмущений (d=0,63; r(1)=0,675)

 

рис. 3.5. Модель регрессии с отрицательной автокорреляцией возмущений (d=2,96; r(1)=–0,483)

Следует заметить, что понятия «автокорреляция возмущений», «автокорреляция остатков» и «автокорреляция в остатках» являются синонимами.

5. Возмущение ei (i=1, 2, …, n) есть нормально распределенная случайная величина, а вектор возмущений e — нормально распределенный случайный вектор:

  . (3.44)

Выполнение предпосылки может проверяться с помощью R/S‑критерия

  , (3.45)

где — размах вариации остатков; emax, emin — соответственно наибольший и наименьший остатки с учетом знака; Se — среднее квадратическое (стандартное) отклонение ряда остатков:

  (3.46)

(как указывалось выше, для линейных моделей ).

Среднее квадратическое отклонение ряда остатков связано со стандартной ошибкой линейной регрессии соотношением:

  . (3.47)

Статистическая гипотеза о нормальном законе распределения остатков не отклоняется на уровне значимости a, если выполняется неравенство

  . (3.48)

где (R/S)1 и (R/S)2 — критические границы R/S-критерия (приложение 2).

6. Матрица является неособенной (ее определитель не равен нулю). Это означает, что столбцы матрицы значений факторов X должны быть линейно независимыми. Следовательно, матрица X должна иметь максимальный ранг: , где p — число факторов в модели. Кроме того, число наблюдений n должно превосходить ранг матрицы X:

  , (3.49)

поскольку в противном случае невозможно получение сколько-нибудь надежных статистических выводов.

Если не выполняется хотя бы одна из предпосылок метода наименьших квадратов, то это означает, что регрессионная модель не вполне адекватно описывает экономическое явление. В таких случаях приходится корректировать модель: изменять ее форму, добавлять или, наоборот, исключать факторы, преобразовывать исходные данные и т. п.

Модель, для которой выполняются все предпосылки, называется классической нормальной линейной моделью множественной регрессии. При выполнении предпосылок 14 и 6 вектор оценок параметров модели b обладает следующими свойствами:

1. Вектор b есть несмещенная оценка вектора b:

  . (3.50)

2. Вектор b является наиболее эффективной оценкой вектора b (обладает наименьшей дисперсией).

3. Вектор b является состоятельной оценкой вектора b (при увеличении числа наблюдений n увеличивается точность оценки).

Невыполнение предпосылки 5 не позволяет корректно оценить точность уравнения регрессии и его параметров.