Методические положения проведения регрессионного анализа.

1 этап. Первым этапом составления прогноза проводится анализ зависимости между двумя переменными с помощью метода наименьших квадратов. Для наглядного изображения исходных данных, дальнейшего анализа и прогнозирования составляется диаграмма рассеивания исходных данных. Оценивается выборочный коэффициент корреляции, по результатам расчетов необходимо сделать соответствующие выводы.

2 этап. Построение прямой регрессии с помощью метода наименьших квадратов.

Для набора пар данных X Y в качестве прямой наилучшего приближения будет выбираться такая, для которой наименьшее значение принимает сумма квадратов расстояний от точек (х, у) из заданного набора данных до этой прямой, измеренных в вертикальном направлении (по оси Y). Эта прямая называется прямой регрессии, а ее уравнение — уравнением регрессии.

Уравнение прямой приближения имеет вид . Первый параметр называется свободным членом, а второй угловым коэффициентом, отражающим величину, на которую изменяется значение Y при увеличении X на единицу. Таким образом, необходимо определить данные параметры.

Построение прямой регрессии проводится с помощью критерия наименьших квадратов.

 

(4.1)

, (4.2)

, (4.3)

где -свободный член;

-угловой коэффициент;

SSE – сумма квадратов ошибок.

 

Как можно предположить, значение углового коэффициента связано с выборочным коэффициентом корреляции. В данном случае получается следующее:

 

. (4.4)

 

Значит и b0 пропорциональны друг другу и имеют один и тот же знак.

Разности между фактически полученными значениями Y и вычисленными по уравнению регрессии соответствующими значениями прогнозов называются отклонениями. Отклонения — это расстояния по вертикали (положительные или отрицательные) от точек, отмеченных по исходным данным, до прямой регрессии.

Можно сказать, что величины прогноза являются моделируемыми значениями рассматриваемых данных, а отклонения показывают отличие от ожидаемой модели. Разделение на прогноз и отклонение применяется и в тех ситуациях, когда рассматривается модель, отличная от прямой линии.

В модели простой линейной регрессии зависимая величина Y является суммой ее ма­тематического ожидания и случайного отклонения ε. Значения ε отражают возможную вариацию величин Y, в них скрыто влияние различных ненаблюдаемых факторов.

 

3 этап. Определение стандартной ошибки оценки.

Имея прямую регрессии, можно определить, насколько сильно точки исходных данных отклоняются от прямой регрессии. Можно выполнить оценку разброса, аналогичную стандартному отклоне­нию выборки. Этот показатель, называемый стандартной ошибкой оценки, измеряет степень отличия реальных значений Y от оцененной величины . Она обозначается через и вычисляется по следующей формуле:

 

. (4.5)

 

Стандартная ошибка оценки подобна стандартному отклонению. Ее можно использовать для оценки стандартного отклонения совокупности. Фактически оценивает стандартное отклонение σ слагаемого ошибки в статистической модели простой линейной регрессии. Другими словами оценивает общее стандартное отклонение σ нормального распределения значений Y, имеющих математические ожидания + ε для каждого X.

Если стандартная ошибка оценки велика, точки данных могут значительно удаляться от прямой.

Для удобства вычислений уравнение (4.5) можно привести к следующему виду:

 

. (4.6)

 

4 этап. Прогнозирование величины Y.

Регрессионную прямую можно использовать для оценки величины переменной Y при данных значениях переменной X. Чтобы получить точечный прогноз, или предсказание для данного значения X, необходимо вычислить значение найденной функции регрессии в точке X.

Есть два источника неопределенности в точечном прогнозе, использующем уравне­ние регрессии.

1. Неопределенность, обусловленная отклонением точек данных от выборочной прямой регрессии.

2. Неопределенность, обусловленная отклонением выборочной прямой регрессии от регрессионной прямой генеральной совокупности.

Интервальный прогноз значений переменной Y можно построить так, что при этом будут учтены оба источника неопределенности.

Стандартная ошибка прогноза дает меру вариативности предсказанного значения Y около истинной величины Y для данного значения X. Стандартная ошибка прогноза равна следующему:

 

; (4.7)

 

. (4.8)
Первое слагаемое под первым радикалом в уравнении 5.7 дает меру отклонения точек данных от выборочной прямой регрессии (первый источник неопределенности). Второе слагаемое измеряет отклонение выборочной прямой регрессии от регресси­онной прямой генеральной совокупности (второй источник неопределенности). Отметим, что стандартная ошибка прогноза зависит от значения X, для которого прогнозируется величина Y. Также следует отметить, что минимально, когда X = , поскольку тогда чис­литель в третьем слагаемом под корнем в уравнении 4.7 будет = 0 . При прочих неизменных величинах большему отличию X от соответствует большее значение стандартной ошибки прогноза.

Если статистическая модель простой линейной регрессии соответствует действительности, границы интервала прогноза величины Y равны следующему:

 

tsf ,(4.9)

где t — квантиль распределения Стьюдента с п-2 степенями свободы (df=n-2).

Если выборка велика (n 30), этот квантиль можно заменить соответствующим квантилем стандартного нормального распределения. Например, для большой выборки 95%-ный интервал прогноза задается следующими значениями:

 

. (4.10)

 

5 этап. Разложение дисперсии.

Из уравнения можно выявить следующее:

 

или (4.11)

 

В идеале, когда все точки лежат на прямой регрессии, все остатки равны нулю и значения Y полностью вычисляются или объясняются линейной функцией от X.

Отнимая от обеих частей предыдущего равенства, имеется следующее:

. (4.12)

 

Несложными алгебраическими преобразованиями можно показать, что суммы квадратов складываются:

(4.13)

или

 

SST=SSR+SSE , (4.14)

где SST= , SSR= , SSE= .

 

Здесь SS обозначает "сумма квадратов'' (Sum of Squares), а Т, R, Е — соответственно "общая" (Total), "регрессионная" (Regression) и "ошибки" (Еrrоr). С этими суммами квадратов связаны следующие величины степеней свободы:

· df (SST) = n-1;

· df (SSR) = n;

· df (SSE) = n-2.

 

Так же, как и суммы квадратов, степени свободы связаны следующим соотношением.

n – 1 = 1 + (n-2) . (4.15)

 

Если линейной связи нет, Y не зависит от X и дисперсия Y оценивается значением выборочной дисперсии:

. (4.16)

 

Если, с другой стороны, связь между X и Y имеется, она может влиять на некоторые разности значений Y.

Регрессионная сумма квадратов, SSR, измеряет часть дисперсии Y, объясняемую линейной зависимостью. Сумма квадратов ошибок, SSE, — это оставшаяся часть дисперсии Y, или дисперсия Y, не объясненная линейной зависимостью.

 

Разложение дисперсии
SST = SSR + SSE
Общая изменчивость Y Изменчивость, объясненная линейной зависимостью Остаток, или необъясненная изменчивость

 

Суммы квадратов, связанные с разложением изменчивости Y, и их соответствующие величины степеней свободы могут быть размещены так, как показано в табл. 4.1, известной как таблица анализа дисперсии или таблица ANOVA (ANalisis Of VArianse).

Таблица 4.1

Таблица ANOVA для прямолинейной регрессии

Источник Сума квадратов Степени свободы Среднеквадратическое отклонение
Регрессия SST MSR = SSR / 1
Ошибки SSE n - 2 MSE = SSE / (n-2)
Общая SSR n - 1  

 

Последний столбец таблицы ANOVA — это среднеквадратичные значения. Среднеквадратичное регрессии, MSRэто регрессионная сумма квадратов, разделенная на их величину степеней свободы. Аналогично среднеквадратичное ошибок, МSЕ — это сумма квадратов ошибок, разделенная на их величину степеней свободы.

Из уравнения 4.8 имеется следующее:

 

, (4.17)

 

 

т.е. равенство МSЕ квадрату стандартной ошибки оценки. Отношение среднеквадратичных значений будет использовано для другой цели в этой главе дальше.

 

6 этап. Определение коэффициента детерминации.

Коэффициент детерминации измеряет долю изменчивости Y, которую можно объяс­нить с помощью информации об изменчивости (разнице значений) независимой пе­ременной X.

Тождество (формула 4.14) приводит к разбиению дисперсии, данному в уравнении 4.15. Для регрессионной прямой данных проводимого прогноза гипотетических точек данных разбиение графически представлено на рис. 4.2.

Если величина Y не зависит от X, специалисту следует ожидать значения Y, близкие к , а разности Y - просто отражают случайные отклонения. Однако в действительности величина Y зависит от X, что демонстрируется функцией регрессии. На рисунке взято значение X, большее , и известно, что X и Y имеют значительную отрицательную корреляцию (r = -0,86). Общее расстояние по вертикали равно Y - ,величина - , следовательно "объясняется" изменением X,тогда как оставшееся по вертикали расстояние Y - "не объясняется" изменением X.

Показатель SST измеряет общую вариацию относительно , а ее часть, объясненная изменением X, соответствует SSR. Оставшаяся, или необъясненная вариация соответствует SSE. Отношение объясненной вариации к общей называется выборочным коэффициентом детерминации и обозначается r2.

(4.18)

 

 

Рис. 4.2. Объясненная и необъясненная дисперсии для данных прогноза