Проверка наличия мультиколлинеарности

Проверим наличие мультиколлинеарности, проанализировав коэффициенты парной и частной корреляции.

Рис.5 – Описательная статистика.

Рис.6– Таблица значений парной корреляции.

На рис. 5 видно, что существует нежелательная зависимость от количества ремонтов и количества рейсов. Соответствующие значения парной корреляции составляют r12=0,835; r13=0,755. Коэффициент парной корреляции между факторами Количество ремонтов и Количество рейсов также существует зависимость и составляет r23=0,58. Чтобы избежать мультиколлинеарности, необходимо убрать из уравнения одну из взаимозависимых переменных.

Для того чтобы оценить интенсивность связи между зависимой переменной и одной из независимых при исключении влияния остальных факторов, исследуем коэффициенты частной корреляции.

Рис.7 - Коэффициенты частной корреляции.

На рис. 7 коэффициенты частной корреляции расположены во втором столбце (Partial Cor.). Наблюдается сильная зависимость от количества рейсов (r = 0,47) , а также зависимость от количество ремонтов(r = 0,48). Это значит, что факторы X2 и X3 целесообразно оставить.

Исключим Мультиколлинеарность, которая была обнаружена в таблице парной корреляции (Табл. 3). Исключим фактор X1, т.к. он имеет самый маленький коэффициент частной корреляции с Y.

Аналогично предыдущему построим и проанализируем новое уравнение регрессии.

Рис.8 – Результаты множественной регрессии.

 

Multiple Regression Results

 

Dependent: 6-месячная сто Multiple R = ,80625688 F = 8,358986

R?= ,65005016 df = 2,9

No. of cases: 12 adjusted R?= ,57228353 p = ,008872

Standard error of estimate:235,65331927

Intercept: 343,99503471 Std.Error: 117,4703 t( 9) = 2,9284 p = ,0168

Количество ре beta=,489 Количество ре beta=,418

 

 

Коэффициенты множественной корреляции(0,80626), множественной детерминации (0,6501) немного уменьшились, а наша ситуация немного улучшилась за счет того, что скорректированный коэффициент множественной детерминации (0,5723) немного увеличился. Т.к. в нашей задаче выборка экспериментальных данных мала (n=12), то скорректированному коэффициенту множественной детерминации можно доверять в большей мере, чем коэффициенту множественной детерминации.

Тогда уравнения множественной регрессии будет иметь вид:

Y=343,99 +92,4*Х2+0,04*Х3

Y’=0,48*Х’2+0,42 *Х’3

Рис.9 - Подробная информация о множественной регрессии.

Рис. 10 - Таблица парной корреляции.

 

Рис11. Таблица коэффициентов частной корреляции.

 

Но остается нежелательная сильная зависимость количества ремонтов от количество рейсов (рис. 10). Исключим стоимость и вновь повторим процедуру исследования (рис. 12).

Рис.12. Результаты множественной регрессии.

Dependent: 6-месячная сто Multiple R = ,80625688 F = 8,358986

R?= ,65005016 df = 2,9

No. of cases: 12 adjusted R?= ,57228353 p = ,008872

Standard error of estimate:235,65331927

Intercept: 343,99503471 Std.Error: 117,4703 t( 9) = 2,9284 p = ,0168

Количество ре beta=,418

 

Коэффициенты множественной корреляции (0,80626), множественной детерминации (0,65005) и скорректированный коэффициент множественной детерминации (0,5723) уменьшились. Т.е. наша ситуация ухудшилась при исключении Количества ремонтов.

Тогда наиболее приемлемым является второй вариант модели:

Y=343,99 +92,4*Х2+0,04*Х3

Y’=0,48*Х’2+0,42 *Х’3

Для того чтобы проверить правильность наших рассуждений проведем автоматический анализ множественной регрессии методом прямой пошаговой регрессии.

Рис.13. Результат автоматического анализа множественной регрессии.

 

Multiple Regression Results (Step 2)

Dependent: 6-месячная сто Multiple R = ,80625688 F = 8,358986

R?= ,65005016 df = 2,9

No. of cases: 12 adjusted R?= ,57228353 p = ,008872

Standard error of estimate:235,65331927

Intercept: 343,99503471 Std.Error: 117,4703 t( 9) = 2,9284 p = ,0168

Количество ре beta=,489 Количество ре beta=,418

 

Как видно эта модель совпадает с полученной нами ранее методом обратной пошаговой регрессии.

Анализ остатков.

Оценим степень адекватности модели исследуя остатки

Рис. 14. – Анализ остатков.

 

Dependent: 6-месячная Multiple R : ,80625688 F = 8,358986

R?: ,65005016 df = 2,9

No. of cases: 12 adjusted R?: ,57228353 p = ,008872

Standard error of estimate: 235,65331927

Intercept: 343,99503471 Std.Error: 117,4703 t( 9) = 2,9284 p < ,0168

 

Рис. 15. – Результат анализа остатков

В первом столбце этой таблицы на рис. 15 отображаются наблюдаемые значения переменной Стоимость (Observed Value), во втором – рассчитанные с помощью составленного уравнения множественной регрессии (Predicted Value), а в третьем столбце – вычисленные остатки (Residual).

Для проверки выполнения предпосылки о случайном характере остатков построим график зависимости остатков от теоретического значения y.

Рис. 16 – График зависимости остатков от теоретического значения

На рис. 16 видно, что остатки разбросаны случайным образом внутри горизонтальной полосы, т.е. представляют собой случайные величины. Значит, метод наименьших квадратов оправдан, и теоретические значения y хорошо аппроксимируют фактические значения y.

Для проверки выполнения предпосылки о нулевой средней величине остатков, не зависящей от x, построим графики зависимости остатков от экзогенных переменных, включенных в модель – «Количество ремонтов» и «Количество рейсов ».


Рис. 17 – Графики зависимости остатков от экзогенных факторов.

Из графиков на рис. 17 видно, что остатки (точки на плоскости) хаотично разбросаны относительно прямых регрессии остатков, в их поведении нет закономерностей. Нет оснований говорить, что остатки коррелированны с экзогенными факторами (т.е. предпосылка E(U)=0 (выполняется).

Дисперсия остатков гомоскедастична, т.к. диапазон варьирования остатков не меняется с переходом от одного xi к другому. Значит, третья предпосылка также выполняется.

Для проверки наличия автокорреляции в остатках проведем тест Дарбина-Уотсона.

Рис. 18 – Результаты теста Дарбина-Уотсона.

Для числа наблюдений n=12, количества независимых переменных m=2 и уровня значимости =0,05 находим значения dL=0,81 и dU=1,57.

0 dL=0,81 dU=1,57 2 4- dU=2,43 4- dL=3,19

Полож.коррел. Зона неопр. Отсутствие автокоррел. Зона неопр. Отр.коррел.

Расчетное значение d=1,038, следовательно, попадает в зону неопределенности. Значит, будем считать, что автокорреляция в остатках имеет место, следовательно, четвертая предпосылка не выполняется.

Для проверки выполнения пятой предпосылки рассмотрим график остатков на нормальной вероятностной бумаге.

Рис. 21 – График остатков на нормальной вероятностной бумаге.

На графике можно увидеть, что значения остатков лежат достаточно близко к прямой, поэтому предположение о нормальном распределении ошибок выполнено.

 

Вывод:в результате выполнения лабораторной работы были получены уравнения:

уравнение множественной регрессии в естественной форме:

Y = 375,32-30,405*Х1+113,11*Х2+0,0414*Х3

стандартизированное уравнение:

Y’= - 0,18*Х’1+0,59*Х’2+0,49 *Х’3

Стандартизированное уравнение не имеет размерности параметров, поэтому оно удобно для сравнения степени влияния соответствующих факторов на зависимую переменную.

Был рассчитан средний коэффициент эластичности:

|Эxy2|>|Эxy3|>|Эxy1|- в наибольшей степени на цену влияет "Количество ремонтов" (X2) и "Количество рейсов" (Х3).

Сделали вывод, что наиболее приемлемым является второй вариант модели:

Y=343,99 +92,4*Х2+0,04*Х3

Y’=0,48*Х’2+0,42 *Х’3

Так как коэффициенты множественной корреляции(0,80626), множественной детерминации (0,6501) немного уменьшились, скорректированный коэффициент множественной детерминации (0,5723) немного увеличился.

По анализу предпосылок
1.Случайный. характер остатков- выполняется;

2. Нулевая средняя величина остатков- выполняется;

3.Гомоскедастичность- выполняется;

4.Отсутствие автокорреляции -не выполняется;

5.Остатки подчиненному нормальному распределению- выполняется.