ОЦЕНКА НАДЕЖНОСТИ РЕЗУЛЬТАТОВ МНОЖЕСТВЕННОЙ РЕГРЕССИИ И КОРРЕЛЯЦИИ
Значимость уравнения множественной регрессии в целом, так же как и в парной регрессии, оценивается с помощью -критерия Фишера:
где – факторная сумма квадратов на одну степень свободы;
– остаточная сумма квадратов на одну степень свободы;
– коэффициент (индекс) множественной детерминации;
– число параметров при переменных
(в линейной регрессии совпадает с числом включенных в модель факторов);
– число наблюдений.
Пример. Предположим, что модель урожайности пшеницы (ц/га) от количества внесенных минеральных удобрений на 1 га
(ц) и осадков
(мм) характеризуется следующим уравнением;
.
При этом ,
,
. Результаты дисперсионного анализа оказываются следующими (см. табл.).
Результаты дисперсионного анализа
Источники вариации | Число степеней свободы | Сумма квадратов, ![]() | Дисперсия на одну степень свободы, ![]() | ![]() | ![]() |
Объясненная за счет регрессии | 86,7 | 21,675 | 16,27 | 2,76 | |
Остаточная | 33,3 | 1,332 | 1,00 | – | |
Общая | 120,0 | – | – | – |
;
;
.
Так как фактическое значение -критерия при
превышает табличное, то уравнение статистически значимо. Этот же результат получим, воспользовавшись приведенной ранее формулой
-критерия:
Оценивается значимость не только уравнения в целом, но и фактора, дополнительно включенного в регрессионную модель. Необходимость такой оценки связана с тем, что не каждый фактор, вошедший в модель, может существенно увеличивать долю объясненной вариации результативного признака. Кроме того, при наличии в модели нескольких факторов они могут вводиться в модель в разной последовательности. Ввиду корреляции между факторами значимость одного и того же фактора может быть разной в зависимости от последовательности его введения в модель. Мерой для оценки включения фактора в модель служит частный -критерий, т. е. .
Частный -критерий построен на сравнении прироста факторной дисперсии, обусловленного влиянием дополнительно включенного фактора, с остаточной дисперсией на одну степень свободы по регрессионной модели в целом.
В общем виде для фактора частный
-критерий определится как
Предположим, что оцениваем значимость влияния как дополнительно включенного в модель фактора. Используем следующую формулу:
где – коэффициент множественной детерминации для модели с полным набором факторов;
– тот же показатель, но без включения в модель фактора
;
– число наблюдений;
– число параметров в модели (без свободного члена).
Если оцениваем значимость влияния одного фактора после включения в модель факторов другого для линейной двухфакторной регрессии, то формула частного -критерия примет вид:
;
В числителе формул (2) – (4) показан прирост доли объясненной вариации за счет дополнительного включения в модель соответствующего фактора.
В знаменателе доля остаточной вариации по регрессионной модели, включающей полный набор факторов.
Фактическое значение частного -критерия сравнивается с табличным при 5%-ном или 1%-ном уровне значимости и числе степеней свободы: 1 и
. Если фактическое значение превышает табличное, то дополнительное включение фактора
в модель статистически оправданно и коэффициент чистой регрессии
при факторе
статистически значим. Если же фактическое значение
-критерия меньше табличного, то дополнительное включение в модель фактора
не увеличивает существенно долю объясненной вариации признака
, следовательно, нецелесообразно его включение в модель; коэффициент регрессии при данном факторе в этом случае статистически незначим.
С помощью частного -критерия можно проверить значимость всех коэффициентов регрессии в предположении, что каждый соответствующий фактор
вводился в уравнение множественной регрессии последним.
Частный -критерий оценивает значимость коэффициентов чистой регрессии. Зная величину
, можно определить и
-критерий для коэффициента регрессии при
-м факторе,
, a именно:
Оценка значимости коэффициентов чистой регрессии по -критерию Стьюдента может быть проведена и без расчета частных
-критериев. В этом случае, как и в парной регрессии, для каждого фактора используется формула
где – коэффициент чистой регрессии при факторе
;
– средняя квадратическая ошибка коэффициента регрессии
.
Для уравнения множественной регрессии
средняя квадратическая ошибка коэффициента регрессии может быть определена по следующей формуле:
где – среднее квадратическое отклонение для признака
;
– среднее квадратическое отклонение для признака
;;
– коэффициент детерминации для уравнения множественной регрессии;
– коэффициент детерминации для зависимости фактора
, со всеми другими факторами уравнения множественной регрессии.
Как видим, чтобы воспользоваться данной формулой, необходимы матрица межфакторной корреляции и расчет по ней соответствующих коэффициентов детерминации . Так, для уравнения
оценка значимости коэффициентов регрессии предполагает расчет трех межфакторных коэффициентов детерминации, а именно:
,
,
.
Аналогично можно оценивать и существенность частных показателей корреляции. Фактическое значение частного коэффициента корреляции сравнивается с табличным значением при или
и числе степеней свободы
, где
– число наблюдений,
– число исключенных переменных. Так, если
и оценивается существенность частного коэффициента корреляции второго порядка (например,
), то
и
.
Если является наивысшим порядком расчета частных коэффициентов корреляции для уравнения регрессии, то практически величина
совпадает с числом степеней свободы для остаточной вариации с
. Если же уравнение регрессии дополняется расчетом частных коэффициентов корреляции разных порядков (второго, третьего и т. п.), то
Если величина частного -критерия выше табличного значения, то это означает одновременно не только значимость рассматриваемого коэффициента регрессии, но и значимость частного коэффициента корреляции. Существует взаимосвязь между квадратом частного коэффициента корреляции и частным
-критерием, а именно:
Взаимосвязь показателей частного коэффициента корреляции, частного F-критерия и
-критерия Стьюдента для коэффициентов чистой регрессии может использоваться в процедуре отбора факторов. Отсев факторов при построении уравнения регрессии методом исключения практически можно осуществлять не только по частным коэффициентам корреляции, исключая на каждом шаге фактор с наименьшим незначимым значением частного коэффициента корреляции, но и по величинам
и
. Частный
-критерий широко используется и при построении модели методом включения переменных и шаговым регрессионным методом.