Частные коэффициенты регрессии

Чтобы понять значение частного коэффициента регрессии, расмотрим случай с двумя нез висимыми переменными:

Y =a+b,X2+b2X2

Во-первых, отметим, что величина частного коэффициента регрессии независимой пер менной, в основном, отличается от коэффициента двумерной регрессии той же переменно Другими словами, частный коэффициент регрессии Ь} отличается от коэффициента регресс Ъ, полученного при установлении зависимости Гтолько от переменной Х}. Это происходит п тому, что Xj и Х2 обычно взаимосвязаны. В парной регрессии Х2 не принимают во внимание, любое изменение вариации в Y, за которую совместно отвечают Х} и Х2, относят на счет Х}. О, нако в случае нескольких независимых переменных это несправедливо.

Интерпретация частного коэффициента регрессии bj заключается в том, что он представля ожидаемое изменение величины У, когда X, изменяется на единицу, а Х2 остается постоянной, т управляемой (контролируемой) переменной. В отличие от этого, Ь2 представляет ожидаемое изм нение Г при изменении Х2 на единицу, когда X, остается постоянной. Поэтому названия Ь, и Ь2 частные коэффициенты регрессии, соответствуют действительности. Кроме того, результаты с вместного влиняия X, и Х2на К суммируются. Иначе говоря, если каждую из переменных Х1 и изменить на единицу, то ожидаемое изменение значения Убудет равно (bl + Ь2).

Логически, зависимость между коэффициентом парной регрессии и частным коэффицие] том регрессии можно проиллюстрировать следующим образом. Предположим, что мы исключи; эффект от влияния Х2из Xt. Это можно сделать, установив регрессию Х1 по Х2. Иначе говоря, мо> но воспользоваться уравнением Xl = a + ЬХ2 и вычислить остаточный член ХГ = (Х}- X,). Тог, частный коэффициент регрессии bj станет равным коэффициенту парной регрессии /?, пол ченному из уравнения Y = a + ЬХГ. Таким образом, частный коэффициент регрессии Ъ1 равс коэффициенту парной регрессии b между переменной 7 и остаточным значением переменнс Х19 не учитывая эффекта от влияния переменной Xt. Частный коэффициент регрессии Ь2 ш терпретируем аналогично.

Распространение этого примера на случай с k переменными не вызывает затруднений. Ч стный коэффициент регрессии Ь} представляет ожидаемое изменение У, когда Х1 изменяется i единицу, а переменные от Х2 до Xk остаются неизменными. Это можно интерпретировать ю коэффициент парной регрессии b для регрессии переменной /от остаточных значений пер менной Xj при исключенных эффектах переменных от Х2 до Xk.

"Бета"-коэффициенты являются частными коэффициентами регрессии, полученными п< еле того, как перед оценкой уравнения регрессии, все переменные (Y, Xh Х2,... Xk,) нормиров ны с получением их среднего значения, равного нулю, и дисперсии, равной 1. Связь меж; нормированным и ненормированным коэффициентами та же, что и рассмотренная ранее:

 

Отрезок, отсекаемый на оси OY, и частный коэффициент регрессии определяют решением системы уравнений, выведенной дифференцированием и приравниванием к нулю частных троизводных. Поскольку эти коэффициенты можно вычислить с помощью разных компью­терных программ, мы не будем вдаваться в детали. Однако стоит отметить, что уравнения решить, если размер выборки п меньше или равен числу независимых переменных k\ одна независимая переменная тесно связана с другой.

Предположим, что при объяснении зависимости отношения к городу от длительности троживания в нем, мы сейчас введем вторую переменную— погодные условия. Данные, полу-1енные от 12 респондентов и касающиеся отношения к городу, длительности проживания в и погодных условий, приведены в табл. 17.1. Результаты множественного регрессионного шализа даны в табл. 17.3. Значение частного коэффициента регрессии для переменной Xj (длительность проживания), равное 0,4811, теперь отличается от значения, полученного в ана­лизе парной регрессии. Соответствующий "бета"-коэфициент равен 0,7636. Частный коэффи­циент регрессии для переменной Х2 (погодные условия) равен 0,2887 с "бета"-коэффициентом, равным, 0,3138.

Теоретическое уравнение регрессии имеет вид:

I (f ) = 0,33732 + 0,48108 Xt + 0,28865 Х2 или

гношение к городу = 0,33732 + 0,48108 (длительность проживания) + 0,28865 (погодные (условия)

Таблица 17.3. Множественная регрессия Коэффициент множественной корреляции Коэффициент детерминации R2 Скорректированный R2 Стандартная ошибка уравнения регрессии Дисперсионный анализ 0,97210 0,94498 0,93276 0,85974
Степени свободы Регрессия 2 Остаток 9 F = 77,29364 Значимость F = 0,0000 Сумма квадратов Средний квадрат 114,26425 57,13213 6,65241 0,73916
Переменные в уравнении Переменная Ь SEb Бета, & Т Значимость Т
Погодные условия 0,28865 0,08608 Длительность 0,48108 0,05895 (Константа) 0,33732 0,56736 0,31382 3,353 0,0085 0,76363 8,160 0,0000 0,595 0,5668

Это уравнение можно использовать для разных целей, включая предсказание отношения к городу при заданных длительности проживания в нем и отношения респондента к погодным условиям региона.

 

Теснота связи

Степень тесноты связи определим, используя соответствующие показатели связи меж, переменными. Полную вариацию можно разложить (как и для парной регрессии) следу! щим образом:

се = ее _j_ ее

Lj^Jy ^^ pe/peccuu ^° '° * о

где

Остаточная

Тесноту связи измеряют, возводя в квадрат коэффициент множественной корреляции, п лучая коэффициент множественной детерминации R2

Коэффициент множественной корреляции R можно рассматривать как линейный коэ( фициент корреляции г между У и Y . Следует сделать несколько замечаний относителы определения R2. Коэффициент множественной детерминации R2 не может быть меньше, Ч( самое высокое значение г2 любой отдельной независимой переменной с зависимой переме] ной. Значение Л2 больше, когда корреляция между независимыми переменными слабее. Е ли независимые переменные статистически независимы (не коррелированы), то значение представляет собой сумму коэффициентов парной детерминации каждой независимой п ременной с зависимой переменной. Значение R2 не может уменьшаться при добавлении н зависимых переменных в уравнение регрессии. Однако снижение влияния зависимости к эффициента детерминации от количества переменных устанавливается таким образом, ч после введения нескольких первых переменных дополнительные независимые перемени! не вносят такой большой вклад в значение коэффициента детерминации [16]. Поэтому корректируют с учетом числа независимых переменных и размера выборки, используя ел дующую формулу:

k(\-R2}

Скорректированный R = R2 -- ^ - '-

n-k-\

Для данных регрессии, приведенных в табл. 17.3, значение R2 равно

R2_

114,2643

" '

(114,2643 + 6,6524)

Это значение выше, чем значение г2, равное 0,8762, полученное для парной регрессии. Зн чение г2 парной регрессии представляет собой квадрат простого коэффициента корреляции м жду отношением к городу и длительностью проживания в нем. Значение R2, полученное множественной регрессии, также выше, чем квадрат простого коэффициента корреляции ме; ду отношением к городу и отношением к погодным условиям (которое определено как 0,537< Скорректированный коэффициент детерминации /Допределен следующим образом:

- 0,9450-2(1,0-0,9450) Скорректированный R~ = - Ь - : - / = q 9328

12-2-1

Обратите внимание, что значение скорректированного коэффициента детерминации близко к значению обычного коэффициента детерминации R2n их значение больше, чем у к эффициента детерминации г2 для парной регрессии. Это означает, что добавление второй нез

{симой переменной — погодные условия, вносит определенный вклад в вариацию перемен­ой — отношение к городу.

(роверка значимости

Проверка значимости включает проверку значимости общего уравнения регрессии и кон-ретных частных коэффициентов регрессии. Нулевая гипотеза для проверки общего уравнения 1сит, что коэффициент множественной детерминации для генеральной совокупности равен нулю:

Я

. D2 — Q

J- -** совокупи

Это эквивалентно следующей нулевой гипотезе

Общую проверку можно выполнить, используя /"-статистику

оторая имеет /'-распределение с k и (п - k - 1) степенями свободы [17]. Результаты проверки аны в табл. 17.3 114,2643/2

R2/k

F=-

- = 77,2944,

6,6524/9

оторая является значимой при а = 0,05.

Если общую нулевую гипотезу отклоняют, то один или несколько частных коэффициентов егрессии в совокупности имеют значение, отличное от нуля. Чтобы определить, какие из кон-.ретных коэффициентов Д отличны от нуля, выполним дополнительные проверки. Проверку начимости Д выполним тем же способом, что и в случае парной регрессии, т.е. используя t-татистику. Значимость частного коэффициента для переменной — погодные условия — мож-ю выполнить с помощью уравнения

t_ Ь _ 0,2887 _3353

SEb 0,08608

:оторое подчиняется /-распределению с (п — k — 1) степенями свободы. Этот коэффициент ста-истически значим при уровне значимости ос = 0,05. Значимость коэффициента для перемен-•юй — длительность проживания, проверяют аналогичным образом и находят, что он стати-тически значимый. Следовательно, обе переменные: погодные условия и длительность про-кивания, имеют значение при объяснении отношения респондента к своему городу.

Ряд компьютерных программ позволяют проводить расчет /^-критерия, что зачастую назы­вается вычислением частного .Г-критерия. Такой расчет включает разложение суммы квадратов >бщей регрессии SSpcrp на компоненты, соответствующие каждой независимой переменной. 3 обычном подходе эту процедуру осуществляют при допущении, что каждую независимую переменную добавляют в уравнение регрессии после включения в него всех других независи­мых переменных. Приращение к объясняемой сумме квадратов, получаемое после добавления независимой переменной Xi9 представляет собой компонент вариации, присущий этой пере­менной и обозначаемый 55^ [18]. Значимость частного коэффициента регрессии для этой пе-земенной (3( проверяют, используя .Г-статистику приращения:

F=-

SSXi/l

которая имеет /'-распределение с 1 и (п - k - 1) степенями свободы. В то время как высокое значение R2 и значимые частные коэффициенты регрессии достаточно удобны, эффективность регрессионной модели должны быть оценена анализом остатков.

Анализ остатков

Остаток, остаточный член (residual) — это разность между наблюдаемым значением Yf и те ретическим значением, предсказанным регрессионным уравнением Y{ .