ВЫПОЛНЕНИЕ ПАРНОГО РЕГРЕССИОННОГО АНАЛИЗА

Стадии, из которых состоит процедура парного регрессионного анализа, приведены рис. 17.2.

Анализ остаточных членов

Перекрестная проверка модели Рис. 17.2. Парный регрессионный анализ

Предположим, что маркетолог хочет выяснить, зависит ли отношение к городу от длите;] ности проживания в нем (см. табл. 17.1). При выводе уравнения такой зависимости целесос разно вначале изучить поле корреляции.

 

дставление о форме данных и о возможных проблемах. На графике легко идентифициро-> любую необычную комбинацию переменных. График зависимости У (отношение к горо-от^(продолжительность проживания) дан на рис. 17.3.

Рис. 17.3. Поле корреляции: отношение к городу в зависимости от продолжительности проживания в нем

Из рисунка видно, что точки располагаются полосой от нижнего левого угла в верхний шый. На графике можно увидеть форму зависимости: с ростом одной переменной тая переменная также увеличивается. Из рисунка видно, что зависимость между Уи X сит линейный характер и поэтому может быть описана уравнением прямой линии. Как ;дует "подогнать" к этим точкам прямую линию, чтобы она наилучшим образом опи­вала данные?

Самый распространенный метод для расчета уравнения линейной регрессии по данным на аграмме рассеяния — это метод наименьших квадратов (least-squares procedure).

Метод наименьших квадратов (least-squares procedure)

Метод, используемый для расчета параметров уравнения линейной регрессии, когда на ос­нове поля корреляции минимизируются расстояния по вертикали всех точек поля от графи­ка регрессии.

Методом наименьших квадратов определяют наиболее подходящую прямую регрессии, [нимизируя расстояния по вертикали всех точек поля корреляции от этой прямой. Наиболее дходящая прямая называется линией регрессии. Если точка поля не лежит на линии регрес-и, то расстояние по вертикали от нее до линии называется ошибкой е- (рис. 17.4)

Расстояния от всех точек до линии регрессии возводят в квадрат и суммируют, получая мму квадратов ошибок, и это число показывает суммарную ошибку ^£/ . Для определения

иболее подходящей линии с помощью метода наименьших квадратов минимизируют суммы адратов ошибок. Если значения Yотложить по вертикальной оси, а значения А"— по гори-нтальной, как показано на рис. 17.4, то полученная аппроксимированная линия называется грессией Y по X, так как расстояния по вертикали минимизированы. Поле корреляции по­бывает, можно ли зависимость Y по ЛГ выразить прямой линией и, следовательно, подходит i к этим данным парная регрессионная модель.

где е,. —член уравнения, характеризующий ошибку 1-го наблюдения [8]. Оценка регрессионных параметров Д? и /^относительна проста.

Определение параметров уравнения регрессии

В большинстве случаев Д, и /37 неизвестны, и их определяют (оценивают), исходя из имею­щихся выборочных наблюдений с помощью следующего уравнения:

У,, = а + bxf

 

 

Рис. 17.4. Парная регрессия

Модель парной регрессии

В модели парной регрессии форма прямой линии выражается уравнением:

где У— зависимая, или критериальная переменная, X— независимая переменная, или предиктор, Д|— отрезок прямой, отсекаемый на оси OY, Д— угловой коэффициент (тангенс угла наклона).

Эта модель исходит из того, что ^полностью определяется X. При известных значениях /30 и /3; можно предсказать значение Y. Однако в маркетинговом исследовании немного связей между переменными четко детерминированы. Поэтому, чтобы учесть вероятностную при­роду связи, в регрессионное уравнение вводят ошибочный член. Базовое уравнение рег­рессии принимает вид:

где Y. — теоретическое значение Yt',, а а и b — вычисленные значения /30 и /3/, соответственно. Константу b обычно называют ненормированным коэффициентом регрессии. Он выражает угол наклона линии регрессии и показывает ожидаемое изменение Упри изменении Хна еди­ницу. Формулы для вычисления а и b просты [9]. Угловой коэффициент b можно вычислить через ковариацию между Л"и У (СОКху) и дисперсию Л"по формуле:

rnv b = -

S2X

 

Отрезок, отсекаемый на оси OY — о, можно вычислить по формуле:

a^Y-bX

Для данных табл. 17.1 оценки параметров будут такими:

+ (8)(5) + (2)(2) + (18)(11) + (9)(9) + (17)(10) + (2)(2) = 917

£ X,.2 = 102 + 122 + 122 + 42 + 122 + 62+ i=i

+ 82 + 22+ 182+92 + 172+22=1350

Вспомнив, изложенную ранее формулу вычисления среднего в простой корреляции, получим:

X =9,333 F =6,583 При заданном п — 12, вычислим b по формуле:

917-(12)(9,333)(6,583) b = - V ;) ' д ' ; = 0,5897 1350-(12)(9,333)

a = F-fc7 = 6,583-(0,5897)(9,333) = 1,0793

Обратите внимание, что эти коэффициенты вычислены из исходных (не преобразованных) данных. Если данные нормированы, то вычисление нормированных коэффициентов не вызо­вет затруднений.