Пример: Распространенность ручного труда на предприятиях одной отрасли в зависимости от уровня автоматизации производства
По данным этой таблицы рассматривается следующая регрессионная модель:
,
где – процент рабочих ручного труда в общей численности рабочих;
– уровень автоматизации производства;
В качестве базовой группы, с которой ведется сравнение уровня занятости ручным трудом, выступают предприятия с низким уровнем автоматизации производства.
Регрессионная модель, исходя из средних уровней, приведенных в последней графе таблицы, составит:
Она показывает, что на предприятиях с низким уровнем автоматизации производства средний процент рабочих ручного труда равен 56,6. На предприятиях с высоким уровнем автоматизации производства распространенность ручного труда ниже на 21,6 проц. пункта , а на предприятиях со средним уровнем автоматизации производства - ниже на 10,1 проц. пункта
по сравнению с предприятиями третьей группы.
В справедливости данного уравнения регрессии можно убедиться, обратившись к методу наименьших квадратов.
Индекс детерминации для данной модели составит:
,
что статистически значимо: -критерий
при
и при степенях свободы 2 и 27,
.
Поскольку коэффициенты при фиктивных переменных в модели, не содержащей других экономических факторов, характеризуют величину эффектов -го уровня фактора
, то регрессионная модель по своему содержанию тождественна дисперсионной модели. В основе нашего примера лежит дисперсионная модель вида
,
где –
-е наблюдение результативного признака на
-м уровне исследуемого фактора (в примере
;
);
– среднее значение результативного признака в целом по совокупности (в примере
);
– эффект, обусловленный
-м уровнем фактора
;
– случайная ошибка в
-м наблюдении на
-м уровне изучаемого фактора; величина, на которую фактический уровень результативного признака
отличается от его среднего значения для
-ro уровня фактора, т. е.
.
Так, подставляя в уравнение регрессии ,
, получим
для каждого завода первой группы по уровню автоматизации производства, что является средней величиной для данной группы (см. табл.). Соответственно подставляя в уравнение регрессии
,
, получим:
.
Ввиду того, что теоретические значения результативного признака в рассматриваемой модели представляют собой групповые средние ( ), общая сумма квадратов отклонений
раскладывается на одни и те же составляющие как в регрессионном, так и в дисперсионном анализе. Так, для дисперсионного анализа имеем:
.
Для регрессионной модели данное равенство примет следующий вид:
.
Но так как , то факторная и остаточная суммы квадратов, найденные по регрессионной модели и по модели дисперсионного анализа, совпадают (см. следующую таблицу).
Источники вариации | Число степеней свободы | Сумма квадратов, SS | Дисперсия на одну степень свободы, D | F-отношение | |
фактическое | Табличное, ![]() | ||||
Различия между факторами (за счет регрессии) | 2075,4 | 1037,7 | 54,6 | 3,35 | |
Различия внутри фактора (остаточная) | 513,4 | 19,0 | – | ||
Общая | 2588,8 | – | – | – |
Мы рассмотрели модели с фиктивными переменными, в которых последние выступают факторами. Может возникнуть необходимость построить модель, в которой дихотомический признак играет роль результата. Подобного вида модели применяются, например, при обработке данных социологических опросов. В качестве зависимой переменной рассматриваются ответы на вопросы, данные в альтернативной форме: «да» или «нет». Поэтому зависимая переменная имеет два значения: 1, когда имеет место ответ «да», и 0 – во всех остальных случаях. Модель такой зависимой переменной имеет вид:
.
Модель является вероятностной линейной моделью. В ней принимает значения 1 и 0, которым соответствуют вероятности
и
. Поэтому при решении модели находят оценку условной вероятности события
при фиксированных значениях
. Такого рода модели используют при работе с неколичественными переменными. Как правило, это модели выбора из заданного набора альтернатив.
Среди моделей с фиктивными переменными наибольшими прогностическими возможностями обладают модели, в которых зависимая переменная рассматривается как функция ряда экономических факторов
и фиктивных переменных
. Последние обычно отражают различия в формировании результативного признака по отдельным группам единиц совокупности, т. е. в результате неоднородной структуры пространственного или временного характера.
Пример. Проанализируем с использованием фиктивных переменных зависимость урожайности пшеницы от вида вспашки
и количества внесенного органического удобрения
.
По 25 наблюдениям уравнение парной регрессии (без учета вида вспашки) составило:
;
;
;
;
.
Для его расчета использовалась следующая система нормальных уравнений:
Уравнение регрессии статистически значимо – ,
,
превышают табличные значения: (при 5 %-ном уровне существенности и числе степеней свободы 23:
;
;
).
По виду вспашки поля характеризовались двумя категориями: зяблевая и весенняя. Вид вспашки не влияет на количество внесенных удобрений, но обусловливает различия в урожайности. Чтобы убедиться в этом, введем в уравнение регрессии фиктивную переменную для отражения эффекта вида вспашки, а именно:
для зяблевой вспашки и
для весенней вспашки. Уравнение регрессии примет вид:
.
Применяя метод наименьших квадратов для оценки параметров данного уравнения, получим следующую систему нормальных уравнений:
Ввиду того, что принимает лишь два значения (1 и 0),
(число полей с зяблевой вспашкой),
(количество внесенных удобрений на полях с зяблевой вспашкой),
,
(сумма
по полям зяблевой вспашки).
В рассматриваемом примере вся совокупность из 25 единиц подразделена на две подгруппы: с зяблевой вспашкой – 13 полей и с весенней - 12 полей, т. е. и
. Соответственно разделению на эти две группы имеем:
;
.
Тогда система нормальных уравнений примет вид:
Peшая ее, получим уравнение регрессии .
Уравнение регрессии статистически значимо: ,
,
,
,
,
.
Как видим, добавление в регрессию фиктивной переменной существенно улучшило результат модели: доля объясненной вариации выросла с 27,5% до 58,7%
. При этом сила влиянии количества внесенных органических удобрений на урожайность осталась практически неизменной: коэффициент регрессии, по существу, одинаковы (0,326 в парном уравнении и 0,331 во множественном). Корреляция между видом вспашки и количеством внесенного удобрения на 1 га практически отсутствует:
.
Применение зяблевой вспашки способствует росту урожайности в среднем на 2,9 ц с 1 га при одном и том же количестве внесенного удобрения на 1 га, что в целом соответствует и различию средней урожайности по видам вспашки (15,3 ц с 1 га для зяблевой вспашки и 12,5 ц с 1 га для весенней вспашки). Частный -критерий для фактора
составил 16,58, что выше табличного знамения при числе степеней свободы 1 и 22 (4,30 при
). Это подтверждает целесообразность включения фиктивной переменной в уравнение регрессии.
Уравнения парной регрессии по отдельным видам вспашки показывают, практически, единую меру влияния количества внесенного удобрения на урожайность:
,
– при зяблевой вспашке;
,
– при весенней вспашке.
Поэтому вполне реально предположить единую меру влияния данного фактора независимо от вида вспашки, что и имеет место в уравнении регрессии с фиктивной переменной. Включив фиктивную переменную, удалось измерить ее влияние на изменение урожайности: частный коэффициент корреляции оценивающий в чистом виде влияние данного фактора, составил , что несколько выше, чем аналогичный показатель для фактора
, т.е.
.
Частные уравнения регрессии по отдельным видам вспашки составили:
– для зяблевой вспашки;
– для весенней вспашки.
Как видим, функция урожайности для первой группы (при ) параллельна функции для второй группы, но сдвинута вверх.
Пример. Проанализируем зависимость цены двухкомнатной квартиры от ее полезной площади
. При этом в модель могут быть введены фиктивные переменные, отражающие тип дома: «хрущевка», панельный, кирпичный.
При использовании трех категорий домов вводятся две фиктивные переменные: и
. Пусть переменная
принимает значение 1 для панельного дома и 0 для всех остальных типов домов; переменная
принимает значение 1 для кирпичных домов и 0 для остальных; тогда переменные
и
принимают значения 0 для домов типа «хрущевки».
Предположим, что уравнение регрессии с фиктивными переменными составило:
.
Частные уравнения регрессии для отдельных типов домов, свидетельствуя о наиболее высоких ценах квартир в панельных домах, будут иметь следующий вид:
· «хрущевки» – ;
· панельные – ;
· кирпичные – .
Параметры при фиктивных переменных и
представляют собой разность между средним уровнем результативного признака для соответствующей группы и базовой группы. В рассматриваемом примере за базу сравнения цены взяты дома «хрущевки», для которых
. Параметр при
(2200) означает, что при одной и той же полезной площади квартиры цена ее в панельных домах в среднем на 2200 долл. США выше, чем в «хрущевках». Соответственно параметр при
показывает, что в кирпичных домах цена выше в среднем на 1600 долл. при неизменной величине полезной площади по сравнению с указанным типом домов.
Пример. Рассмотрим зависимость среднего уровня квалификации рабочих от сферы применения ручного труда. Если неоднородность вызвана резкими качественными различиями единиц совокупности, обусловливающими искажения характера рассматриваемой связи признаков и
, то фиктивные переменные мало изменят результаты анализа. В этом случае более результативным является построение уравнений регрессии по отдельным группам совокупности (см. таблицу).
Зависимость среднего уровня квалификации рабочих от сферы применения ручного труда
Исследуемая совокупность | Уравнение регрессии | ![]() |
Общая совокупность | ![]() | 0,016 |
с включением фиктивной переменной по видам технологий:
![]() ![]() | ![]() | 0,220 |
Частная совокупность: а) по заводам с традиционной технологией | ![]() | 0,941 |
б) по заводам с прогрессивной технологией | ![]() | 0,692 |
Результаты свидетельствуют о целесообразности построения модели по отдельным частным совокупностям. Ввиду разной зависимости уровня квалификации рабочих от уровня занятости ручным трудом по заводам с традиционной и прогрессивной технологиями производства уравнение регрессии по совокупности в целом не позволило выявить наличие связи. Не улучшился результат модели и с введением фиктивной переменной, ибо этот метод предполагает равенство коэффициентов регрессии при : по частным совокупностям и возможность их замены общим коэффициентом регрессии
.