Пример: Распространенность ручного труда на предприятиях одной отрасли в зависимости от уровня автоматизации производства

По данным этой таблицы рассматривается следующая регрессионная модель:

,

где – процент рабочих ручного труда в общей численности рабочих;

– уровень автоматизации производства;

В качестве базовой группы, с которой ведется сравнение уровня занятости ручным трудом, выступают предприятия с низким уровнем автоматизации производства.

Регрессионная модель, исходя из средних уровней, приведенных в последней графе таблицы, составит:

Она показывает, что на предприятиях с низким уровнем автоматизации производства средний процент рабочих ручного труда равен 56,6. На предприятиях с высоким уровнем автоматизации производства распространенность ручного труда ниже на 21,6 проц. пункта , а на предприятиях со средним уровнем автоматизации производства - ниже на 10,1 проц. пункта по сравнению с предприятиями третьей группы.

В справедливости данного уравнения регрессии можно убедиться, обратившись к методу наименьших квадратов.

Индекс детерминации для данной модели составит:

,

что статистически значимо: -критерий при и при степенях свободы 2 и 27, .

Поскольку коэффициенты при фиктивных переменных в модели, не содержащей других экономических факторов, характеризуют величину эффектов -го уровня фактора , то регрессионная модель по своему содержанию тождественна дисперсионной модели. В основе нашего примера лежит дисперсионная модель вида

,

где -е наблюдение результативного признака на -м уровне исследуемого фактора (в примере ; );

– среднее значение результативного признака в целом по совокупности (в примере );

– эффект, обусловленный -м уровнем фактора ;

– случайная ошибка в -м наблюдении на -м уровне изучаемого фактора; величина, на которую фактический уровень результативного признака отличается от его среднего значения для -ro уровня фактора, т. е. .

Так, подставляя в уравнение регрессии , , получим для каждого завода первой группы по уровню автоматизации производства, что является средней величиной для данной группы (см. табл.). Соответственно подставляя в уравнение регрессии , , получим: .

Ввиду того, что теоретические значения результативного признака в рассматриваемой модели представляют собой групповые средние ( ), общая сумма квадратов отклонений раскладывается на одни и те же составляющие как в регрессионном, так и в дисперсионном анализе. Так, для дисперсионного анализа имеем:

.

Для регрессионной модели данное равенство примет следующий вид:

.

Но так как , то факторная и остаточная суммы квадратов, найденные по регрессионной модели и по модели дисперсионного анализа, совпадают (см. следующую таблицу).

Источники вариации Число степеней свободы Сумма квадратов, SS Дисперсия на одну степень свободы, D F-отношение
фактическое Табличное,
Различия между факторами (за счет регрессии) 2075,4 1037,7 54,6 3,35
Различия внутри фактора (остаточная) 513,4 19,0
Общая 2588,8

Мы рассмотрели модели с фиктивными переменными, в которых последние выступают факторами. Может возникнуть необходимость построить модель, в которой дихотомический признак играет роль результата. Подобного вида модели применяются, например, при обработке данных социологических опросов. В качестве зависимой переменной рассматриваются ответы на вопросы, данные в альтернативной форме: «да» или «нет». Поэтому зависимая переменная имеет два значения: 1, когда имеет место ответ «да», и 0 – во всех остальных случаях. Модель такой зависимой переменной имеет вид:

.

Модель является вероятностной линейной моделью. В ней принимает значения 1 и 0, которым соответствуют вероятности и . Поэтому при решении модели находят оценку условной вероятности события при фиксированных значениях . Такого рода модели используют при работе с неколичественными переменными. Как правило, это модели выбора из заданного набора альтернатив.

Среди моделей с фиктивными переменными наибольшими прогностическими возможностями обладают модели, в которых зависимая переменная рассматривается как функция ряда экономических факторов и фиктивных переменных . Последние обычно отражают различия в формировании результативного признака по отдельным группам единиц совокупности, т. е. в результате неоднородной структуры пространственного или временного характера.

Пример. Проанализируем с использованием фиктивных переменных зависимость урожайности пшеницы от вида вспашки и количества внесенного органического удобрения .

По 25 наблюдениям уравнение парной регрессии (без учета вида вспашки) составило:

;

; ; ; .

Для его расчета использовалась следующая система нормальных уравнений:

Уравнение регрессии статистически значимо – , , превышают табличные значения: (при 5 %-ном уровне существенности и числе степеней свободы 23: ; ; ).

По виду вспашки поля характеризовались двумя категориями: зяблевая и весенняя. Вид вспашки не влияет на количество внесенных удобрений, но обусловливает различия в урожайности. Чтобы убедиться в этом, введем в уравнение регрессии фиктивную переменную для отражения эффекта вида вспашки, а именно: для зяблевой вспашки и для весенней вспашки. Уравнение регрессии примет вид:

.

Применяя метод наименьших квадратов для оценки параметров данного уравнения, получим следующую систему нормальных уравнений:

Ввиду того, что принимает лишь два значения (1 и 0), (число полей с зяблевой вспашкой), (количество внесенных удобрений на полях с зяблевой вспашкой), , (сумма по полям зяблевой вспашки).

В рассматриваемом примере вся совокупность из 25 единиц подразделена на две подгруппы: с зяблевой вспашкой – 13 полей и с весенней - 12 полей, т. е. и . Соответственно разделению на эти две группы имеем:

;

.

Тогда система нормальных уравнений примет вид:

Peшая ее, получим уравнение регрессии .

Уравнение регрессии статистически значимо: , , , , , .

Как видим, добавление в регрессию фиктивной переменной существенно улучшило результат модели: доля объясненной вариации выросла с 27,5% до 58,7% . При этом сила влиянии количества внесенных органических удобрений на урожайность осталась практически неизменной: коэффициент регрессии, по существу, одинаковы (0,326 в парном уравнении и 0,331 во множественном). Корреляция между видом вспашки и количеством внесенного удобрения на 1 га практически отсутствует: .

Применение зяблевой вспашки способствует росту урожайности в среднем на 2,9 ц с 1 га при одном и том же количестве внесенного удобрения на 1 га, что в целом соответствует и различию средней урожайности по видам вспашки (15,3 ц с 1 га для зяблевой вспашки и 12,5 ц с 1 га для весенней вспашки). Частный -критерий для фактора составил 16,58, что выше табличного знамения при числе степеней свободы 1 и 22 (4,30 при ). Это подтверждает целесообразность включения фиктивной переменной в уравнение регрессии.

Уравнения парной регрессии по отдельным видам вспашки показывают, практически, единую меру влияния количества внесенного удобрения на урожайность:

, – при зяблевой вспашке;

, – при весенней вспашке.

Поэтому вполне реально предположить единую меру влияния данного фактора независимо от вида вспашки, что и имеет место в уравнении регрессии с фиктивной переменной. Включив фиктивную переменную, удалось измерить ее влияние на изменение урожайности: частный коэффициент корреляции оценивающий в чистом виде влияние данного фактора, составил , что несколько выше, чем аналогичный показатель для фактора , т.е. .

Частные уравнения регрессии по отдельным видам вспашки составили:

– для зяблевой вспашки;

– для весенней вспашки.

Как видим, функция урожайности для первой группы (при ) параллельна функции для второй группы, но сдвинута вверх.

Пример. Проанализируем зависимость цены двухкомнатной квартиры от ее полезной площади . При этом в модель могут быть введены фиктивные переменные, отражающие тип дома: «хрущевка», панельный, кирпичный.

При использовании трех категорий домов вводятся две фиктивные переменные: и . Пусть переменная принимает значение 1 для панельного дома и 0 для всех остальных типов домов; переменная принимает значение 1 для кирпичных домов и 0 для остальных; тогда переменные и принимают значения 0 для домов типа «хрущевки».

Предположим, что уравнение регрессии с фиктивными переменными составило:

.

Частные уравнения регрессии для отдельных типов домов, свидетельствуя о наиболее высоких ценах квартир в панельных домах, будут иметь следующий вид:

· «хрущевки» – ;

· панельные – ;

· кирпичные – .

Параметры при фиктивных переменных и представляют собой разность между средним уровнем результативного признака для соответствующей группы и базовой группы. В рассматриваемом примере за базу сравнения цены взяты дома «хрущевки», для которых . Параметр при (2200) означает, что при одной и той же полезной площади квартиры цена ее в панельных домах в среднем на 2200 долл. США выше, чем в «хрущевках». Соответственно параметр при показывает, что в кирпичных домах цена выше в среднем на 1600 долл. при неизменной величине полезной площади по сравнению с указанным типом домов.

Пример. Рассмотрим зависимость среднего уровня квалификации рабочих от сферы применения ручного труда. Если неоднородность вызвана резкими качественными различиями единиц совокупности, обусловливающими искажения характера рассматриваемой связи признаков и , то фиктивные переменные мало изменят результаты анализа. В этом случае более результативным является построение уравнений регрессии по отдельным группам совокупности (см. таблицу).

Зависимость среднего уровня квалификации рабочих от сферы применения ручного труда

Исследуемая совокупность Уравнение регрессии
Общая совокупность 0,016
с включением фиктивной переменной по видам технологий: – прогрессивная – традиционная 0,220
Частная совокупность: а) по заводам с традиционной технологией 0,941
б) по заводам с прогрессивной технологией 0,692

Результаты свидетельствуют о целесообразности построения модели по отдельным частным совокупностям. Ввиду разной зависимости уровня квалификации рабочих от уровня занятости ручным трудом по заводам с традиционной и прогрессивной технологиями производства уравнение регрессии по совокупности в целом не позволило выявить наличие связи. Не улучшился результат модели и с введением фиктивной переменной, ибо этот метод предполагает равенство коэффициентов регрессии при : по частным совокупностям и возможность их замены общим коэффициентом регрессии .