Построение регрессионной модели «Производительность труда» с помощью прикладного статистического пакета SPSS

Регрессионный анализ служит для выявления одной или нескольких независимых переменных на одну зависимую переменную. С точки зрения статистических расчетов в регрессионном анализе могут участвовать лишь метрические, т.е. количественные, переменные.

Регрессионный анализ позволяет сделать вывод не только о наличии связи между зависимыми и независимыми переменными, но и представить взаимосвязь между ними в форме математического уравнения связи.

Современные методы статистического анализа позволяют дать математическое описание зависимых переменных, выраженных в функциях различных видов. Техника регрессионного анализа, позволяющая выявлять и описывать взаимосвязи в виде линейных функций, называется линейным регрессионным анализом.

Для выявления и описания линейной зависимости между объектом исследования (зависимой переменной) и несколькими факторами, возможно на него влияющими, используется множественная линейная регрессия. Регрессионная модель в данном случае будет иметь вид

(1)

Результатом регрессионного анализа является регрессионная модель, а именно определение свободного члена (а) и коэффициентов регрессии (b).

Шаг 1.В ходе априорного анализа на основе изучения матриц парных коэффициентов корреляции и исходя из теоретических положений о производительности труда из 27 факторов динамики выработки на одного работника были отобраны только 10 независимых переменных: x4, x6, x8, x9, x11, x13, x18, x19, x21, x26.

Запустите диалоговое окно «Линейная Регрессия» (Linear Regression), которое открывается при выборе в меню «Анализ – Регрессия – Линейная» (см. рис. 3).

Из левой части списка, в котором представлены все переменные занесенные в базу данных, выбирается зависимая переменная x1 и переносится в поле «Подчиненный» (Dependent). Далее выбираются независимые переменные для анализа (x4, x6, x8, x9, x11, x13, x18, x19, x21, x26) и переносятся в поле «Независимые» (Dependent).

Рисунок 3 – Диалоговое окно «Линейная регрессия».

Важным элементом диалогового окна «Линейная регрессия» является раскрывающийся список Метод (Method)позволяет указать метод включения переменных в регрессионную модель. Для множественного регрессионного анализа рекомендуется выбрать один из пошаговых методов, которые предполагают поэтапное включение независимых переменных в регрессионную модель.

Установим метод «Backward» (Обратный). Это пошаговый метод, сначала включающий в уравнение регрессии все независимые переменные, а затем поочередно удаляющий все переменные, чья корреляция с критерием имеет уровень значимости выше заданного порогового значения. Как правило, пороговым значением является p=0,1.

Шаг 2. Нажимаем кнопку Параметры(Options). При нажатии данной кнопки, появляется диалоговое окно «Linear Regression: Options» (см. рис.4).

Активируем переключатель «Величина F» (value F). В ячейку «Поле»введем величину 3,84, а в ячейку «Удаление» – 2,71.

Для того, чтобы в исследуемой модели участвовал свободный член (коэффициент) необходимо установить флажок в поле «Включить константу в уравнение» (Include constant in equation).

Для исключения из расчета неопределенных значений необходимо в поле «Утерянные величины» (Missing Values) выбрать пункт «Исключить список регистров» (Exclude cases leastwise).

Нажать кнопку «ОК».

 

Рисунок 4 – Диалоговое окно «Linear Regression: Options» (параметры)

Шаг3.Многочисленные вспомогательные значения, рассчитываемые в ходе построения уравнения регрессии, можно сохранить как переменные и использовать в дальнейших расчетах.

Для этого в диалоговом окне «Линейная регрессия» (см. рис. 3) нажимаем кнопку «Сохранение…» (Save). Откроется диалоговое окно «Linear Regression: Save» (см. рис. 5), позволяющая сохранить:

1) Предсказанные величины (Predicted Values);

2) Расстояние (Distances);

3) Prediction Intervals (Интервалы предсказания);

4) Остатки (Residuals);

5) Influence Statistics (Статистика влияния).

Интересными здесь представляются опции «Ненормализованное» (Unstandardized) и «Нормализованные» (Standardized), которые включаются в рубрику «Предсказанные величины» (Predicted values). При выборе опции «Ненормализованное» будут рассчитываться значения (зависимая переменная), которое соответствуют уравнению регрессии. При выборе опции «Нормализованное» прогнозируемая величина нормализуется. SPSS автоматически присваивает новое имя каждой новообразованной переменной, независимо от того, рассчитываете ли Вы прогнозируемое значение, расстояние, прогнозируемые интервалы, остатки или какие-либо другие важные статистические характеристики. Нестандартизованным значениям SPSS присваивает имена pre_1 (predicted value), pre_2 и т.д., а стандартизованным zpr_1.

В диалоговом окне «Linear Regression: Save» (см. рис. 5) выберем:

- в поле «Предсказанные величины» (Predicted Values) отметим «Ненормализованное»;

- в поле «Остатки» (Residuals) отметим пункты «Ненормализованное» (Unstandardized) и «Нормированное» (Standardized).

В заключении нажимаем кнопку «ОК».

Рисунок 5 – Диалоговое окно «Linear Regression: Save»

Шаг 4.В процедуре линейной регрессии имеется возможность проверить основные предпосылки классического регрессионного анализа: случайный характер резко выделяющихся значений, нормальность распределения остатков, отсутствие автокорреляции и неизменность дисперсии остатков во времени.

Вызовем диалоговое окно «Linear Regression: Plots» (см. рис.6) нажатием на кнопке «Графики…» (Plots) диалогового окна «Линейная регрессия» (см. рис. 3) и установим флажок в поле «Normal probability plot» (нормально-вероятностный график остатков).

Подтвердите щелчком по кнопке «ОК» (Continue).

Подтвердите все установленные параметры в окне «Линейная регрессия» щелчком по кнопке «ОК». В результате этого откроется окно просмотра (см. рис. 7), показывающее результаты проведенных исследований над данными.

Рисунок 6 – Диалоговое окно «Linear Regression: Plots»

Рисунок 7 – Окно просмотра

В качестве результатов многофакторного линейного регрессионного анализа SPSS выводит на экран компьютера в окне просмотра данных 5 таблиц: «Variable Entered/Removed», «Model Summary», «ANOVA», «Coefficients», «Excluded Variables» (табл. 2, 3, 4, 5, 6).

1. Таблица переменных участвующих в построении регрессионного уравнения (см. табл. 2)

Таблица 2

Переменные включенные / удаленные (Variables Entered/Removed(b))

Model Variables Entered Variables Removed Method
x26, x11, x6, x13, x18, x9, x21, x19, x8, x4(a) . Enter
. x26 Backward (Criterion: F-to-remove <= 2,710).
. x4 Backward (Criterion: F-to-remove <= 2,710).
. x13 Backward (Criterion: F-to-remove <= 2,710).
. x18 Backward (Criterion: F-to-remove <= 2,710).
. x19 Backward (Criterion: F-to-remove <= 2,710).

a All requested variables entered.

b Dependent Variable: x1

 

2. Сводная таблица модели (Model Summary) (см. табл. 3)

При установке параметров для расчета регрессионного уравнения был выбран пошаговый метод включения переменных в модель «Backward» с последующим исключением переменных не удовлетворяющие поставленным условиям. В результате этого формируется несколько регрессионных моделей (см. табл. 3). В рассматриваемой задаче в соответствии с установленными параметрами таких моделей 6. В соответствии с целями исследования основным результатом является шестая модель, включающая параметры, которые в наименьшей степени коррелируют между собой, а критерий Стьюдента (t) и его значимость (Sig.) удовлетворяет поставленным условиям.

 

Таблица 3

Сводная таблица модели (Model Summary(g))

Model R R Square Adjusted R Square Std. Error of the Estimate
,974(a) ,949 ,864 5,07017
,974(b) ,949 ,884 4,69430
,974(c) ,949 ,898 4,39940
,972(d) ,946 ,904 4,27281
,972(e) ,944 ,911 4,11466
,966(f) ,934 ,904 4,26496

a Predictors: (Constant), x26, x11, x6, x13, x18, x9, x21, x19, x8, x4

b Predictors: (Constant), x11, x6, x13, x18, x9, x21, x19, x8, x4

c Predictors: (Constant), x11, x6, x13, x18, x9, x21, x19, x8

d Predictors: (Constant), x11, x6, x18, x9, x21, x19, x8

e Predictors: (Constant), x11, x6, x9, x21, x19, x8

f Predictors: (Constant), x11, x6, x9, x21, x8

g Dependent Variable: x1

 

В сводной таблице модели «Model Summary» представлены показатели, характеризующие качество построенных регрессионных моделей. Из таблицы 3 следует, что расчет производился 6 раз, поочередно удаляя одну перемену за шаг с наименьшим влиянием на исследуемую зависимость. В соответствии с целями исследования результатом анализа является шестая регрессионная модель.

В данной задаче значение коэффициента детерминации (R) составляет 0,967, что свидетельствует о наличии плотной линейной взаимосвязи между зависимой и независимыми показателями.

Коэффициент R-квадрат составляет 0,934. Это означает, что регрессионная модель описывает 93,4% случаев.

Эмпирический критерий Фишера (F), равный 31,1, почти в 8 раз больше табличного значения. Стандартная ошибка остатков (Std. Еггог оf the Estimate) составляет 4,26496. Приведенный с учетом степеней свободы коэффициент детерминации (Adjusted R Square) равен 0,90391, т. е. примерно 90% вариаций выработки обусловлено включенными в модель факторами.

3. Результаты регрессионного анализа. Таблица ANOVA

Таблица 4

ANOVA(g)

Model Sum of Squares df Mean Square F Sig.
Regression 2874,555 287,456 11,182 ,004(a)
  Residual 154,240 25,707    
  Total 3028,795      
Regression 2874,540 319,393 14,494 ,001(b)
  Residual 154,255 22,036    
  Total 3028,795      
Regression 2873,957 359,245 18,561 ,000(c)
  Residual 154,838 19,355    
  Total 3028,795      
Regression 2864,483 409,212 22,414 ,000(d)
  Residual 164,312 18,257    
  Total 3028,795      
Regression 2859,490 476,582 28,149 ,000(e)
  Residual 169,304 16,930    
  Total 3028,795      
Regression 2828,707 565,741 31,102 ,000(f)
  Residual 200,088 18,190    
  Total 3028,795      

a Predictors: (Constant), x26, x11, x6, x13, x18, x9, x21, x19, x8, x4

b Predictors: (Constant), x11, x6, x13, x18, x9, x21, x19, x8, x4

c Predictors: (Constant), x11, x6, x13, x18, x9, x21, x19, x8

d Predictors: (Constant), x11, x6, x18, x9, x21, x19, x8

e Predictors: (Constant), x11, x6, x9, x21, x19, x8

f Predictors: (Constant), x11, x6, x9, x21, x8

g Dependent Variable: x1

В последнем столбце таблицы ANOVA значение показателя «Статистическая мощность» (Sig.) должна быть меньше или равно 0,05. Все отобранные факторы статистически значимы, так как фактический критерий Стьюдента (t) больше табличного. Об этом же свидетельствует графа Sig., в которой отражены вероятности найти более существенные факторы динамики производительности труда для данной совокупности предприятий.

Эмпирический критерий Фишера (F), равный 31,1, почти в 8 раз больше табличного значения.

4. Коэффициенты множественной линейной регрессии. Таблица Coefficients (см. табл.5)

В таблице 5 представлены параметры моделей, построенные в результате линейного регрессионного анализа. В данной задаче результатом анализа является шестая регрессионная модель.

Стандартизованные коэффициенты (Standardized Coefficients) регрессии (Beta) показывают относительную значимость независимых переменных, включенных в регрессионную модель. Иными словами, они показывают, как сильно влияют исследуемые факторы (независимые переменные) на итоговую величину (зависимую переменную). Значения Beta всегда лежат в интервале от -1 до +1, значения Beta для разных переменных всегда могут сравниваться друг с другом. Beta-коэффициенты показывают, на какую часть стандартного отклонения изменилось бы среднее значение зависимой переменной, если бы значение соответствующего фактора увеличилось на стандартное отклонение, а прочие переменные остались без изменения.

В таблице 5 представлены также нестандартизованные коэффициенты регрессии (B). Они являются важными показателями результатов анализа, поскольку используются для построения регрессионного уравнения.

Необходимо отметить, что постоянный член регрессионного уравнения имеет достаточно большую величину. Это свидетельствует о том, что включенные в уравнение независимые переменные не в полной мере описывают зависимую переменную. В исследуемой задаче это означает, что кроме независимых параметров х6, х8, х9, х11, х21 существуют другие показатели влияющие на независимую переменную х1.

 

Таблица 5

Коэффициенты (Coefficients(a))

Model Unstandardized Coefficients Standardized Coefficients t Sig.
B Std. Error Beta
(Constant) -204,837 72,995   -2,806 ,031
  x4 -,049 ,604 -,022 -,081 ,938
  x6 -1,158 ,635 -,467 -1,824 ,118
  x8 -1,831 ,632 -,680 -2,896 ,027
  x9 34,629 15,572 ,348 2,224 ,068
  x11 2,946 ,563 ,596 5,233 ,002
  x13 ,267 ,458 ,071 ,582 ,582
  x18 -,911 1,406 -,117 -,648 ,541
  x19 ,058 ,056 ,171 1,036 ,340
  x21 ,751 ,451 ,319 1,667 ,146
  x26 ,005 ,188 ,006 ,025 ,981
(Constant) -204,440 65,930   -3,101 ,017
  x4 -,060 ,371 -,027 -,163 ,875
  x6 -1,168 ,463 -,471 -2,520 ,040
  x8 -1,842 ,432 -,684 -4,266 ,004
  x9 34,887 10,706 ,351 3,259 ,014
  x11 2,948 ,515 ,596 5,723 ,001
  x13 ,269 ,417 ,072 ,644 ,540
  x18 -,906 1,287 -,116 -,703 ,505
  x19 ,059 ,048 ,173 1,221 ,262
  x21 ,750 ,413 ,318 1,815 ,112
(Constant) -208,128 58,014   -3,588 ,007
  x6 -1,155 ,428 -,466 -2,698 ,027
  x8 -1,821 ,387 -,676 -4,708 ,002
  x9 35,152 9,916 ,353 3,545 ,008
  x11 2,952 ,482 ,597 6,123 ,000
  x13 ,273 ,390 ,073 ,700 ,504
  x18 -,859 1,176 -,110 -,730 ,486
  x19 ,062 ,041 ,182 1,509 ,170
  x21 ,699 ,251 ,296 2,786 ,024
(Constant) -215,570 55,390   -3,892 ,004
  x6 -1,271 ,383 -,513 -3,315 ,009
  x8 -1,865 ,371 -,693 -5,027 ,001
  x9 36,831 9,344 ,370 3,941 ,003
  x11 3,033 ,454 ,613 6,673 ,000
  x18 -,555 1,061 -,071 -,523 ,614
  x19 ,046 ,033 ,135 1,387 ,199
  x21 ,715 ,242 ,303 2,950 ,016
(Constant) -225,715 49,961   -4,518 ,001
  x6 -1,408 ,269 -,568 -5,234 ,000
  x8 -1,999 ,257 -,743 -7,781 ,000
  x9 39,254 7,815 ,394 5,023 ,001
  x11 3,102 ,419 ,627 7,405 ,000
  x19 ,042 ,031 ,123 1,348 ,207
  x21 ,658 ,209 ,279 3,152 ,010
(Constant) -201,883 48,437   -4,168 ,002
  x6 -1,508 ,268 -,608 -5,625 ,000
  x8 -1,952 ,264 -,725 -7,398 ,000
  x9 38,308 8,068 ,385 4,748 ,001
  x11 2,932 ,414 ,593 7,081 ,000
  x21 ,676 ,216 ,287 3,130 ,010

a Dependent Variable: x1

 

Результатом многофакторного линейного регрессионного анализа является модель линейной регрессии построеной с помощью нестандартизованных коэффициентов (Unstandardized Coefficients):

(2)

Эти коэффициенты отражают зависимость производительности труда от соответствующей переменной при исключении влияния на выработку других факторов.

Модель в стандартизированном масштабе имеет следующий вид:

(3)

5. Основные статистические характеристики исключенных факторов. Ехсluded Variables (см. табл. 6).

 

Таблица 6

Excluded Variables(f)

Model   Beta In   t   Sig.   Partial Correlation   Collinearity Statistics
Tolerance
1 2 3 4 5 6
x26 ,006(a) ,025 ,981 ,010 ,134
x26 ,022(b) ,139 ,893 ,053 ,305
  x4 -,027(b) -,163 ,875 -,061 ,256
x26 ,037(c) ,256 ,805 ,090 ,313
  x4 -,035(c) -,213 ,836 -,075 ,257
  x13 ,073(c) ,700 ,504 ,240 ,585
x26 ,010(d) ,077 ,940 ,026 ,353
  x4 -,012(d) -,079 ,939 -,026 ,276
  x13 ,045(d) ,475 ,646 ,156 ,678
  x18 -,071(d) -,523 ,614 -,172 ,325
x26 ,087(e) ,806 ,439 ,247 ,533
  x4 -,091(e) -,691 ,506 -,213 ,364
  x13 -,017(e) -,197 ,847 -,062 ,881
  x18 -,025(e) -,182 ,859 -,057 ,346
  x19 ,123(e) 1,348 ,207 ,392 ,676

a Predictors in the Model: (Constant), x11, x6, x13, x18, x9, x21, x19, x8, x4

b Predictors in the Model: (Constant), x11, x6, x13, x18, x9, x21, x19, x8

c Predictors in the Model: (Constant), x11, x6, x18, x9, x21, x19, x8

d Predictors in the Model: (Constant), x11, x6, x9, x21, x19, x8

e Predictors in the Model: (Constant), x11, x6, x9, x21, x8

f Dependent Variable: x1

В данной таблице указаны переменные, исключенные из модели при расчете регрессионной зависимости. В столбце 4 указана значимость (Sig.) каждой исключенной переменной, если бы они участвовали в построении модели. По данным значениям можно сделать вывод о том, что их влияние на модель не является существенным.

6. Статистические характеристики предсказанных значений и остатков. Normal P-P plot of Regression Standardized Residual (см. рис. 8)

Сформулированный вывод об адекватности модели можно подтвердить нормально-вероятностным графиком остатков. Представленный график позволяет оценить качество построенной модели. Чем ближе точки к линии, тем лучше уравнение регрессии описывает фактические данные.

Рисунок 8 – Normal P-P plot of Regression Standardized Residual

 

После построения адекватной модели наступает наиболее ответственный этап исследования – экономическая интерпретация ее параметров и использование полученных результатов в практических целях.

С учетом деления факторов на регулируемые и нерегулируемые можно представить модель в следующем виде:

Модель 1

(4)

где y – показатель производительности труда,

a0 – свободный член,

aj – коэффициент регрессии при нерегулируемых факторах,

zj – нерегулируемые факторы,

ai – коэффициент регрессии при регулируемых факторах,

Эта модель может быть использована для анализа текущих резервов роста производительности труда и для проведения межзаводских сравнений.

Анализ текущих резервов роста производительности труда предполагает построение модели, отражающей влияние нерегулируемых факторов. В общем виде ее можно представить так:

Модель 2

(5)

где

(6)

 

где - среднее значение фактора xi по совокупности обследуемых предприятий.

Для расчета средних значений воспользуемся командами «Descriptive» (Описательные) и «Summarize» (Итоговые), которые вызывают соответствующие диалоговые окна.

Шаг 1.Запустить диалоговое окно «Описательные» (см. рис. 9), которое открывается при выборе в меню «Анализ – Описательные статистики (Descriptive Statistics) – Описательные (Descriptive)».

Рисунок 9. Диалоговое окно «Описательные».

Шаг 2. Переместим в поле «Переменная» (Variable) зависимую переменную (x1) и независимые переменные (x6, x8, x9, x11, x21), как показано на рисунке 9 .

Шаг 3 Нажимаем кнопку Параметры (Options) и вызываем диалоговое окно «Описательные выборы» (см. рис. 10).Установим флажки в полях «Мера» (Mean), «Стандартное отклонение» (Std.deviation), «Изменение» (Variance), «Эксцесс» (Kurtosis), «Ассиметрия» (Skew ness), Variable list, как это показано на рисунке 9. Нажмем «ОК» два раза.

 

Рисунок 10 – Диалоговое окно «Описательные: Выборы»

 

Результаты расчета представлены в таблице 7.

Таблица 7

Descriptive Statistics

  N Mean Std. Deviation Variance Skewness Kurtosis
Statistic Statistic Statistic Statistic Statistic Std. Error Statistic Std. Error
x1 63,5712 13,75862 189,300 ,429 ,550 -,483 1,063
x6 29,3059 5,55050 30,808 -,461 ,550 ,106 1,063
x8 18,1176 5,10982 26,110 ,133 ,550 -1,201 1,063
x9 1,4576 ,13827 ,019 ,002 ,550 ,809 1,063
x11 93,6176 2,78236 7,742 -1,768 ,550 4,392 1,063
x21 21,7647 5,83855 34,089 -,178 ,550 -,604 1,063
Valid N (listwise)              

 

На основе данных таблицы 7 произведем расчет модели 2, которая отражает влияние нерегулируемых факторов. Для расчета модели 2 опираемся на исходное уравнение регрессии:

(7)

Зная средние значения регулируемых факторов по обследованной совокупности предприятий, рассчитаем свободный член модели 2. Для этого усредним регулируемые факторы: текучесть кадров (x8), коэффициент сменности рабочих (x9) и удельный вес профильной продукции в общем объеме производства (x11).

Получим, (8)

Тогда (9)

Используя многофакторную регрессионную модель 1, можно показать, за счет каких факторов и насколько производительность труда на передовых предприятиях выше, чем на остальных. Эта модель позволяет проанализировать причины отклонения выработки на отдельных предприятиях от среднего по обследуемой совокупности уровня.

Общую схему проведения сравнительного анализа производительности труда по группе предприятий можно представить в следующем виде:

(10)

(11)

где верхний индекс обозначает номер группы предприятия.

Можно всегда найти

(12)

Обозначив , , и получим

(13)

Формулы (12) и (13) показывают, как с помощью регрессионной модели можно определить влияние нерегулируемых и регулируемых факторов на разницу в результативном показателе, а также за счет чего достигнуты лучшие показатели: более благоприятных объективных условий или лучшей работы коллективов предприятия.

При использовании этих формул для различных уровней zj и xi можно сравнивать, объективные возможности каждого предприятия со средним уровнем по совокупности в целом и со средним уровнем любой другой группы предприятий, а также объективные возможности предприятий между собой и по группам,

Сравнительный анализ производительности труда по группам предприятий, например худших и лучших, удобно проводить в табл. 8.

Таблица 8

Межзаводской анализ резервов и факторов роста производительности труда в группах лучших и худших предприятий

Показатели регрессионной модели   Средние значения показателей Разность между средними значениями показателей (гр. 2 – гр.3) Коэффициент регрессии Эффект влияния на выработку разницы в уровнях факторов (гр.5хгр.4)
I группа, лучшая II группа, худшая
z1 a1
z2 a2
     
zj aj
     
zk ak
Всего по нерегулируемым факторам
xk+1 ak+1
xk+2 ak+2
         
xi ai
         
xn an
Всего по регулируемым факторам
Итого Ŷ

 

Из таблицы 8 видно, что возможный прирост производительности труда (Пп) в группе худших предприятий по сравнению с лучшими за счет более эффективного использования регулируемых факторов составляет

 

, (14)

 

где – среднее значение выработки в группе худших предприятий, рассчитанное по модельным данным.

Для проведения анализа по приведенной схеме важное значение имеет группировка предприятий на худшие и лучшие. С этой целью можно использовать кластерный анализ базового модуля SPSS.