Построение линейной регрессионной модели по выборочным данным

Рассмотрим построение линейной регрессионной модели по выборочным данным следующего примера.

Пример. В табл. 2.1 приведены данные по 45 предприятиям по статистической связи между стоимостью основных фондов (fonds, млн. денежных единиц) и средней выработкой на 1 работника (product, тыс. денежных единиц); z – вспомогательный признак: z = 1 – федеральное подчинение, z = 2 – муниципальное.

Таблица 2.1

fonds product z fonds product z fonds product z
6,5 18,3 9,3 17,2 10,4 21,4
10,3 31,1 5,7 19,0 10,2 23,5
7,7 27,0 12,9 24,8 18,0 31,1
15,8 37,9 5,1 21,5 13,8 43,2
7,4 20,3 3,8 14,5 6,0 19,5
14,3 32,4 17,1 33,7 11,9 42,1
15,4 31,2 8,2 19,3 9,4 18,1
21,1 39,7 8,1 23,9 13,7 31,6
22,1 46,6 11,7 28,0 12,0 21,3
12,0 33,1 13,0 30,9 11,6 26,5
9,5 26,9 15,3 27,2 9,1 31,6
8,1 24,0 13,5 29,9 6,6 12,6
8,4 24,2 10,5 34,9 7,6 28,4
15,3 33,7 7,3 24,4 9,9 22,4
4,3 18,5 13,8 37,4 14,7 27,7

 

Предварительно построим диаграмму рассеяния, чтобы убедиться, что предположение линейности регрессионной зависимости не лишено смысла. Для этого в меню Graphs выберем команду Scatter plots. В полученном окне нажмем кнопку Variables., и установим зависимые данные – X: fonds, Y: product и опции графика – Graphs Type: Regular, Fit (подбор): Linear.

Наблюдаем диаграмму рассеяния с подобранной прямой регрессии, параметры которой отражены в ее заголовке. Это означает, что уравнение линейной регрессии имеет вид .

 

Рис. 2.1. Диаграмма рассеяния

 

Чтобы получить обратную зависимость, в окне задания опций следует поменять местами переменные X и Y, то есть переменной X назначить колонку products, а переменной Y – fonds. В этом случае уравнение регрессии задается уравнением , а прямая имеет вид, представленный на рис. 2.2.

 

Рис 2.2. Обратная диаграмма рассеяния

 

По полученным графикам делаем вывод, что имеет смысл проводить регрессионный анализ по имеющимся исходным данным.

Будем работать в модуле Multiple Regression (множественная регрессия); меню StatisticsMultiple Regression. В качестве зависимой переменной выберем колонку fonds, в качестве независимой – колонку products, во вкладке Advanced установим опцию Input file (входной файл): Raw Data (необработанные данные).

Нажав кнопку OK, получаем основные результаты анализа (рис. 2.3) коэффициент детерминации R2: 0.597; гипотеза о нулевом значении наклона отклоняется с высоким уровнем значимости p = 0.000000 (т.е. p < 10-6).


 

Рис. 2.3. Окно результатов регрессионного анализа

 

Поясним значения характеристик:

Dependent – имя зависимой переменной (в примере – fonds);

Multiple R – множественный коэффициент корреляции;

F – значение критерия Фишера, F=63, 54427;

R? (R2) – множественный коэффициент детерминации;

df – количество степеней свободы F-критерия;

No. of cases – количество наблюдений;

adjusted R? (R2) – скорректированный коэффициент детерминации, определяемый по формуле ;

p – критический уровень значимости модели;

Standard error of estimate – среднеквадратическая ошибка;

Intercept – оценка свободного члена модели регрессии;

Std. Error – стандартная ошибка оценки свободного члена модели регрессии;

 

t(43) = -0,2106 и p = 0,8342 – значения критерия и критического уровня значимости, используемые для проверки гипотезу о равенстве нулю свободного члена регрессии. В данном случае гипотеза должна быть принята, если уровень значимости равен 0,8342 или ниже.

На вкладке Quick нажмем кнопку Summary Regression Results и получим таблицу результатов (рис. 2.4).

 

Рис. 2.4. Таблица результатов регрессионного анализа

 

В заголовке полученной таблицы повторены результаты предыдущего окна; в столбцах приведены: В – значения оценок параметров модели регрессии и ; столбец St. Err. of B – параметры стандартных ошибок параметров модели регрессии, соответственно и ; столбец t(43) – значение статистики Стьюдента (t-критерия) для проверки гипотезы о нулевом значении коэффициента (т.е. и ); столбец p-level – минимальный уровень значимости отклонения этой гипотезы. В данном случае, поскольку значения p-level очень малы (меньше 10-4), гипотезы о нулевых значениях коэффициентов отклоняются с высокой значимостью. Итак, имеем регрессию:

 

product = 11.5 + 1.43 fonds,

 

соответствующие стандартные ошибки коэффициентов: 2.1 и 0.18; значение s = 5.01 (Std Error of estimate – ошибка прогноза выработки по фондам с помощью этой функции). Значение коэффициента детерминации R2 = RI = 0.597 достаточно велико (доля R = 0.77 всей изменчивости объясняется вариацией фондов). Уравнение регрессии показывает, что увеличение основных фондов на 1 млн. денежных единиц приводит к увеличению выработки 1 работника в среднем на b1 = 1.43 тыс. денежных единиц.

Многочисленные дополнительные опции модуля регрессии позволяют, например, вычислить результаты описательной статистики (среднее значение и среднее квадратическое отклонение), а также коэффициент корреляции между данными. Для этого можно воспользоваться вкладкой Advanced, нажав на ней кнопку Descriptive Statistics и выбрав необходимые кнопки. Результат будет отображен в отдельном окне. Нажав на кнопку во вкладке Matrix, получим общее окно, приведенное на рис. 2.5.

 

Рис. 2.5. Описательная статистика и коэффициент корреляции