Задания для самостоятельной работы. Задача 1. В таблице 1.2 приводятся данные по различным регионам России о среднедушевом прожиточном минимуме в день одного трудоспособного x (руб) и
Задача 1. В таблице 1.2 приводятся данные по различным регионам России о среднедушевом прожиточном минимуме в день одного трудоспособного x (руб) и среднедневной заработной плате y(руб).
Табл. 1.2
| Номер варианта | Параметры | Номер региона | |||||||||
| x | |||||||||||
| y | |||||||||||
| x | |||||||||||
| y | |||||||||||
| x | |||||||||||
| y | |||||||||||
| x | |||||||||||
| y | |||||||||||
| x | |||||||||||
| y | |||||||||||
| x | |||||||||||
| y | |||||||||||
| x | |||||||||||
| y | |||||||||||
| x | |||||||||||
| y | |||||||||||
| x | |||||||||||
| y | |||||||||||
| x | |||||||||||
| y |
Требуется:
1. Построить поле корреляции и сформулировать гипотезу о форме связи yиx .
2.Построить уравнение линейной парной регрессии; определить для него коэффициент детерминации и среднюю относительную ошибку аппроксимации.
3. На поле корреляции построить график полученной кривой.
4. Дать с помощью среднего коэффициента эластичности сравнительную оценку силы связи фактора с результирующим признаком.
5. Оценить статистическую значимость параметров регрессии и модели в целом, а также построить интервальную оценку коэффициентов линейной регрессии с надежностью 0,95.
6. Выполнить прогноз заработной платы yпри прогнозном значении среднедушевого прожиточного минимума x,составляющего 107%от среднего уровня, и оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.
7. Построить гиперболическую регрессионную модель зависимости среднедневной заработной платы от среднедушевого прожиточного минимума, вычислить индекс корреляции и детерминации, а также статистическую значимость уравнения регрессии по
критерию на уровне
.
8. Построить степенную регрессионную модель, оценить её точность по индексу детерминации и средней относительной ошибки аппроксимации и установить значимость уравнения регрессии по
критерию (на уровне
).
9. На поле корреляции построить графики полученных нелинейных кривых.
10. Сравнить модели парной регрессии (включая линейную) по индексу детерминации и средней относительной ошибки аппроксимации и выбрать наилучшую.
Тема 2. Множественная регрессия
Расчетные формулы.
2.1. Оценки вектора коэффициентов регрессии:
.
2.2. Стандартизованные коэффициенты регрессии:
.
2.3. Средние коэффициенты эластичности:
.
2.4. Стандартная ошибка уравнения:
.
2.5. Стандартная ошибка параметра
уравнения:
,
где
диагональный элемент матрицы
, находящийся на пересечении (
)-й строки и (
)-го столбца.
2.6.
статистики параметров регрессии:
.
2.7. Парные коэффициенты корреляции:
.
2.8. Множественный коэффициент корреляции:
.
2.9. Множественный коэффициент детерминации:
.
2.10. Скорректированный множественный коэффициент детерминации:
.
2.11.
критерий Фишера:
.
Если
, где
определяется по уровню значимости
и числу степеней свободы
и
, то уравнение регрессии значимо в целом.
2.12. Частные
критерии для двухфакторной модели:
.
Если наблюдаемое значение
больше
, определяемого по заданному уровню значимости
и числу степеней свободы
и
, то дополнительное включение фактора
в модель статистически оправдано. В противном случае – нет.
Решение типовой задачи.
Имеются следующие данные о сменной добыче угля на одного рабочего
(т), мощности угольного пласта
(м) и уровне механизации работ
(%), характеризующие процесс добычи угля на 10 шахтах:
Табл. 2.1
| ||||||||||
| ||||||||||
|
Требуется:
1.Полагая, что между переменными
,
и
существует линейная корреляционная зависимость, найти её аналитическое выражение (уравнение регрессии). Пояснить экономический смысл коэффициентов регрессии.
2.Установить раздельное влияние на сменную добычу угля двух факторов через стандартизованные коэффициенты регрессии и средние коэффициенты эластичности.
3.Проверить значимость параметров множественной регрессии и при положительном ответе построить для коэффициентов уравнения регрессии 95% доверительные интервалы.
4.Сравнить значения скорректированного и нескорректированного коэффициентов множественной детерминации и проверить значимость полученного уравнения регрессии на уровне значимости
.
5.С помощью частных
критериев оценить целесообразность включения в уравнение регрессии фактора
после фактора
и наоборот – фактора
после
.
Решение выполним в среде MS Excel.
1.Сформируем расчетную таблицу следующей структуры:
| № п/п |
|
|
|
|
|
|
|
|
|
|
|
|
| ||||||||||||
| Сумма | ||||||||||||
| Среднее |
Введем исходные данные
,
,
в таблицу по столбцам и рассчитаем колонки
,
,
,
,
,
,. Вычисляем суммы и средние значения столбцов с помощью встроенных функций СУММ(…)иСРЗНАЧ(…).
Сформируем на свободном поле числовые матрицы:
,
,
где элементы матриц берутся из строки "Сумма" таблицы. Лучше задавать элементы матриц, используя знак "=" формулы Excel и щёлкая мышью по соответствующему элементу строки "Сумма", а затем - Enter.
Находим обратную матрицу
с использованием встроенной функции МОБР(…). Для этого выделяем на свободном поле ячейки для элементов обратной матрицы размером
. При этом все ячейки, кроме левой верхней, будут окрашены голубым цветом. В ней набираем формулу: =МОБР(.: .), где в скобках через двоеточие указываем крайние левый и правый диагональные элементы матрицы
. Далее нажимается клавиша F2 клавиатуры и затем одновременно клавиши "CTRL", "SHIFT" и "ENTER". В указанных ячейках появятся элементы искомой обратной матрицы.
По формуле 2.1 находим вектор оценок
с помощью встроенной функции МУМНОЖ(.;.). Выделяем на свободном поле ячейки для
(это будет вектор размерности
). В строке
или в первой ячейке указанного формата набираем формулу =МУМНОЖ(…;…), где вначале щелкаем по элементам обратной матрицы, а затем через ";" – по элементам вектора
. Снова нажимается клавиша F2 клавиатуры и затем одновременно клавиши "CTRL", "SHIFT" и "ENTER".
В итоге в отведенном формате имеем вектор оценок:
.
Таким образом, уравнение регрессии в натуральном масштабе имеет вид:
.
Из него следует, что при увеличении угольного пласта на 1 м добыча угля на одного рабочего увеличивается в среднем на 0,854 т, а увеличение только уровня механизации на 1% приводит к увеличению
в среднем на 0,367 т.
2.Найдем дисперсии и средние квадратические отклонения переменных:

.
Вычислим стандартизованные коэффициенты регрессии по формуле 2.2:
.
Уравнение регрессии в стандартизованном масштабе записывается:
.
Оно показывает, что с ростом фактора
на одно
при неизменности второго фактора рост добычи угля на одного рабочего увеличивается в среднем на 0,724
, а при увеличении только
на одно
результат
увеличивается в среднем на 0,284
. Отсюда видно, что первый фактор оказывает большее воздействие на результат, чем второй фактор.
По формулам 2.3 определим средние коэффициенты эластичности:
.
Таким образом, увеличение по отдельности переменных
,
на 1% приводит в среднем к росту результата
на 1,18% и 0,34% соответственно.
Из этого также следует, что фактор
оказывает большее влияние на
, нежели фактор
.
3.Вычислим предсказанные моделью значения
по формуле

и тем самым заполним колонку
расчетной таблицы. Далее вычисляются остатки
и их квадраты
. В итоге в строке "Сумма" колонки
таблицы определится остаточная сумма квадратов
.
Находим стандартную ошибку уравнения регрессии по формуле 2.4:
.
По формуле 2.5 вычисляем стандартные ошибки параметров уравнения:

С использованием формулы 2.6 определяем
статистики параметров:
.
Найдем с помощью функции СТЬЮДРАСПОБР(…) табличное значение
по уровню значимости
и числу степеней свободы
. Сравнение модулей расчетных значений с табличным указывает на статистическую значимость параметра
. Параметры же
и
не является значимым.
Построим интервальную оценку только для коэффициента
. Для этого определим предельную ошибку, которая в 95% случаев не будет превышена:
.
Отсюда получаем искомый доверительный интервал:
.
Из него следует, что с надежностью 0,95 за счет увеличения мощности пласта на 1 м переменная
будет увеличиваться по разным шахтам в пределах от 0,333 тонн до 1,375 т.
4.Вычислим парные коэффициенты корреляции по формулам 2.7:
;
.
Определим множественный коэффициент корреляции по формуле 2.8:
.
Множественный коэффициент корреляции достаточно высокий, что свидетельствует о существенной линейной зависимости результата от включенных в модель факторов.
Далее по формуле 2.9 находим множественный коэффициент детерминации:
.
Таким образом, на 81% включенные в модель факторы определяют воздействие на переменную
, а на все остальные факторы, не включенные в модель, приходится 19%.
Скорректируем коэффициент детерминации по формуле 2.10:
.
Рассчитаем дисперсионное отношение Фишера по формуле 2.11:
.
Табличное значение
=
определяем с помощью встроенной статистической функции FРАСПОБР по уровню значимости
и числам свободы
и
. Поскольку
, то можно сделать вывод о статистической значимости построенной модели.
5.По формуле 2.12 находим частные
критерии:
,
.
Табличное значение
=5.59 определяем с помощью встроенной статистической функции FРАСПОБР по уровню значимости
и числам свободы
и
. Поскольку
, то включение в модель фактора
после
оказалось статистически оправданным. Но так как
, то включение фактора
в модель после
оказывается бесполезным: влияние
на переменную
не является устойчивым, систематическим ( в этом убедились ранее, признав
статистически незначимым).
Отсюда вывод: модель должна содержать только фактор
.