Построение регрессионной модели системы двух случайных величин
Лабораторная работа № 4
Цель работы: изучить основные методы регрессионного и корреляционного анализа; исследовать зависимость между двумя случайными величинами, заданными выборками.
Задание: по виду корреляционного поля сделать предположение о форме регрессионной зависимости между двумя случайными величинами; используя метод наименьших квадратов, найти параметры уравнения регрессии; оценить качество описания зависимости полученным уравнением регрессии.
Пример .По результатам пятнадцати совместных измерений веса грузового поезда, т, и соответствующего времени нахождения поезда на участке Y, ч, представленных в таблице 1, следует исследовать зависимость между данными величинами. Необходимо определить коэффициенты уравнения регрессии методом наименьших квадратов, оценить тесноту связи между величинами, проверить значимость коэффициента корреляции и спрогнозировать время нахождения поезда на участке при заданном весе поезда (5200 т).
Решение. На величину времени нахождения поезда на участке Y, помимо веса X, влияние оказывает профиль и качество железнодорожного полотна, качество подвижного состава, направление и скорость ветра и другие факторы. Поэтому зависимость между величиной времени нахождения поезда на участке Y и веса поезда X является статистической: при одном весе поезда при различных дополнительных условиях время нахождения поезда на участке может принимать различные значения. Для определения вида регрессионной зависимости построим корреляционное поле.
Рис.1. Корреляционное поле
Характер расположения точек на диаграмме рассеяния позволяет сделать предположение о линейной регрессионной зависимости
Таблица 1 - Результаты промежуточных вычислений
Время нахождения поезда на участке, час., | Время простоя состава под скрещением, мин., | |||||
4,244 | 10,4 | 0,0736 | 0,005417 | -0,82066667 | 0,67349378 | -0,06040107 |
3,987 | 2,43 | -0,1834 | 0,0336356 | -8,79066667 | 77,2758204 | 1,612208267 |
4,156 | 7,16 | -0,0144 | 0,0002074 | -4,06066667 | 16,4890138 | 0,0584736 |
4,25 | 1,72 | 0,0796 | 0,0063362 | -9,50066667 | 90,2626671 | -0,75625307 |
4,2 | 20,3 | 0,0296 | 0,0008762 | 9,079333333 | 82,4342938 | 0,268748267 |
4,07 | 23,8 | -0,1004 | 0,0100802 | 12,57933333 | 158,239627 | -1,26296507 |
4,143 | 16,8 | -0,0274 | 0,0007508 | 5,579333333 | 31,1289604 | -0,15287373 |
4,248 | 11,3 | 0,0776 | 0,0060218 | 0,079333333 | 0,00629378 | 0,006156267 |
4,156 | 3,01 | -0,0144 | 0,0002074 | -8,21066667 | 67,4150471 | 0,1182336 |
4,128 | 8,59 | -0,0424 | 0,0017978 | -2,63066667 | 6,92040711 | 0,111540267 |
4,214 | 1,08 | 0,0436 | 0,001901 | -10,1406667 | 102,83312 | -0,44213307 |
4,15 | 12,4 | -0,0204 | 0,0004162 | 1,179333333 | 1,39082711 | -0,0240584 |
4,19 | 33,7 | 0,0196 | 0,0003842 | 22,47933333 | 505,320427 | 0,440594933 |
4,2 | 9,13 | 0,0296 | 0,0008762 | -2,09066667 | 4,37088711 | -0,06188373 |
4,22 | 6,49 | 0,0496 | 0,0024602 | -4,73066667 | 22,3792071 | -0,23464107 |
Итого: 62,56 | 168,3 | 2,66E-15 | 0,0713676 | 1,24E-14 | 1167,14009 | -0,379254 |
Найдем уравнение прямой линии методом наименьших квадратов .
Среднее значение времени нахождения поезда на участке:
= .
Среднее значение времени простоя поезда под скрещением:
=
Коэффициенты уравнения:
Уравнение регрессии имеет вид : .
Для линейной связи коэффициенты:
- постоянная регрессии, показывает точку пересечения прямой с осью ординат
- коэффициент регрессии, показывает меру зависимости переменных y от х, указывает среднюю величину изменения переменной у при изменении х на одну единицу, знак В1 определяет направление этого изменения .
Вычислим линейный коэффициент корреляции
= .
Таблица 2 - Расчет значений времени нахождения поезда на участке по уравнению регрессии
Время нахождения поезда на участке, час., | Время простоя состава под скрещением, мин., | |
4,244 | 10,4 | 10,82956 |
3,987 | 2,43 | 12,19528 |
4,156 | 7,16 | 11,2972 |
4,25 | 1,72 | 10,79768 |
4,2 | 20,3 | 11,06338 |
4,07 | 23,8 | 11,75421 |
4,143 | 16,8 | 11,36629 |
4,248 | 11,3 | 10,80831 |
4,156 | 3,01 | 11,2972 |
4,128 | 8,59 | 11,446 |
4,214 | 1,08 | 10,98898 |
4,15 | 12,4 | 11,32909 |
4,19 | 33,7 | 11,11652 |
4,2 | 9,13 | 11,06338 |
4,22 | 6,49 | 10,9571 |
Итого: 62,56 | 168,3 | 168,3102 |
Рис.2. Корреляционное поле и линия регрессии
Так как коэффициент корреляции мал, то уравнение не пригодно для прогнозирования.
Качественная оценка тесноты связи между величинами выявляется по шкале Чеддока (таблица 3).
Таблица 3 - Шкала Чеддока
Теснота связи | Значение коэффициента корреляции при наличии | |
прямой связи | обратной связи | |
Слабая | 0,1–0,3 | (-0,1)–(-0,3) |
Умеренная | 0,3–0,5 | (-0,3)–(-0,5) |
Заметная | 0,5–0,7 | (-0,5)–(-0,7) |
Высокая | 0,7–0,9 | (-0,7)–(-0,9) |
Весьма высокая | 0,9–0,99 | (-0,9)–(-0,99) |
Вывод. Линейный коэффициент корреляции характеризует тесноту связи между двумя коррелируемыми признаками в случае наличия между ними линейной зависимости. Т.к. = -0,04155506, то можно говорить о том, что между величинами X и Y существует линейная прямая слабая связь
Simple Regression - Col_2 vs. Col_1
Dependent variable: Col_2
Independent variable: Col_1
Linear model: Y = a + b*X
Coefficients
Least Squares | Standard | T | ||
Parameter | Estimate | Error | Statistic | P-Value |
Intercept | 33,3826 | 147,809 | 0,225849 | 0,8248 |
Slope | -5,31409 | 35,4376 | -0,149956 | 0,8831 |
Analysis of Variance
Source | Sum of Squares | Df | Mean Square | F-Ratio | P-Value |
Model | 2,01539 | 2,01539 | 0,02 | 0,8831 | |
Residual | 1165,12 | 89,625 | |||
Total (Corr.) | 1167,14 |
Correlation Coefficient = -0,0415545
R-squared = 0,172678 percent
R-squared (adjusted for d.f.) = -7,50635 percent
Standard Error of Est. = 9,46705
Mean absolute error = 6,78164
Durbin-Watson statistic = 1,63231 (P=0,2544)
Lag 1 residual autocorrelation = 0,175203
The StatAdvisor
The output shows the results of fitting a linear model to describe the relationship between Col_2 and Col_1. The equation of the fitted model is
Col_2 = 33,3826 - 5,31409*Col_1
Since the P-value in the ANOVA table is greater or equal to 0,05, there is not a statistically significant relationship between Col_2 and Col_1 at the 95,0% or higher confidence level.
The R-Squared statistic indicates that the model as fitted explains 0,172678% of the variability in Col_2. The correlation coefficient equals -0,0415545, indicating a relatively weak relationship between the variables. The standard error of the estimate shows the standard deviation of the residuals to be 9,46705. This value can be used to construct prediction limits for new observations by selecting the Forecasts option from the text menu.
The mean absolute error (MAE) of 6,78164 is the average value of the residuals. The Durbin-Watson (DW) statistic tests the residuals to determine if there is any significant correlation based on the order in which they occur in your data file. Since the P-value is greater than 0,05, there is no indication of serial autocorrelation in the residuals at the 95,0% confidence level.