Построение регрессионной модели системы двух случайных величин

Лабораторная работа № 3

Цель работы: изучить основные методы регрессионного и корреляционного анализа; исследовать зависимость между двумя случайными величинами, заданными выборками.

Задание: по виду корреляционного поля сделать предположение о форме регрессионной зависимости между двумя случайными величинами; используя метод наименьших квадратов, найти параметры уравнения регрессии; оценить качество описания зависимости полученным уравнением регрессии.

Пример .По результатам тридцати совместных измерений веса грузового поезда, т, и соответствующего времени технического обслуживания состава Y, мин, представленных в таблице 1, следует исследовать зависимость между данными величинами. Необходимо определить коэффициенты уравнения регрессии методом наименьших квадратов, оценить тесноту связи между величинами, проверить значимость коэффициента корреляции и спрогнозировать время нахождения поезда на участке при заданном весе поезда (5200 т).

Решение. На величину времени нахождения поезда на участке Y, помимо веса X, влияние оказывает профиль и качество железнодорожного полотна, качество подвижного состава, направление и скорость ветра и другие факторы. Поэтому зависимость между величиной времени нахождения поезда на участке Y и веса поезда X является статистической: при одном весе поезда при различных дополнительных условиях время нахождения поезда на участке может принимать различные значения. Для определения вида регрессионной зависимости построим корреляционное поле.

 

Рис.1. Корреляционное поле

Характер расположения точек на диаграмме рассеяния позволяет сделать предположение о линейной регрессионной зависимости

Таблица 1 - Результаты промежуточных вычислений

Вес грузового состава, т, Время нахождения поезда на участке, мин.,
6154,79 78,1 1252,06 1567654,244 8,453 71,453209 10583,66318
3884,28 63,1 -1018,45 1037240,403 -6,547 42,863209 6667,79215
4216,6 72,7 -686,13 470774,3769 3,053 9,320809 -2094,75489
5174,03 74,1 271,3 73603,69 4,453 19,829209 1208,0989
5757,94 70,5 855,21 731384,1441 0,853 0,727609 729,49413
4857,76 63,3 -44,97 2022,3009 -6,347 40,284409 285,42459
4974,92 65,3 72,19 5211,3961 -4,347 18,896409 -313,80993
4468,04 70,4 -434,69 188955,3961 0,753 0,567009 -327,32157
4750,51 63,9 -152,22 23170,9284 -5,747 33,028009 874,80834
5281,84 71,3 379,11 143724,3921 1,653 2,732409 626,66883
5455,57 70,9 552,84 305632,0656 1,253 1,570009 692,70852
5161,48 75,9 258,75 66951,5625 6,253 39,100009 1617,96375
5124,75 75,9 222,02 49292,8804 6,253 39,100009 1388,29106
4435,68 66,2 -467,05 218135,7025 -3,447 11,881809 1609,92135
5100,58 61,9 197,85 39144,6225 -7,747 60,016009 -1532,74395
4885,41 63,8 -17,32 299,9824 -5,847 34,187409 101,27004
5416,94 78,4 514,21 264411,9241 8,753 76,615009 4500,88013
4496,66 76,6 -406,07 164892,8449 6,953 48,344209 -2823,40471
4722,08 65,6 -180,65 32634,4225 -4,047 16,378209 731,09055
5537,91 635,18 403453,6324 2,353 5,536609 1494,57854
5074,01 68,5 171,28 29336,8384 -1,147 1,315609 -196,45816
4807,09 65,4 -95,64 9147,0096 -4,247 18,037009 406,18308
4046,02 74,7 -856,71 733952,0241 5,053 25,532809 -4328,95563
4683,93 63,4 -218,8 47873,44 -6,247 39,025009 1366,8436
4872,42 61,9 -30,31 918,6961 -7,747 60,016009 234,81157
4003,22 76,2 -899,51 809118,2401 6,553 42,941809 -5894,48903
4628,01 77,6 -274,72 75471,0784 7,953 63,250209 -2184,84816
4293,44 72,7 -609,29 371234,3041 3,053 9,320809 -1860,16237
5035,7 66,8 132,97 17681,0209 -2,847 8,105409 -378,56559
5780,28 62,3 877,55 770094,0025 -7,347 53,978409 -6447,35985
Итого 147081,89 2089,4 8653417,565 893,95467 6737,61847

 

Найдем уравнение прямой линии методом наименьших квадратов .

Средний вес грузового состава:

= .

Среднее значение времени нахождения поезда на участке:

=

Коэффициенты уравнения:

Уравнение регрессии имеет вид : .

Для линейной связи коэффициенты:

- постоянная регрессии, показывает точку пересечения прямой с осью ординат

- коэффициент регрессии, показывает меру зависимости переменных y от х, указывает среднюю величину изменения переменной у при изменении х на одну единицу, знак В1 определяет направление этого изменения .

Вычислим линейный коэффициент корреляции

= .

 

Таблица 2 - Расчет значений времени нахождения поезда на участке по уравнению регрессии

Вес грузового состава, т, Время нахождения поезда на участке, мин.,
6154,79 78,1 70,6237362
3884,28 63,1 68,8527384
4216,6 72,7 69,111948
5174,03 74,1 69,8587434
5757,94 70,5 70,3141932
4857,76 63,3 69,6120528
4974,92 65,3 69,7034376
4468,04 70,4 69,3080712
4750,51 63,9 69,5283978
5281,84 71,3 69,9428352
5455,57 70,9 70,0783446
5161,48 75,9 69,8489544
5124,75 75,9 69,820305
4435,68 66,2 69,2828304
5100,58 61,9 69,8014524
4885,41 63,8 69,6336198
5416,94 78,4 70,0482132
4496,66 76,6 69,3303948
4722,08 65,6 69,5062224
5537,91 70,1425698
5074,01 68,5 69,7807278
4807,09 65,4 69,5725302
4046,02 74,7 68,9788956
4683,93 63,4 69,4764654
4872,42 61,9 69,6234876
4003,22 76,2 68,9455116
4628,01 77,6 69,4328478
4293,44 72,7 69,1718832
5035,7 66,8 69,750846
5780,28 62,3 70,3316184
Итого 147081,89 2089,4 2089,4  

 

Рис.2. Корреляционное поле и линия регрессии

 

Спрогнозируем время технического обслуживания состава при заданном весе состава (5200 т).

Качественная оценка тесноты связи между величинами выявляется по шкале Чеддока (таблица 3).

 

Таблица 3 - Шкала Чеддока

Теснота связи Значение коэффициента корреляции при наличии
прямой связи обратной связи
Слабая 0,1–0,3 (-0,1)–(-0,3)
Умеренная 0,3–0,5 (-0,3)–(-0,5)
Заметная 0,5–0,7 (-0,5)–(-0,7)
Высокая 0,7–0,9 (-0,7)–(-0,9)
Весьма высокая 0,9–0,99 (-0,9)–(-0,99)

 

 

Вывод. Линейный коэффициент корреляции характеризует тесноту связи между двумя коррелируемыми признаками в случае наличия между ними линейной зависимости. Т.к. = 0,077, то можно говорить о том, что между величинами X и Y существует линейная прямая, низкая связь.

 

Чтобы сделать статистический вывод о значимости коэффициента корреляции (при проверке линейности регрессионной зависимости) выдвигается нулевая гипотеза об отсутствии линейной зависимости между исследуемыми с. в. против альтернативной гипотезы о наличии линейной связи.

,

.

 

Если гипотеза H0 отклоняется, то считается, что уравнение регрессии Y по X действительно имеет линейный вид .

Для проверки гипотезы H0 вычисляется t-статистика

= .

При условии справедливости гипотезы H0 рассчитанная t-статистика имеет распределение Стьюдента с n – 2 степенями свободы. В нашем случаи ta,n при n = n – 2 = 30-2 = 28 степенях свободы (приложение Д). В нашем случае ta,n = t a=0.05, n=13 = 1,701. Так как расчетное значение 0,409 по абсолютной величине не превосходит табличное 1,701 для заданного уровня значимости, то нулевая гипотеза H0 о линейной независимости двух с. в. принимается.