Построение регрессионной модели системы двух случайных величин

Цель работы: изучить основные методы регрессионного и корреляционного анализа; исследовать зависимость между двумя случайными величинами, заданными выборками.

Задание: по виду корреляционного поля сделать предположение о форме регрессионной зависимости между двумя случайными величинами; используя метод наименьших квадратов, найти параметры уравнения регрессии; оценить качество описания зависимости полученным уравнением регрессии.

Пример .По результатам пятнадцати совместных измерений веса грузового поезда, т, и соответствующего времени нахождения поезда на участке Y, ч, представленных в таблице 1, следует исследовать зависимость между данными величинами. Необходимо определить коэффициенты уравнения регрессии методом наименьших квадратов, оценить тесноту связи между величинами, проверить значимость коэффициента корреляции и спрогнозировать время нахождения поезда на участке при заданном весе поезда (5200 т).

Решение. На величину времени нахождения поезда на участке Y, помимо веса X, влияние оказывает профиль и качество железнодорожного полотна, качество подвижного состава, направление и скорость ветра и другие факторы. Поэтому зависимость между величиной времени нахождения поезда на участке Y и веса поезда X является статистической: при одном весе поезда при различных дополнительных условиях время нахождения поезда на участке может принимать различные значения. Для определения вида регрессионной зависимости построим корреляционное поле.

Рис.1. Корреляционное поле

 

Характер расположения точек на диаграмме рассеяния позволяет сделать предположение о линейной регрессионной зависимости .

 

Таблица 1 - Результаты промежуточных вычислений

Вес грузового состава, т, Время нахождения поезда на участке, час.,
5100,58 4,2 327,019 106941,2 0,14007 0,01962 45,8044
4885,41 4,078 111,849 12510,12 0,01807 0,00033 2,02073
5416,94 4,23 643,379 413936,1 0,17007 0,02892 109,417
4496,66 4,001 -276,901 76674,35 -0,0589 0,00347 16,3187
4722,08 4,044 -51,4813 2650,328 -0,0159 0,00025 0,82027
5537,91 4,208 764,349 584228,9 0,14807 0,02192 113,175
5074,01 4,11 300,449 90269,4 0,05007 0,00251 15,0425
4807,09 4,062 33,5287 1124,171 0,00207 4,3E-06 0,06929
4046,02 3,85 -727,541 529316,4 -0,2099 0,04407 152,735
4683,93 4,037 -89,6313 8033,776 -0,0229 0,00053 2,05555
4872,42 4,08 98,8587 9773,036 0,02007 0,0004 1,98376
4003,22 3,9 -770,341 593425,8 -0,1599 0,02558 123,203
4628,01 4,03 -145,551 21185,19 -0,0299 0,0009 4,35684
4293,44 3,96 -480,121 230516,5 -0,0999 0,00999 47,9801
5035,7 4,109 262,139 68716,68 0,04907 0,00241 12,8623
Итого 71603,42 60,899 0,1609 647,845

 

Найдем уравнение прямой линии методом наименьших квадратов .

Средний вес грузового состава:

= .

Среднее значение времени нахождения поезда на участке:

=

Коэффициенты уравнения:

Уравнение регрессии имеет вид : .

Для линейной связи коэффициенты:

- постоянная регрессии, показывает точку пересечения прямой с осью ординат

- коэффициент регрессии, показывает меру зависимости переменных y от х, указывает среднюю величину изменения переменной у при изменении х на одну единицу, знак В1 определяет направление этого изменения .

Вычислим линейный коэффициент корреляции

= .

 

Таблица 2 - Расчет значений времени нахождения поезда на участке по уравнению регрессии

Вес грузового состава, т, Время нахождения поезда на участке, час.,
5100,58 4,2 4,137
4885,41 4,078 4,0863
5416,94 4,23 4,2115
4496,66 4,001 3,9947
4722,08 4,044 4,0478
5537,91 4,208 4,24
5074,01 4,11 4,1307
4807,09 4,062 4,0678
4046,02 3,85 3,8885
4683,93 4,037 4,0388
4872,42 4,08 4,0832
4003,22 3,9 3,8784
4628,01 4,03 4,0256
4293,44 3,96 3,9468
5035,7 4,109 4,1217
Итого 71603,42 60,899 60,899

 

Рис.2. Корреляционное поле и линия регрессии

 

Спрогнозируем время нахождения поезда на участке при заданном весе грузового состава (5200 т).

Качественная оценка тесноты связи между величинами выявляется по шкале Чеддока (таблица 3).

 

Таблица 3 - Шкала Чеддока

Теснота связи Значение коэффициента корреляции при наличии
прямой связи обратной связи
Слабая 0,1–0,3 (-0,1)–(-0,3)
Умеренная 0,3–0,5 (-0,3)–(-0,5)
Заметная 0,5–0,7 (-0,5)–(-0,7)
Высокая 0,7–0,9 (-0,7)–(-0,9)
Весьма высокая 0,9–0,99 (-0,9)–(-0,99)

 

 

Вывод. Линейный коэффициент корреляции характеризует тесноту связи между двумя коррелируемыми признаками в случае наличия между ними линейной зависимости. Т.к. = 0,974, то можно говорить о том, что между величинами X и Y существует линейная прямая, весьма высокая связь.

 

Чтобы сделать статистический вывод о значимости коэффициента корреляции (при проверке линейности регрессионной зависимости) выдвигается нулевая гипотеза об отсутствии линейной зависимости между исследуемыми с. в. против альтернативной гипотезы о наличии линейной связи.

,

.

 

Если гипотеза H0отклоняется, то считается, что уравнение регрессии Y по X действительно имеет линейный вид .

Для проверки гипотезы H0 вычисляется t-статистика

= .

При условии справедливости гипотезы H0 рассчитанная t-статистика имеет распределение Стьюдента с n – 2 степенями свободы. Найденное значение t = 6,247сравнивается с критическим значением ta,n при n = n – 2 = 15-2 = 13 степенях свободы (приложение Д). В нашем случае ta,n = t a=0.05, n=13 = 1,771. Так как расчетное значение 15,501по абсолютной величине превосходит табличное 1,771 для заданного уровня значимости, то нулевая гипотеза H0 о линейной независимости двух с. в. отклоняется.

 

 

Характер расположения точек на диаграмме рассеяния позволяет сделать предположение о параболической регрессионной зависимости

 

.

 

Оценки параметров b0 , b1 и b2 найдем методом наименьших квадратов. Для этого составим функцию S(b0 , b1 , b2), которая в случае параболической регрессии примет вид

 

.

Для отыскания оценок параметров b0 , b1 и b2, минимизирующих функцию S(b0 , b1 , b2) , составим и решим систему нормальных уравнений :

 

Þ Þ

Разделим обе части уравнений (1,2,3) на (-2)

Þ Þ

Þ Þ

 

Для вычисления значений сумм, входящих в систему уравнений , составим расчетную таблицу 4.

Таблица 4 – Результаты промежуточных вычислений

Вес грузового состава, т, Время нахождения поезда на участке, час.,
5100,58 4,2 1,32696 6,76828 21422,44 109266848,6
4885,41 4,078 1,16601 5,69645 19922,7 97330567,48
5416,94 4,23 1,58951 8,61026 22913,66 124121900,8
4496,66 4,001 4,08846 17991,14 80900024,57
4722,08 4,044 1,05293 4,97203 19096,09 90173271,84
5537,91 4,208 1,69839 9,40554 23303,53 129052825,7
5074,01 4,11 1,30633 6,62835 20854,18 105814323,4
4807,09 4,062 1,11083 5,33985 19526,4 93865160,16
4046,02 3,85 2,67986 15577,18 63025569,69
4683,93 4,037 1,02762 4,81329 18909,03 88568551,39
4872,42 4,08 1,15674 5,6361 19879,47 96861144,76
4003,22 3,9 2,56825 15612,56 62500504,44
4628,01 4,03 4,58751 18650,88 86316460,54
4293,44 3,96 3,39799 17002,02 72997163,05
5035,7 4,109 1,27697 6,43042 20691,69 104197149,9
Итого 71603,42 60,899 3,45 1,67081 8,16226

 

После подстановки значений система уравнений примет вид:

 

 

Решив систему уравнений известными методами (методом Крамера, методом Гаусса, методом обратной матрицы) или с помощью MAthCAD, получим следующее решение: ; ; , а уравнение регрессии примет вид

 

.

 

На рисунке представлена диаграмма рассеяния случайных величин X и Y с нанесённой линией регрессии.

 

Рисунок 5 – Диаграмма рассеяния случайных величин X и Y с нанесённой линией регрессии

 

Оценим качество описания зависимости между величиной временем нахождения поезда на участке (Y) и весом грузового состава (Х) полученным уравнением регрессии с помощью коэффициента детерминации, где – значение времени нахождения поезда на участке, предсказываемое уравнением регрессии, при среднем весе грузового состава xi ; час. – среднеарифметическое наблюденных значений времени нахождения поезда на участке.

Таблица 5 – Значения времени нахождения поезда на участке

Вес грузового состава, т, Время нахождения поезда на участке, час., Значение, предсказываемое уравнением регрессии
5100,58 4,2 4,105 0,0196 0,00203
4885,41 4,078 4,0619 0,0003 3,9E-06
5416,94 4,23 4,165 0,0289 0,01104
4496,66 4,001 3,9794 0,0035 0,00649
4722,08 4,044 4,028 0,0003 0,00102
5537,91 4,208 4,1869 0,0219 0,01612
5074,01 4,11 4,0998 0,0025 0,00159
4807,09 4,062 4,0458 4E-06 0,0002
4046,02 3,85 3,8761 0,0441 0,03379
4683,93 4,037 4,0199 0,0005 0,0016
4872,42 4,08 4,0593 0,0004 4,6E-07
4003,22 3,9 3,8659 0,0256 0,03766
4628,01 4,03 4,0079 0,0009 0,0027
4293,44 3,96 3,9338 0,01 0,01591
5035,7 4,109 4,0922 0,0024 0,00104
Итого 71603,42 60,899 60,527 0,1609 0,152839

 

 

Расчётное значение коэффициента детерминации указывает на удовлетворительность описания зависимости между величиной веса грузового состава (Х) и времени нахождения поезда на участке (Y), выбранным уравнением регрессии. Проверим, однако, значимость оценки коэффициента детерминации с помощью статистики Фишера

 

Проверка значимости . При выполнении процедуры проверки значимости оценки коэффициента детерминации выдвигается нулевая гипотеза о том, что предложенное уравнение регрессии никак не отражает реальную зависимость между с. в., т. е. H0: R2 = 0. Альтернативная гипотеза заключается в том, что выбранная модель зависимости (уравнение регрессии) в достаточной степени объясняет действительную зависимость между случайными величинами, т. е. Ha: R2 > 0.

Для проверки значимости оценки коэффициента детерминации используется статистика

,

имеющая F-распределение Фишера с n1 = m – 1 и n2 = nm степенями свободы. Здесь m – число неизвестных параметров предполагаемого уравнения регрессии. Значение статистики сравнивается с критическим значением Fn1, n2, a, найденным по таблицам квантилей распределения Фишера (приложение Е) при заданном уровне значимости и соответствующем числе степеней свободы. Если F > Fn1, n2, a, то нулевая гипотеза отклоняется, вычисленный коэффициент детерминации значимо отличается от нуля, и с вероятностью ошибки a можно утверждать, что между исследуемыми величинами существует зависимость предложенного вида, и полученное уравнение регрессии может использоваться в дальнейших исследованиях.

.

 

Вывод. Критическое значение статистики Фишера для степеней свободы n1 = 3 – 1 = 2 и n2 = 15 – 3 = 12 и уровня значимости a = 0,05 составляет . Поскольку расчётное значение статистики Фишера больше критического ( ), то вычисленный коэффициент детерминации значимо отличается от нуля, и выбранное уравнение регрессионной зависимости между величинами скорости и временем нахождения поезда на участке.

Например, при весе грузового состава 6500 т можно ожидать в среднем время нахождения поезда на участке час.


Варианты заданий для ЛАБОРАТОРНых РАБОТ по МАТЕМАТИЧЕСКОЙ СТАТИСТИКЕ

 

Номера предприятий, которые необходимо выбрать, для выполнения лабораторных работ №1 и № 2 определяются с помощью двух последних цифр шифра студента +40 значений. Например, если две последние цифры шифра студента 22, то выбираем с 22 по 61 строку. Признак, по которому будет производиться выборка, указывается преподавателем.

Номера, которые необходимо выбрать, для выполнения лабораторной работы №3 определяются с помощью двух последних цифр шифра студента +15 значений. Например, если две последние цифры шифра студента 22, то выбираем с 22 по 36 строку. Два признака, по которому будет производиться выборка, указываются преподавателем.

 

 

Задание для факультета УПП и М

 

Номер п/п Вес грузового поезда, т. Средняя участковая скорость, км/ч Время нахождения поезда на участке, час. Время простоя состава под скрещением, мин. .Время технического обслуживания состава, мин.
5161.48 30.31 4.1 20.6 63.9
5124.75 30.4 4.185 7.54 71.3
4435.68 31.1 4.098 23.3 70.9
5100.58 30.35 4.19 7.04 75.9
4885.41 30.7 4.156 2.47 75.9
5416.94 30.1 4.225 39.8 66.2
4496.66 31.1 4.108 0.42 61.9
4722.08 30.9 3.95 63.8
5537.91 29.85 4.2 18.1 78.4
5074.01 30.45 4.18 5.5 76.6
4807.09 30.79 4.145 1.48 65.6
4046.02 31.7 4.05 10.8
4683.93 31.1 4.13 16.9 68.5
4872.42 30.65 4.154 9.77 65.4
4003.22 31.8 4.04 0.55 74.7
4628.01 30.95 4.122 26.2 63.4
4293.44 31.35 4.274 1.46 61.9
5035.7 30.46 4.175 5.3 76.2
5780.28 29.56 4.274 9.09 77.6
4752.14 3.97 8.96 72.7
6115.63 29.2 4.32 11.7 66.8
4788.77 30.75 4.143 62.3
5140.42 30.33 4.189 0.68 63.1
5856.44 29.47 4.285 2.16 70.1
5243.49 31.5 4.2 0.24 75.5
5007.53 30.5 4.17 11.5 66.1
5321.63 30.11 4.21 5.01 69.4
5296.32 30.2 4.3 19.3 71.2
4046.73 31.65 4.05 3.21 65.8
4051.41 31.64 4.05 26.5
4795.27 30.75 4.146 10.4 60.5
4736.68 30.9 4.137 9.45 77.3
4687.59 30.87 4.13 9.27 78.1
4399.2 31.22 4.09 16.8 60.8
5428.04 30.2 4.22 1.22 78.9
5079.74 30.4 4.181 13.2 64.6
4934.46 30.65 4.162 1.99
5207.58 30.3 4.2 6.6 63.8
5556.51 30.5 4.244 10.4 72.6
3543.68 32.25 3.987 2.43 66.1
4878.13 30.8 4.156 7.16 77.7
5590.46 4.25 1.72
5194.84 30.27 4.2 20.3 76.7
4216.72 31.6 4.07 23.8 60.3
4790.17 30.75 4.143 16.8 78.5
5584.01 29.8 4.248 11.3 78.8
4909.11 30.61 4.156 3.01 76.5
4677.98 30.95 4.128 8.59
5343.27 4.214 1.08 68.8
4864.33 30.66 4.15 12.4 75.8
5135.47 30.34 4.19 33.7 71.6
5222.85 30.23 4.2 9.13 79.6
5339.34 29.5 4.22 6.49 66.3
4939.53 30.6 4.162 9.2 60.5
4366.78 31.7 4.09 11.9 70.5
4553.22 31.05 4.01 9.63 79.9
5130.41 30.34 4.19 9.14 77.5
5063.37 30.42 4.18 22.4 69.7
5711.62 29.65 4.265 2.5 77.7
4730.51 30.82 4.136 5.26 72.8
5027.05 30.47 4.174 14.6 79.2
5224.4 31.2 4.2 14.9 68.8
5537.1 29.86 4.24 5.7 76.5
30.1 4.238 6.67 73.2
5233.44 30.22 4.2 1.87 68.6
4912.66 30.6 4.16 23.8 76.1
5329.88 30.1 4.2 1.76 63.6
5455.61 29.95 4.231 9.85 61.1
5196.83 30.26 4.19 8.13 71.2
5924.08 30.1 4.294 5.49 77.8
4476.26 31.2 4.1 1.92 79.1
4849.98 30.68 4.15 1.9
6030.83 29.7 4.31 3.9 75.6
5302.24 30.14 4.21 4.17 64.7
5189.26 30.27 4.19 3.88 72.4
4718.08 30.84 4.137 54.5 75.7
5381.27 30.04 4.22 1.07 61.1
5044.9 30.45 4.18 0.14 62.1
4982.15 30.52 4.168 0.88 69.6
4576.45 31.01 4.214 3.51 62.4
4717.06 4.137 20.7 78.1
6040.33 29.5 4.314 19.3 70.8
4358.76 31.27 4.09 3.24 71.7
5470.73 30.1 4.233 1.92 74.4
4886.58 30.64 4.156 8.24 79.8
4832.32 30.7 4.15 13.5 61.7
5255.13 30.2 4.21 26.4
4378.64 31.25 4.09 1.29 72.9
5237.14 30.2 4.2 12.6 62.5
6154.79 29.1 4.325 22.9 76.9
3884.28 31.8 4.09 5.74 72.3
4216.6 31.44 4.07 8.01 64.5
5174.03 30.29 4.19 25.1 78.1
5757.94 30.1 4.271 15.8 63.1
4857.76 30.67 4.156 17.8 72.7
4974.92 30.53 4.167 14.3 74.1
4468.04 31.14 4.1 1.41 70.5
4750.51 30.8 4.138 4.87 63.3
5281.84 30.16 4.208 1.53 65.3
5455.57 30.9 4.234 10.7 70.4

 

ПРИЛОЖЕНИЕ А (справочное) Таблица значений функции плотности стандартного нормального распределения

  х Сотые доли х
 
  0.0 0.3989
  0.1
  0.2
  0.3
  0.4
  0.5
  0.6
  0.7
  0.8
  0.9
  1.0 0.2420
  1.1
  1.2
  1.3
  1.4
  1.5
  1.6
  1.7
  1.8
  1.9
  2.0 0.0540
  2.1
  2.2
  2.3
  2.4
  2.5
  2.6
  2.7
  2.8
  2.9
3.0 0.0044
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
                 
                       

ПРИЛОЖЕНИЕ Б (справочное) Таблица значений функции Лапласа

х Сотые доли х
0.0 0.0000
0.1 0.0398
0.2 0.0793
0.3 0.1179
0.4 0.1554
0.5 0.1915
0.6 0.2257
0.7
0.8
0.9
1.0 0.3413
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0 0.4772
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0 0.49865                  
3.1 0.49903                  
3.2 0.49931                  
3.3 0.49952                  
3.4 0.49966                  
3.6 0.499841                  
3.8 0.499928                  
4.0 0.499968                  
4.5 0.499997                  
5.0 0.4999997                  
0.5                  

ПРИЛОЖЕНИЕ В (справочное) Таблица значений

 

0.1 0.2 0.3 0.4 0.5 0.6
0.90484 0.81873 0.740818 0.67032 0.60653 0.5488
0.09048 0.16375 0.222245 0.26813 0.30327 0.3293
0.00452 0.01637 0.033337 0.05363 0.07582 0.0988
0.00015 0.00109 0.003334 0.00715 0.01264 0.0198
3.8E–06 5.5E–05 0.00025 0.00072 0.00158 0.003
7.5E–08 2.2E–06 1.5E–05 5.7E–05 0.00016 0.0004
1.3E–09 7.3E–08 7.5E–07 3.8E–06 1.3E–05 4E–05
1.8E–11 2.1E–09 3.21E–08 2.2E–07 9.4E–07 3E–06
2.2E–13 5.2E–11 1.21E–09 1.1E–08 5.9E–08 2E–07
2.5E–15 1.2E–12 4.02E–11 4.8E–10 3.3E–09 2E–08
2.5E–17 2.3E–14 1.21E–12 1.9E–11 1.6E–10 9E–10
0.7 0.8 0.9
0.49659 0.44933 0.40657 0.36788 0.1353 0.04979
0.34761 0.35946 0.36591 0.36788 0.2707 0.14936
0.12166 0.14379 0.16466 0.18394 0.2707 0.22404
0.02839 0.03834 0.0494 0.06131 0.1804 0.22404
0.00497 0.00767 0.01111 0.01533 0.0902 0.16803
0.0007 0.00123 0.002 0.00307 0.0361 0.10082
8.1E–05 0.00016 0.0003 0.00051 0.012 0.05041
8.1E–06 1.9E–05 3.9E–05 7.3E–05 0.0034 0.0216
7.1E–07 1.9E–06 4.3E–06 9.1E–06 0.0009 0.0081
5.5E–08 1.7E–07 4.3E–07 1E–06 0.0002 0.0027
3.9E–09 1.3E–08 3.9E–08 1E–07 4E–05 0.00081

 


Окончание приложения В

 

0.0183 0.0067 0.00248 0.00091 0.0003 0.00012 4.54E–05
0.0733 0.0337 0.01487 0.00638 0.0027 0.00111 0.000454
0.1465 0.0842 0.04462 0.02234 0.0107 0.005 0.00227
0.1954 0.1404 0.08924 0.05213 0.0286 0.01499 0.007567
0.1954 0.1755 0.13385 0.09123 0.0573 0.03374 0.018917
0.1563 0.1755 0.16062 0.12772 0.0916 0.06073 0.037833
0.1042 0.1462 0.16062 0.149 0.1221 0.09109 0.063055
0.0595 0.1044 0.13768 0.149 0.1396 0.11712 0.090079
0.0298 0.0653 0.10326 0.13038 0.1396 0.13176 0.112599
0.0132 0.0363 0.06884 0.1014 0.1241 0.13176 0.12511
0.0053 0.0181 0.0413 0.07098 0.0993 0.11858 0.12511
0.0019 0.0082 0.02253 0.04517 0.0722 0.09702 0.113736
0.0006 0.0034 0.01126 0.02635 0.0481 0.07277 0.09478
0.0002 0.0013 0.0052 0.01419 0.0296 0.05038 0.072908
6E-05 0.0005 0.00223 0.00709 0.0169 0.03238 0.052077
2E-05 0.0002 0.00089 0.00331 0.009 0.01943 0.034718
Примечание

 

 

ПРИЛОЖЕНИЕ Г
(справочное)
Критические точки распределения c2