Построение регрессионной модели системы двух случайных величин
Лабораторная работа № 3
Цель работы: изучить основные методы регрессионного и корреляционного анализа; исследовать зависимость между двумя случайными величинами, заданными выборками.
Задание: по виду корреляционного поля сделать предположение о форме регрессионной зависимости между двумя случайными величинами; используя метод наименьших квадратов, найти параметры уравнения регрессии; оценить качество описания зависимости полученным уравнением регрессии.
Пример .По результатам тридцати совместных измерений веса грузового поезда, т, и соответствующего времени технического обслуживания состава Y, мин, представленных в таблице 1, следует исследовать зависимость между данными величинами. Необходимо определить коэффициенты уравнения регрессии методом наименьших квадратов, оценить тесноту связи между величинами, проверить значимость коэффициента корреляции и спрогнозировать время нахождения поезда на участке при заданном весе поезда (5200 т).
Решение. На величину времени нахождения поезда на участке Y, помимо веса X, влияние оказывает профиль и качество железнодорожного полотна, качество подвижного состава, направление и скорость ветра и другие факторы. Поэтому зависимость между величиной времени нахождения поезда на участке Y и веса поезда X является статистической: при одном весе поезда при различных дополнительных условиях время нахождения поезда на участке может принимать различные значения. Для определения вида регрессионной зависимости построим корреляционное поле.
Рис.1. Корреляционное поле
Характер расположения точек на диаграмме рассеяния позволяет сделать предположение о линейной регрессионной зависимости
Таблица 1 - Результаты промежуточных вычислений
Вес грузового состава, т, | Время нахождения поезда на участке, мин., | |||||
5329,88 | 63,6 | 1445,6 | 2089759,4 | 2,5 | 6,25 | |
5455,61 | 61,1 | 1239,01 | 1535145,8 | |||
5196,83 | 71,2 | 838,07 | 702361,32 | 9,5 | 90,25 | 7961,665 |
5924,08 | 77,8 | 1545,44 | 2388384,8 | 15,7 | 246,49 | 24263,408 |
4476,26 | 79,1 | 16,7 | 278,89 | |||
4849,98 | 273,53 | 74818,661 | 0,5 | 0,25 | 136,765 | |
6030,83 | 75,6 | 1313,77 | 1725991,6 | 12,6 | 158,76 | 16553,502 |
5302,24 | 64,7 | 584,16 | 341242,91 | 1,6 | 2,56 | 934,656 |
5189,26 | 72,4 | 356,94 | 127406,16 | 8,8 | 77,44 | 3141,072 |
4718,08 | 75,7 | -131,9 | 17397,61 | 11,2 | 125,44 | -1477,28 |
5381,27 | 61,1 | 523,51 | 274062,72 | -3,6 | 12,96 | -1884,636 |
5044,9 | 62,1 | 158,32 | 25065,222 | -7,5 | 56,25 | -1187,4 |
4982,15 | 69,6 | 7,23 | 52,2729 | -1,2 | 1,44 | -8,676 |
4576,45 | 62,4 | -405,7 | 164592,49 | -8,8 | 77,44 | 3570,16 |
4717,06 | 78,1 | -327,84 | 107479,07 | 6,4 | 40,96 | -2098,176 |
6040,33 | 70,8 | 866,3 | 750475,69 | -1,2 | 1,44 | -1039,56 |
4358,76 | 71,7 | -830,5 | 689730,25 | -0,6 | 0,36 | 498,3 |
5470,73 | 74,4 | 273,9 | 75021,21 | 547,8 | ||
4886,58 | 79,8 | -350,56 | 122892,31 | 7,1 | 50,41 | -2488,976 |
4832,32 | 61,7 | -422,81 | 178768,3 | -11,2 | 125,44 | 4735,472 |
5255,13 | -47,11 | 2219,3521 | -2,1 | 4,41 | 98,931 | |
4378,64 | 72,9 | -951,24 | 904857,54 | -1,5 | 2,25 | 1426,86 |
5237,14 | 62,5 | -144,13 | 20773,457 | -13,1 | 171,61 | 1888,103 |
6154,79 | 76,9 | 699,18 | 488852,67 | 1,2 | 1,44 | 839,016 |
3884,28 | 72,3 | -1586,45 | 2516823,6 | -4,6 | 21,16 | 7297,67 |
4216,6 | 64,5 | -1541,34 | -13,3 | 176,89 | 20499,822 | |
5174,03 | 78,1 | -750,05 | ||||
5757,94 | 63,1 | -272,89 | 74468,952 | -15 | 4093,35 | |
4857,76 | 72,7 | -1182,57 | 1398471,8 | -6,4 | 40,96 | 7568,448 |
4974,92 | 74,1 | -1179,87 | 1392093,2 | -5,7 | 32,49 | 6725,259 |
Итого 152654,8 | 2033,24 | 106209,555 |
Найдем уравнение прямой линии методом наименьших квадратов .
Средний вес грузового состава:
= .
Среднее значение времени нахождения поезда на участке:
=
Коэффициенты уравнения:
Уравнение регрессии имеет вид : .
Для линейной связи коэффициенты:
- постоянная регрессии, показывает точку пересечения прямой с осью ординат
- коэффициент регрессии, показывает меру зависимости переменных y от х, указывает среднюю величину изменения переменной у при изменении х на одну единицу, знак В1 определяет направление этого изменения .
Вычислим линейный коэффициент корреляции
= .
Таблица 2 - Расчет значений времени нахождения поезда на участке по уравнению регрессии
Вес грузового состава, т, | Время нахождения поезда на участке, мин., | |
5329,88 | 63,6 | 82,194 |
5455,61 | 61,1 | 88,4805 |
5196,83 | 71,2 | 75,5415 |
5924,08 | 77,8 | 111,904 |
4476,26 | 79,1 | 39,513 |
4849,98 | 58,199 | |
6030,83 | 75,6 | 117,2415 |
5302,24 | 64,7 | 80,812 |
5189,26 | 72,4 | 75,163 |
4718,08 | 75,7 | 51,604 |
5381,27 | 61,1 | 84,7635 |
5044,9 | 62,1 | 67,945 |
4982,15 | 69,6 | 64,8075 |
4576,45 | 62,4 | 44,5225 |
4717,06 | 78,1 | 51,553 |
6040,33 | 70,8 | 117,7165 |
4358,76 | 71,7 | 33,638 |
5470,73 | 74,4 | 89,2365 |
4886,58 | 79,8 | 60,029 |
4832,32 | 61,7 | 57,316 |
5255,13 | 78,4565 | |
4378,64 | 72,9 | 34,632 |
5237,14 | 62,5 | 77,557 |
6154,79 | 76,9 | 123,4395 |
3884,28 | 72,3 | 9,914 |
4216,6 | 64,5 | 26,53 |
5174,03 | 78,1 | 74,4015 |
5757,94 | 63,1 | 103,597 |
4857,76 | 72,7 | 58,588 |
4974,92 | 74,1 | 64,446 |
Итого 152654,8 | 2103,742 |
Рис.2. Корреляционное поле и линия регрессии
Спрогнозируем время технического обслуживания состава при заданном весе состава (5200 т).
Качественная оценка тесноты связи между величинами выявляется по шкале Чеддока (таблица 3).
Таблица 3 - Шкала Чеддока
Теснота связи | Значение коэффициента корреляции при наличии | |
прямой связи | обратной связи | |
Слабая | 0,1–0,3 | (-0,1)–(-0,3) |
Умеренная | 0,3–0,5 | (-0,3)–(-0,5) |
Заметная | 0,5–0,7 | (-0,5)–(-0,7) |
Высокая | 0,7–0,9 | (-0,7)–(-0,9) |
Весьма высокая | 0,9–0,99 | (-0,9)–(-0,99) |
Вывод. Линейный коэффициент корреляции характеризует тесноту связи между двумя коррелируемыми признаками в случае наличия между ними линейной зависимости. Т.к. = 0,512, то можно говорить о том, что между величинами X и Y существует линейная прямая, заметная связь.
Чтобы сделать статистический вывод о значимости коэффициента корреляции (при проверке линейности регрессионной зависимости) выдвигается нулевая гипотеза об отсутствии линейной зависимости между исследуемыми с. в. против альтернативной гипотезы о наличии линейной связи.
,
.
Если гипотеза H0 отклоняется, то считается, что уравнение регрессии Y по X действительно имеет линейный вид .
Для проверки гипотезы H0 вычисляется t-статистика
= .
При условии справедливости гипотезы H0 рассчитанная t-статистика имеет распределение Стьюдента с n – 2 степенями свободы. В нашем случаи ta,n при n = n – 2 = 30-2 = 28 степенях свободы (приложение Д). В нашем случае ta,n = t a=0.05, n=28 = 1,701. Так как расчетное 3,15 по абсолютной величине превосходит табличное 1,701 для заданного уровня значимости, то нулевая гипотеза H0 о линейной независимости двух с. в. отклоняется.
Характер расположения точек на диаграмме рассеяния позволяет сделать предположение о параболической регрессионной зависимости
.
Оценки параметров b0 , b1 и b2 найдем методом наименьших квадратов. Для этого составим функцию S(b0 , b1 , b2), которая в случае параболической регрессии примет вид
.
Для отыскания оценок параметров b0 , b1 и b2, минимизирующих функцию S(b0 , b1 , b2) , составим и решим систему нормальных уравнений :
Þ Þ
Разделим обе части уравнений (1,2,3) на (-2)
Þ Þ
Þ Þ
Для вычисления значений сумм, входящих в систему уравнений , составим расчетную таблицу 4.
Таблица 4 – Результаты промежуточных вычислений
Вес грузового состава, т, | Время нахождения поезда на участке, мин., | |||||
5329,88 | 63,6 | 2,8E+07 | 1,514E+11 | 8,07E+14 | 338980,37 | 1,81E+09 |
5455,61 | 61,1 | 3E+07 | 1,624E+11 | 8,86E+14 | 333337,77 | 1,82E+09 |
5196,83 | 71,2 | 2,7E+07 | 1,404E+11 | 7,29E+14 | 370014,3 | 1,92E+09 |
5924,08 | 77,8 | 3,5E+07 | 2,079E+11 | 1,23E+15 | 460893,42 | 2,73E+09 |
4476,26 | 79,1 | 2E+07 | 8,969E+10 | 4,01E+14 | 354072,17 | 1,58E+09 |
4849,98 | 2,4E+07 | 1,141E+11 | 5,53E+14 | 305548,74 | 1,48E+09 | |
6030,83 | 75,6 | 3,6E+07 | 2,193E+11 | 1,32E+15 | 455930,75 | 2,75E+09 |
5302,24 | 64,7 | 2,8E+07 | 1,491E+11 | 7,9E+14 | 343054,93 | 1,82E+09 |
5189,26 | 72,4 | 2,7E+07 | 1,397E+11 | 7,25E+14 | 375702,42 | 1,95E+09 |
4718,08 | 75,7 | 2,2E+07 | 1,05E+11 | 4,96E+14 | 357158,66 | 1,69E+09 |
5381,27 | 61,1 | 2,9E+07 | 1,558E+11 | 8,39E+14 | 328795,6 | 1,77E+09 |
5044,9 | 62,1 | 2,5E+07 | 1,284E+11 | 6,48E+14 | 313288,29 | 1,58E+09 |
4982,15 | 69,6 | 2,5E+07 | 1,237E+11 | 6,16E+14 | 346757,64 | 1,73E+09 |
4576,45 | 62,4 | 2,1E+07 | 9,585E+10 | 4,39E+14 | 285570,48 | 1,31E+09 |
4717,06 | 78,1 | 2,2E+07 | 1,05E+11 | 4,95E+14 | 368402,39 | 1,74E+09 |
6040,33 | 70,8 | 3,6E+07 | 2,204E+11 | 1,33E+15 | 427655,36 | 2,58E+09 |
4358,76 | 71,7 | 1,9E+07 | 8,281E+10 | 3,61E+14 | 312523,09 | 1,36E+09 |
5470,73 | 74,4 | 3E+07 | 1,637E+11 | 8,96E+14 | 407022,31 | 2,23E+09 |
4886,58 | 79,8 | 2,4E+07 | 1,167E+11 | 5,7E+14 | 389949,08 | 1,91E+09 |
4832,32 | 61,7 | 2,3E+07 | 1,128E+11 | 5,45E+14 | 298154,14 | 1,44E+09 |
5255,13 | 2,8E+07 | 1,451E+11 | 7,63E+14 | 378369,36 | 1,99E+09 | |
4378,64 | 72,9 | 1,9E+07 | 8,395E+10 | 3,68E+14 | 319202,86 | 1,4E+09 |
5237,14 | 62,5 | 2,7E+07 | 1,436E+11 | 7,52E+14 | 327321,25 | 1,71E+09 |
6154,79 | 76,9 | 3,8E+07 | 2,332E+11 | 1,44E+15 | 473303,35 | 2,91E+09 |
3884,28 | 72,3 | 1,5E+07 | 5,86E+10 | 2,28E+14 | 280833,44 | 1,09E+09 |
4216,6 | 64,5 | 1,8E+07 | 7,497E+10 | 3,16E+14 | 271970,7 | 1,15E+09 |
5174,03 | 78,1 | 2,7E+07 | 1,385E+11 | 7,17E+14 | 404091,74 | 2,09E+09 |
5757,94 | 63,1 | 3,3E+07 | 1,909E+11 | 1,1E+15 | 363326,01 | 2,09E+09 |
4857,76 | 72,7 | 2,4E+07 | 1,146E+11 | 5,57E+14 | 353159,15 | 1,72E+09 |
4974,92 | 74,1 | 2,5E+07 | 1,231E+11 | 6,13E+14 | 368641,57 | 1,83E+09 |
Итого 152654,8 | 7,9E+08 | 4,091E+12 | 2,15E+16 | 5,52E+10 |
После подстановки значений система уравнений примет вид:
Решив систему уравнений известными методами (методом Крамера, методом Гаусса, методом обратной матрицы) или с помощью MAthCAD, получим следующее решение: ; ; , а уравнение регрессии примет вид
.
На рисунке представлена диаграмма рассеяния случайных величин X и Y с нанесённой линией регрессии.
Рисунок 5 – Диаграмма рассеяния случайных величин X и Y с нанесённой линией регрессии
Оценим качество описания зависимости между величиной временем нахождения поезда на участке (Y) и весом грузового состава (Х) полученным уравнением регрессии с помощью коэффициента детерминации, где – значение времени нахождения поезда на участке, предсказываемое уравнением регрессии, при среднем весе грузового состава xi ; час. – среднеарифметическое наблюденных значений времени нахождения поезда на участке.
Таблица 5 – Значения времени нахождения поезда на участке
Вес грузового состава, т, | Время нахождения поезда на участке, мин., | Значение, предсказываемое уравнением регрессии | ||
5329,88 | 63,6 | - 388,95 | 2,05E+05 | 2,22E+05 |
5455,61 | 61,1 | - 410,99 | 2,23E+05 | 2,49E+05 |
5196,83 | 71,2 | - 366,24 | 1,91E+05 | 1,95E+05 |
5924,08 | 77,8 | - 498,14 | 3,32E+05 | 3,72E+05 |
4476,26 | 79,1 | - 254,32 | 1,11E+05 | 8,63E+04 |
4849,98 | - 310,03 | 1,39E+05 | 1,36E+05 | |
6030,83 | 75,6 | - 519,11 | 3,54E+05 | 4,05E+05 |
5302,24 | 64,7 | - 384,18 | 2,01E+05 | 2,16E+05 |
5189,26 | 72,4 | - 364,96 | 1,91E+05 | 1,94E+05 |
4718,08 | 75,7 | - 289,80 | 1,34E+05 | 1,17E+05 |
5381,27 | 61,1 | - 397,89 | 2,11E+05 | 2,33E+05 |
5044,9 | 62,1 | - 341,08 | 1,63E+05 | 1,67E+05 |
4982,15 | 69,6 | - 330,94 | 1,60E+05 | 1,57E+05 |
4576,45 | 62,4 | - 268,76 | 1,10E+05 | 9,81E+04 |
4717,06 | 78,1 | - 289,64 | 1,35E+05 | 1,16E+05 |
6040,33 | 70,8 | - 520,99 | 3,50E+05 | 4,08E+05 |
4358,76 | 71,7 | - 237,84 | 9,58E+04 | 7,37E+04 |
5470,73 | 74,4 | - 413,68 | 2,38E+05 | 2,53E+05 |
4886,58 | 79,8 | - 315,76 | 1,56E+05 | 1,41E+05 |
4832,32 | 61,7 | - 307,29 | 1,36E+05 | 1,33E+05 |
5255,13 | - 376,11 | 2,01E+05 | 2,07E+05 | |
4378,64 | 72,9 | - 240,60 | 9,83E+04 | 7,58E+04 |
5237,14 | 62,5 | - 373,05 | 1,90E+05 | 2,03E+05 |
6154,79 | 76,9 | - 543,97 | 3,85E+05 | 4,45E+05 |
3884,28 | 72,3 | - 176,36 | 6,18E+04 | 3,47E+04 |
4216,6 | 64,5 | - 218,57 | 8,01E+04 | 6,01E+04 |
5174,03 | 78,1 | - 362,41 | 1,94E+05 | 1,91E+05 |
5757,94 | 63,1 | - 466,33 | 2,80E+05 | 3,25E+05 |
4857,76 | 72,7 | - 311,25 | 1,47E+05 | 1,37E+05 |
4974,92 | 74,1 | - 329,78 | 1,63E+05 | 1,55E+05 |
Итого 152654,8 | - 10 609,00 | 5 637 621,32 | 5 805 717,39 |
Расчётное значение коэффициента детерминации указывает на удовлетворительность описания зависимости между величиной веса грузового состава (Х) и времени нахождения поезда на участке (Y), выбранным уравнением регрессии