Построение уравнения прямой регрессии

 

Двумерная выборка результатов совместных измерений признаков x и y объёмом N = 100 измерений задана корреляционной таблицей (в теле таблицы значения mij – количество раз, когда встретились пары чисел (x, y)):

 

  y1 y2 y3 y4 y5
x1 - - -
x2 - -
x3 - 8 + l 12 + k - - 20 + (l + k)
x4 - - 16 – l 14 – k - 30 – (l + k)
x5 - - -
x6 - -
x7 - - -
19 + l 42 + k l 31 – k N = 100

где xi = 0,2 · l + (i – 1) · 0,3 · k,

yj = 0,5 · l+ (j – 1) · 0,2 · k.


Требуется:

1. Найти и σy для выборки

yj y1 y2 y3 y4 y5
19 + l 42 + k l 31 – k

Примечание. Расчёты и σy можно выполнить аналогично расчётам и σx в задаче 8.1 (пункт 2).

2. Построить уравнение прямой регрессии Y на X в виде ;

и σx следует взять из задачи 8.1 (пункт 2).

3. На графике изобразить корреляционное поле, то есть нанести точки

(xi, yj) и построить прямую .

Примечание. Уравнение регрессии сначала рекомендуется найти в виде

, где r – выборочный коэффициент корреляции, который определяется по формуле:

,

где

 

 

Решение типовой задачи 8.1.(обработка данных одномерной выборки)

 

Выборка X объёмом N = 100 измерений задана таблицей:

i
xi 0,2 1,4 2,6 3,8 6,2 7,4

где xi – результаты измерений, – частоты, с которыми встречаются значения xi.

1. Построить полигон относительных частот .

Решение. Вычислим относительные частоты :

xi 0,2 1,4 2,6 3,8 6,2 7,4
Wi 0,05 0,13 0,25 0,25 0,19 0,1 0,03

 

Построим полигон относительных частот:

2. Вычислить среднее выборочное , выборочную дисперсию Dx и среднее квадратическое отклонение σx.

Решение. Для вычисления , Dx и σx воспользуемся методом произведений. Введем условные варианты:

,

где cx – значение xi, которому соответствует наибольшая частота, cx = x4 = 3,8 (max mi = m4 = 25), шаг выборки hx = 1,2.

Тогда, вычисляя ui, получим условный ряд:

ui -3 -2 -1
mi

 

Для этого ряда составим расчетную таблицу:

i ui mi miui miui2 mi (ui + 1)2
-3 -15
-2 -26
-1 -25
S   -18

Проверка:

S miui2 + 2S miui + S mi = S mi (ui + 1)2; 208 + 2 · (-18) + 100 = 272.

Найдем условные характеристики:

; ; .

Получим характеристики исходного вариационного ряда с использованием равенств xi = hxui + cx:

; Dx = hx2Du = 2,949; sx = hxsu = 1,72.

3. По критерию χ2 (Хи-квадрат) проверить гипотезу о нормальном распределении генеральной совокупности при уровне значимости α = 0,05.

Решение. Задача проверки статистической гипотезы сводится к тому, чтобы при заданном уровне значимости a рассчитать по выборочным данным наблюдаемое значение критерия χ2набл и определить, является ли оно наиболее или наименее правдоподобным в отношении выдвинутой гипотезы.

Проверим гипотезу о нормальном распределении генеральной совокупности, используя критерий χ2 (Пирсона) при α = 0,05.

В основе этого критерия лежит сравнение частот mi и теоретических частот miT, вычисленных в предположении нормального распределения генеральной совокупности. Критерий χ2 не подтверждает однозначно правильность или неправильность гипотезы, а только устанавливает ее согласие или несогласие с данными выборки при заданном уровне значимости α. В качестве критерия выбирается величина

.

Ее значение сравнивают с критическим значением χ2кр, определяемым по соответствующей таблице значений при заданном уровне значимости α и числе степеней свободы k = p r – 1, где p – число интервалов, r = 2 – число параметров нормального закона распределения (a и s). В данном случае p = 7, r = 2, k = 7 – 2 – 1 = 4.

По таблице распределения случайной величины χ2 с числом степеней свободы k = 4 при уровне значимости α = 0,05 находим χ2кр = 9,49.

Если в результате вычислений на основании выборочных данных наблюдаемого значения критерия χ2набл выполняется неравенство χ2набл < χ2кр, то выдвигаемая гипотеза о нормальном распределении генеральной совокупности при заданном α = 0,05 принимается. Если же χ2набл > χ2кр, то гипотезу отвергают.

Применим критерий Пирсона к данной выборке. Для этого составим расчетную таблицу, находя теоретические частоты miT для нормального распределения по формуле

,

где – функция нормального распределения.

xi j(zi) miT mi mimiT
0,2 -1,97 0,06 4,42 0,58 0,076
1,4 -1,27 0,20 13,73 -0,73 0,038
2,6 -0,57 0,37 26,15 -1,15 0,051
3,8 0,13 0,44 30,58 -5,58 1,017
0,82 0,31 21,94 -2,94 0,393
6,2 1,52 0,14 9,66 0,34 0,012
7,4 2,22 0,04 2,61 0,39 0,059
S           1,65

Сумма чисел последнего столбца таблицы дает χ2набл = 1,65.

Так как χ2набл = 1,65 < χ2кр = 9,49, то гипотеза о нормальном распределении генеральной совокупности принимается.

Таким образом, с уровнем значимости α = 0,05 можно считать, что генеральная совокупность распределена по нормальному закону с параметрами a = = 3,58, sx = 1,72.

Ответ. = 3,58; Dx = 2,949; sx = 1,72; гипотеза о нормальном распределении генеральной совокупности принимается.

 

Решение типовой задачи 8.2.(построение уравнения прямой регрессии)

 

Двумерная выборка результатов совместных измерений признаков x и y объёмом N = 100 измерений задана корреляционной таблицей:

  j
i yj xi 0,5 1,3 2,1 2,9 3,7
0,2      
1,4    
2,6      
3,8      
     
6,2    
7,4      
N = 100

 

1. Найти и σy для выборки

yj 0,5 1,3 2,1 2,9 3,7

Решение. Для вычисления , Dy и σy воспользуемся методом произведений. Введем условные варианты:

,

где cy – значение yj, которому соответствует наибольшая частота, cy = y3 = 2,1 (max mj = m3 = 45), шаг выборки hy = 0,8.

Тогда, вычисляя vj, получим условный ряд:

vj -2 -1
mj

 

Для этого ряда составим расчетную таблицу:

j vj mj mjvj mjvj 2 mj (vj + 1)2
-2 -10
-1 -20
S  

Проверка:

S mjvj 2 + 2S mjvj + S mj = S mj (vj + 1)2; 100 + 2 · 3 + 79 = 185.

Найдем условные характеристики:

; ; .

Получим характеристики исходного вариационного ряда с использованием равенств yj = hyvj + cy:

; Dy = hy2Dv = 0,505; sy = hysv = 0,71.

2. Построить уравнение прямой регрессии Y на X в виде .

Решение. Уравнение прямой регрессии Y на X имеет вид:

.

Значения xi и частоты их появления совпадают с данными для задачи 8.1. Следовательно, = 3,58; sx = 1,72; = 2,12; sy = 0,71.

Коэффициент корреляции определяется по формуле:

, где .

Для нахождения воспользуемся корреляционной таблицей

  j
i yj xi 0,5 1,3 2,1 2,9 3,7
0,2       0,98
1,4     22,54
2,6       117,78
3,8       229,9
      239,5
6,2     169,88
7,4       76,22
N = 100 S = 856,8

 

Из таблицы следует, что = 856,8 / 100 = 8,568.

Таким образом,

.

. Уравнение прямой регрессии Y на X имеет вид:

= 0,96 + 0,324x.

3. На графике изобразить корреляционное поле и построить прямую .

На декартовой плоскости Oxy нанести точки (xi, yj) и построить уравнение прямой регрессии Y на X: = 0,96 + 0,324x.

 

 

 


Вопросы на зачет по теории вероятностей и математической статистике

1) Событие. Классификация событий.

2) Классическое определение вероятности.

3) Статистическое определение вероятности.

4) Геометрическое определение вероятности.

5) Элементы комбинаторики.

6) Действия над событиями. Свойства операций над событиями.

7) Теорема сложения вероятностей.

8) Условная вероятность события. Теорема умножения вероятностей.

9) Зависимость и независимость событий.

10) Вероятность суммы совместных событий.

11) Формула полной вероятности. Формула Байеса.

12) Теоретико-множественная трактовка основных понятий и аксиоматическое построение теории вероятностей.

13) Формула Бернулли.

14) Формула Пуассона.

15) Локальная формула Муавра-Лапласа.

16) Интегральная формула Муавра-Лапласа.

17) Случайные величины. Закон распределения дискретной случайной величины.

18) Математические операции над случайными величинами.

19) Математическое ожидание ДСВ и его свойства.

20) Дисперсия ДСВ и ее свойства.

21) Интегральная функция распределения СВ и её свойства.

22) Непрерывная случайная величина. Плотность вероятности и ее свойства.

23) Мода и медиана. Квантили и процентные точки.

24) Моменты случайных величин. Асимметрия и эксцесс.

25) Биномиальный закон распределения.

26) Закон распределения Пуассона.

27) Геометрическое распределение.

28) Равномерный закон распределения.

29) Показательный (экспоненциальный) закон распределения.

30) Нормальный закон распределения.

31) Свойства нормального закона распределения. Правило «трех сигм».

32) Законы распределения двумерной СВ.

33) Числовые характеристики системы двух случайных величин.

34) Ковариация и коэффициент корреляции. Линейная средняя квадратическая регрессия случайной величины Y на случайную величину X.

35) Закон больших чисел. Неравенство Чебышева. Центральная предельная теорема.

36) Генеральная совокупность и выборка. Вариационные ряды.

37) Эмпирическая функция распределения выборки. Полигон и гистограмма вариационного ряда.

38) Точечные статистические оценки. Свойства оценок: несмещенность, эффективность, состоятельность. Выборочные средняя и дисперсия.

39) Методы нахождения оценок. Метод моментов.

40) Методы нахождения оценок. Метод максимального правдоподобия.

41) Интервальные статистические оценки.

42) Проверка статистических гипотез. Схема проверки нулевой гипотезы.

43) Проверка гипотезы о нормальном распределении генеральной совокупности по критерию согласия Пирсона.

44) Регрессионный анализ.

45) Дисперсионный анализ.

 

Задачи

 

1) На станцию прибыли 10 вагонов разной продукции. Вагоны помечены номерами от одного до десяти. Найти вероятность того, что среди пяти выбранных для контрольного вскрытия вагонов окажутся вагоны с номерами 2 и 5.

2) Из 20 акционерных обществ (АО) четыре являются банкротами. Гражданин приобрел по одной акции шести АО. Какова вероятность того, что среди купленных акций две окажутся акциями банкротов?

3) На полке находится 10 книг, расставленных в произвольном порядке. Из них три книги по теории вероятностей, три - по математическому анализу и четыре - по линейной алгебре. Студент случайным образом достает одну книгу. Какова вероятность того, что он возьмет книгу по теории вероятностей или по линейной алгебре?

4) Контролер проверяет изделия на соответствие стандарту. Известно, что вероятность соответствия стандарту изделий равна 0,9. Какова вероятность того, что из двух проверенных изделий оба будут нестандартными, если события появления стандартных изделий независимы?

5) Контролер проверяет изделия на соответствие стандарту. Известно, что вероятность соответствия стандарту изделий равна 0,9. Какова вероятность того, что из двух проверенных изделий только одно стандартное.

6) В партии из 10 деталей 7 стандартных. Найти вероятность того, что среди 6 взятых наудачу деталей 4 стандартные.

7) Брошены две игральные кости. Найти вероятность того, что сумма выпавших очков равна 4 или 3.

8) Из колоды карт (36 штук) наудачу вынимаются три карты. Найти вероятность того, что среди них окажется один туз или две дамы.

9) В магазине имеются 10 женских и 6 мужских шуб. Для анализа качества отобрали случайным образом три шубы. Определить вероятность того, что среди трех отобранных шуб окажутся только женские шубы.

10) В магазине имеются 10 женских и 6 мужских шуб. Для анализа качества отобрали случайным образом три шубы. Определить вероятность того, что среди трех отобранных шуб окажутся только женские или только мужские шубы.

11) На предприятие поступают заявки от нескольких торговых пунктов. Вероятности поступления заявок от пунктов А и В равны соответственно 0,5 и 0,4. Найти вероятность поступления заявок от пункта А или от пункта В, считая события поступления заявок от этих пунктов независимыми, но совместными.

12) На плоскости начерчены две концентрические окружности, радиусы которых 5 см и 10 см соответственно. Найти вероятность попадания наугад брошенной точки в кольцо.

13) В партии 100 изделий, из которых 4 - бракованные. Партия произвольно разделена на две равные части, которые отправлены двум потребителям. Какова вероятность того, что все бракованные изделия достанутся одному потребителю?

14) В партии 100 изделий, из которых 4 - бракованные. Партия произвольно разделена на две равные части, которые отправлены двум потребителям. Какова вероятность того, что все бракованные изделия достанутся обоим потребителям поровну?

15) В магазине было продано 21 из 25 холодильников трех марок, имеющихся в количествах 5, 7 и 13 штук. Полагая, что вероятность быть проданным для холодильника каждой марки одна и та же, найти вероятность того, что остались нераспроданными холодильники одной марки.

16) В магазине было продано 21 из 25 холодильников трех марок, имеющихся в количествах 5, 7 и 13 штук. Полагая, что вероятность быть проданным для холодильника каждой марки одна и та же, найти вероятность того, что остались нераспроданными холодильники трех разных марок.

17) По условиям лотереи «6 из 45» участник лотереи, угадавший 4, 5, 6 номеров из отобранных при случайном розыгрыше 6 номеров из 45, получает денежный приз. Найти вероятность того, что будут угаданы 4 цифры.

18) По условиям лотереи «6 из 45» участник лотереи, угадавший 4, 5, 6 номеров из отобранных при случайном розыгрыше 6 номеров из 45, получает денежный приз. Найти вероятность того, что будут угаданы 5 цифр.

19) По условиям лотереи «6 из 45» участник лотереи, угадавший 4, 5, 6 номеров из отобранных при случайном розыгрыше 6 номеров из 45, получает денежный приз. Найти вероятность того, что будет хотя бы один выигрыш.

20) Вероятность того, что студент сдаст первый экзамен, равна 0,9; второй - 0,9; третий - 0,8. Найти вероятность того, что студент сдаст только 2-й экзамен.

21) Вероятность того, что студент сдаст первый экзамен, равна 0,9; второй - 0,9; третий - 0,8. Найти вероятность того, что студент сдаст только один экзамен.

22) Вероятность того, что студент сдаст первый экзамен, равна 0,9; второй - 0,9; третий - 0,8. Найти вероятность того, что студент сдаст три экзамена.

23) Вероятность того, что студент сдаст первый экзамен, равна 0,9; второй - 0,9; третий - 0,8. Найти вероятность того, что студент сдаст по крайне мере два экзамена.

24) Вероятность того, что студент сдаст первый экзамен, равна 0,9; второй - 0,9; третий - 0,8. Найти вероятность того, что студент сдаст хотя бы один экзамен.

25) Предприятие обеспечивает регулярный выпуск продукции при безотказной поставке комплектующих от двух смежников. Вероятность отказа в поставке продукции от первого из смежников равна 0,05, от второго - 0,08. Найти вероятность сбоя в работе предприятия.

26) На предприятии, изготавливающем замки, первый цех производит 25, второй 35, третий 40% всех замков. Барк составляет соответственно 5, 4 и 2%. Найти вероятность того, что случайно выбранный замок является дефектным.

27) На предприятии, изготавливающем замки, первый цех производит 25, второй 35, третий 40% всех замков. Барк составляет соответственно 5, 4 и 2%. Случайно выбранный замок является дефектным. Какова вероятность того, что он был изготовлен в первом цехе?

28) На предприятии работают две бригады рабочих: первая производит в среднем ¾ продукции с процентом брака 4%, вторая - ¼ продукции с процентом брака 6%. Найти вероятность того, что взятое наугад изделие окажется качественным.

29) На предприятии работают две бригады рабочих: первая производит в среднем ¾ продукции с процентом брака 4%, вторая - ¼ продукции с процентом брака 6%. Найти вероятность того, что взятое наугад изделие изготовлено второй бригадой при условии, что изделие оказалось бракованным.

30) В результате обследования были выделены семьи, имеющие по четыре ребенка. Считая вероятности появления мальчика и девочки в семье равными, определить вероятность появления в ней двух мальчиков.

31) Четыре покупателя приехали на оптовый склад. Вероятность того, что каждому из них потребуется холодильник марки «Стинол», равна 0,4. Найти вероятность того, что холодильник потребуется не менее чем двум покупателям.

32) Четыре покупателя приехали на оптовый склад. Вероятность того, что каждому из них потребуется холодильник марки «Стинол», равна 0,4. Найти вероятность того, что холодильник потребуется не более чем трем покупателям.

33) Четыре покупателя приехали на оптовый склад. Вероятность того, что каждому из них потребуется холодильник марки «Стинол», равна 0,4. Найти вероятность того, что холодильник потребуется всем четырем покупателям.

34) В новом микрорайоне поставлено 10000 домофонов на входных дверях домов. Вероятность выхода из строя одного домофона в течение месяца равна 0,0002. Найти вероятность того, что за месяц откажут пять замков.

35) Завод отправил в торговую сеть 500 изделий. Вероятность повреждения изделия в пути равна 0,002. Найти вероятность того, что при транспортировке будет повреждено более трех изделий.

36) Ряд распределения случайной величины Х имеет вид

X -5
p 0,3 0,4 0,2 0,1

Вычислить P(Х ≥ 3,5).

37) Ряд распределения случайной величины Х имеет вид

X -5
p 0,3 0,4 0,2 0,1

Вычислить P(|Х| < 2,5).

38) Ряд распределения случайной величины Х имеет вид

X
p 0,4 0,2 0,2 0,05 0,1 0,05

Найти M(Х), σ(Х), M(2Х2+ 3).

39) Даны законы распределения независимых случайных величин Х и Y

X -4
p 0,1 0,5 0,4

 

Y
p 0,5 0,5

Найти M(Z), D(Z), если Z = (Х + Y)/2.

40) Случайная величина X задана функцией распределения вероятностей

Найти плотность вероятности и вероятность попадания случайной величины Х в интервал (1; 2,5).

41) Случайная величина X задана функцией распределения вероятностей

Найти математическое ожидание случайной величины Х.

42) Случайная величина X задана функцией распределения вероятностей

Найти среднее квадратичное отклонение случайной величины Х.

43) Плотность вероятности случайной величины X

Найти функцию распределения F(X) и вероятность попадания случайной величины Х в интервал (1; 2,5).

44) Случайная величина X имеет плотность вероятности

Найти медиану Me(X) и вероятность попадания случайной величины Х в интервал (1; 2,5).

45) Случайная величина X распределена равномерно на отрезке [1; 6]. Найти функцию распределения F(X), математическое ожидание, дисперсию и среднее квадратичное отклонение.

46) Случайная величина X распределена равномерно на отрезке [0; 4]. Найти функцию распределения F(X), математическое ожидание, дисперсию и среднее квадратичное отклонение.

47) Математическое ожидание и среднее квадратичное отклонение нормально распределенной случайной величины Х соответственно равны 12 и 2. Найти вероятность попадания случайной величины в интервал (14; 16), показать на графике плотности вероятности.

48) Математическое ожидание и среднее квадратичное отклонение нормально распределенной случайной величины Х соответственно равны 12 и 2. Найти вероятность попадания случайной величины в интервал (-∞; 14), показать на графике плотности вероятности.

49) Математическое ожидание и среднее квадратичное отклонение нормально распределенной случайной величины Х соответственно равны 12 и 2. Сформулировать правило «трех сигм», показать на графике плотности вероятности.

50) Математическое ожидание и среднее квадратичное отклонение нормально распределенной случайной величины Х соответственно равны 12 и 2. Найти вероятность попадания случайной величины в интервал (10; +∞), показать на графике плотности вероятности.

51) Математическое ожидание и среднее квадратичное отклонение нормально распределенной случайной величины Х соответственно равны 12 и 2. Найти квантиль уровня 0,6 и 10%-ю точку.

52) Средний расход удобрений на один гектар пашни составляет 80 кг, а среднее квадратичное отклонение расхода равно 5 кг. Считая расход удобрений нормально распределенной случайной величиной, определить диапазон, в который вносимая доза удобрений попадет с вероятностью 0,98.

53) Математическое ожидание нормально распределенной случайной величины - количества сыра, используемого для изготовления 100 бутербродов, - равно 1 кг. Известно, что с вероятностью 0,96 расход сыра на изготовление 100 бутербродов составляет от 900 до 1100 г. Определить среднее квадратичное отклонение расхода сыра на 100 бутербродов.

54) Среднее время безотказной работы прибора равно 80 часов. Полагая, что время безотказной работы прибора имеет показательный закон распределения, найти вероятность того, что в течение 100 часов прибор не выйдет из строя.

55) Коробки с конфетами упаковываются автоматически. Их средняя масса равна 540 г. Известно, что 5% коробок имеют массу, меньшую 500 г. Каков процент коробок, масса которых менее 470 г?

56) Коробки с конфетами упаковываются автоматически. Их средняя масса равна 540 г. Известно, что 5% коробок имеют массу, меньшую 500 г. Каков процент коробок, масса которых менее от 500 до 550 г?

57) Коробки с конфетами упаковываются автоматически. Их средняя масса равна 540 г. Известно, что 5% коробок имеют массу, меньшую 500 г. Каков процент коробок, масса которых более 550 г?

58) Коробки с конфетами упаковываются автоматически. Их средняя масса равна 540 г. Известно, что 5% коробок имеют массу, меньшую 500 г. Каков процент коробок, масса которых отличается по абсолютной величине от средней не более, чем на 30 г?

59) Коробки с конфетами упаковываются автоматически. Их средняя масса равна 540 г. Известно, что 5% коробок имеют массу, меньшую 500 г. С помощью правила трех сигм найти границы, в которых будет находиться масса коробки.

60) Найти вероятность попадания в интервал (2; 5) случайной величины Т, имеющей показательное распределение

61) Найти математическое ожидание и дисперсию случайной величины X, заданной функцией распределения вероятностей


 

62) Имеется таблица распределения двумерной случайной величины (X, Y):

Y X
0,07 0,16 0,1
0,13 0,09 0,18
0,1 0,05 0,12

Составить таблицы распределения вероятностей для каждой из величин X и Y.

63) Имеется таблица распределения двумерной случайной величины (X, Y):

Y X
0,07 0,16 0,1
0,13 0,09 0,18
0,1 0,05 0,12

Найти условный закон распределения X при Y = 4.

64) Имеется таблица распределения двумерной случайной величины (X, Y):

Y X
0,07 0,16 0,1
0,13 0,09 0,18
0,1 0,05 0,12

Найти условный закон распределения Y при X = 3.

65) Имеется таблица распределения двумерной случайной величины (X, Y):

Y X
0,07 0,16 0,1
0,13 0,09 0,18
0,1 0,05 0,12

Найти регрессию Y на X для значения x2 = 2.

66) Имеется таблица распределения двумерной случайной величины (X, Y):

Y X
0,07 0,16 0,1
0,13 0,09 0,18
0,1 0,05 0,12

Найти регрессию X на Y для значения y1 = 2.

67) Найти распределение относительных частот, основные характеристики вариационного ряда, построить эмпирическую функцию распределения, полигон относительных частот, найти выборочные характеристики (среднюю, дисперсию, СКО), несмещенную выборочную дисперсию, найти асимметрию и эксцесс.

xi
ni

68) Найти доверительный интервал с надежностью 0,8 для оценки математического ожидания нормально распределенной СВ X со средним квадратичным отклонением σx = 5, выборочной средней 20 и объемом выборки n = 25.