Выборочный коэффициент корреляции
Измерение тесноты и направления связи является важной задачей изучения и количественного измерения взаимосвязи явлений.
Если известно (или предполагается), что между результативным и факторным признаками существует линейная связь, то для оценки ее тесноты используется выборочный коэффициент корреляции (или просто коэффициент корреляции). Он чаще всего рассчитывается по формуле:
. (25)
Коэффициент корреляции изменяется в пределах от –1 до +1. Равенство коэффициента нулю свидетельствует об отсутствиилинейной связи. Равенство коэффициента показывает наличие функциональной связи. Знак «+» указывает напрямую связь (увеличение или уменьшение одного признака сопровождается аналогичным изменением другого признака), знак «–» – на обратную связь (увеличение или уменьшение одного признака сопровождается противоположным по направлению изменением другого признака).
В зависимости от того, насколько приближается к 1, различают линейную связь слабую –
, умеренную –
, заметную –
, достаточно тесную –
и весьма тесную –
.
В отличие от коэффициента регрессии коэффициент корреляции
не зависит от принятых единиц измерения признаков, а, следовательно, он сравним для любых признаков.
Как любая статистическая величина, коэффициент корреляции подвержен случайным колебаниям в результате выборочности исследования.
Для оценки значимости коэффициента корреляции применяется -критерий Стьюдента. При этом определяется эмпирическое значение критерия
:
. (26)
Вычисленное по формуле (27) значение сравнивается с критическим, которое берется из таблицы значений
распределения Стьюдента с учетом заданного уровня значимости
(
) и числа степеней свободы
.
Если , то величина коэффициента корреляции признается значимой.
Случайные процессы
Случайным процессом называется процесс, значение которого при любом значении аргумента
является случайной величиной. Обычно
– это время.
Пусть с течением времени в случайные моменты происходит некоторое событие
. Обозначим
число событий, имевших место в интервале
. Для определенности начинаем отсчет времени в момент
, в который событие
не произошло, т.е.
.
Важнейшая математическая характеристика такого процесса – это вероятность того, что за время событие
произойдет ровно
раз:
, где
,
т.е. закон распределения целочисленной случайной величины .
Процесс называется процессом Пуассона (или простейшим потоком событий), если для него выполняются следующие предположения.
1. Процесс является стационарным, т.е. вероятность появления числа событий
во временном промежутке
, зависит только от длины этого промежутка (не зависит от начала отсчета).
2. Процесс – это процесс без последствий, т.е. вероятность появления
событий на любом участке времени длины
не зависит от того, сколько событий появилось на любом другом не пересекающемся с ним участком.
3. Процесс – это ординарный процесс, т.е. вероятность того, что за малый промежуток времени
событие
произойдет более одного раза, есть величина более высокого порядка малости чем
.
Для пуассоновского процесса функция
имеет вид:
,
,
(27)
Числовой параметр называется интенсивностью пуассоновского потока, т.е.
– это среднее число событий
, происходящих в единицу времени.
РЕШЕНИЕ ПРИМЕРНОГО ВАРИАНТА РГЗ
Задача 1. Стрелок ведет стрельбу по цели с вероятностью попадания при каждом выстреле 0,4. За каждое попадание он получает 5 очков, а в случае промаха очков ему не начисляют. Составить закон распределения случайной величины – числа очков, полученных стрелком за 3 выстрела, построить многоугольник распределения, вычислить математическое ожидание, дисперсию и среднее квадратическое отклонение этой случайной величины.
Решение.
Случайная величина может принимать 4 значения:
0 – если стрелок промахнулся 3 раза;
5 – если стрелок попал 1 раз при трех выстрелах;
10 – если стрелок попал 2 раза при трех выстрелах;
15 – если стрелок попал 3 раза.
Так как каждый выстрел можно рассматривать, как независимое испытание, в результате которого возможны только два исхода: попадание («успех») или промах («неудача»), то вероятности, соответствующие каждому значению случайной величины, можно найти по формуле Бернулли (5):
.
По условию задачи имеем: число испытаний , вероятность успеха
,
, значения
будут изменяться от 0 до 3. Т.о. имеем:
,
,
,
.о
Следовательно, окончательно закон распределения случайной величины будет иметь вид:
![]() | ||||
![]() | 0,216 | 0,432 | 0,288 | 0,064 |
Построим многоугольник распределения. Для этого по оси абсцисс отложим возможные значения случайной величины, а по оси ординат – соответствующие им вероятности и соединяем точки (xi, pi) отрезками прямых. Полученная при этом ломаная линия и есть многоугольникраспределения вероятностей случайной величины .
![]() |
Рис. 1. Многоугольник распределения вероятностей |
Рассчитаем числовые характеристики случайной величины .
1. Математическое ожидание вычисляем по формуле (7)
.
2. Дисперсия вычисляется по формуле (9):
.
3. Среднее квадратическое отклонение
.
Ответ. Закон распределения случайной величины :
![]() | ||||
![]() | 0,216 | 0,432 | 0,288 | 0,064 |
многоугольник распределения – на рисунке 1, ,
,
.
Задача 2. Случайная величина распределена по нормальному закону с математическим ожиданием
и дисперсией
. Найти вероятность того, что в результате испытания
примет значение, заключенное в интервале
.
Решение.
Так как случайная величина имеет нормальное распределение, то вероятность ее попадания в интервал можно найти по формуле (11). Учитывая, что по условию имеем:
,
,
,
, то получим:
.
По таблице значений функции Лапласа находим: F(2)=0,4772, F(1)=0,3413. Значит, получаем:
.
Ответ:
Задача 3. По выборке из генеральной совокупности нормально распределенного количественного признака X найти: 1) числовые характеристики выборки – выборочную среднюю, выборочную дисперсию, среднее квадратическое отклонение; 2) несмещенные оценки для генеральной средней и генеральной дисперсии; 3) доверительный интервал для оценки генеральной средней с надежностью .
![]() | 33,2 | 38,2 | 43,2 | 48,2 | 53,2 |
![]() |
Решение.
1. Сначала вычислим числовые характеристики выборки.
Выборочную среднюю найдем по формуле (14).
Учитывая, что объем выборки , получаем:
.
Выборочную дисперсию удобнее вычислять по формуле (16):
.
Выборочное СКО:
.
2. Несмещенной оценкой для генеральной средней является выборочная средняя
.
Несмещенной оценкой дисперсии генеральной совокупности является исправленная выборочная дисперсия
, которая вычисляется по формуле (17):
.
3. Так как генеральная дисперсия неизвестна, а известна лишь ее оценка – исправленная выборочная дисперсия
и данная выборка имеет небольшой объем (
), то доверительный интервал для генеральной средней можно найти, используя формулы (19) и (21).
Значение находим по таблице распределения Стьюдента, где
– доверительная вероятность,
– объем выборки,
- число степеней свободы.
Учитывая, что ,
,
, находим сначала точность оценки по формуле (21):
.
Теперь искомый доверительный интервал определяем по формуле (19):
или .
Ответы: 1. ,
,
; 2.
,
; 3.
.
Задача 4. Один из регулировочных параметров дизеля характеризуется выборкой из n=40 вариант. Систематизировать выборку по интервалам и выполнить ее статистическую обработку по способу моментов для чего:
1. Построить полигон частот, гистограмму и эмпирическую функцию распределения(кумуляту)
2. Вычислить статистическое среднее , исправленную выборочную дисперсию
=
, исправленное СКО
, моду
, медиану
, ассиметрию
, эксцесс
.
3. Найти доверительные интервалы Для М(Х) и б при заданной доверительной вероятности =0.95.
Решение.
Исходный признак является непрерывным, следовательно, по исходным данным необходимо построить интервальный вариационный ряд.
Обычно интервалы, на которые разбивается весь интервал варьирования, имеют одинаковую длину и представимы в виде , где
- число интервалов,
– длина интервала. Длину
следует выбирать так, чтобы построенный ряд не был громоздким, но в то же время позволял выявлять характерные изменения случайной величины. Рекомендуется для
использовать следующую формулу:
, (1)
где – наибольшее и наименьшее значения изучаемого признака,
– объем выборочной совокупности. Если окажется, что
– дробное число, то за длину интервала следует принять либо ближайшую по округления с избытком дробь, либо ближайшую целую величину. При этом необходимо выполнение условий:
.
По исходным данным имеем: ,
,
. Тогда
(мм).
67-41=26, число интервалов с таким шагом, равно 26/4=6.5. Поэтому, возьмем 7 интервалов, тогда размах выборки равен 4*7=28>26.
В качестве нижней границы первого интервала выберем мм, верхней
, размах выборки равен 28. Тогда вариационный ряд будет иметь вид:
Номер интервала | |||||||
Границы интервала | 40-44 | 44 – 48 | 48- 52 | 52 – 56 | 56 – 60 | 60 –64 | 64 – 68 |
Число частот |
Одним из способов обработки вариационного ряда является построение эмпирической функции распределения.
Эмпирической функцией распределения, построенной по выборке объема , называется функция
, определяемая равенством
, где
– накопленная частость.
x | ||||||||
n(частоты) | ||||||||
![]() | 1/40 | 5/40 | 18/40 | 29/40 | 35/40 | 39/40 |
Под первичной статистической обработкой понимают построение полигона частот и гистограммы, кумуляты, а также нахождение моды , медианы
,
,
(определяется по графику
).
Для вычисления ,
применим метод моментов с использованием условных вариант. Вычислим начальные и центральные моменты. Дальнейшее решение лучше выполнять, используя EXCEL.(см. приложение). Найдем
среднее | хср=m(1)+54= | 53,83 | ||
дисперсия | D(X)=v(2)*H^2= | 27,11 | ||
дисперсия испр | D*(X)=n/(n-1)D(x)= | 27,81 | ||
СКО=s(x)= | 5.27 | |||
ассиметрия | A=m(3)*H^3/б^3 | -0,08 | ||
эксцесс | E=m(4)*H^4/б^4-3 | -0,44 |
Ассиметрия отрицательна, это указывает на «скос» кривой распределения влево от М(Х). Эксцесс отрицательный, это указывает на то, что кривая данного распределения более «плосковершинная», чем кривая простейшего нормального распределения.
Коэффициент ассиметрии и эксцесс позволяют проверить гипотезу о нормальном распределении. При нормальном распределении случайной величины выполняются следующие неравенства ;
.
n=40, 0,08<1.093, 0.044<3.22, т.е. неравенства выполняются. Следовательно, выборка произведена из нормально распределенной генеральной совокупности.
Найдем доверительные интервалы для М(Х) и . В случае, когда генеральная дисперсия
неизвестна, а известна лишь ее оценка – исправленная выборочная дисперсия
, то точность оценки
находится по формуле:
, где
,причем значение числа
определяется по таблице критических точек распределения Стьюдента при доверительной вероятности
и числе степеней свободы
.
При достаточно больших выборках(n>30) можно воспользоваться формулой , где
. По условию
=0.95 и
, в таблице критических точек распределения Стьюдента при доверительной вероятности
и числе степеней свободы
находим
=2.56. Т.о.,
. Оценка
производится по формуле
находим в таблице по доверительной вероятности и числу измерений,
=0.24.
Задача 5. Массовую долю (%) оксида меди в минерале определили методом иодометрии и методом комплексометрии. По первому методу получили результаты: 38,20; 38,00; 37,66, а по второму: 37,70; 37,65; 37,55. Проверить, различаются ли средние результаты данных методов на уровне значимости , если известно, что результаты измерений имеют нормальный закон распределения с неизвестными, но равными дисперсиями.
Решение.
Вычисляем для каждого метода числовые характеристики, учитывая, что объем каждой выборки равен :
· выборочные средние значения по формуле (14):
=37,63;
· исправленные выборочные дисперсии по формуле (18):
,
=0,07453;
=0,00583.
Теперь проверим гипотезу о равенстве средних двух совокупностей.
1. Нулевая гипотеза: :
.
Альтернативная гипотеза: :
2. Уровень значимости .
3. Проверку гипотезы будем проводить с помощью -критерия, так как выборки маленькие и по условию дисперсии генеральных совокупностей неизвестны, но равны. По таблице значений
распределения Стьюдента при
и числе степеней свободы
находим критическое значение:
.
4. Рассчитаем эмпирическое значение -критерия, используя формулу (22):
.
Сравним полученное значение с табличным значением
. Так как
, то гипотеза
принимается.
5. Гипотеза о равенстве средних значений двух методов проверена на уровне значимости с помощью
-критерия и принята. Следовательно, результаты обоих методов отражают истинное содержание
в минерале.
Ответ: гипотеза о равенстве средних проверена на уровне значимости
с помощью
-критерия и принята.
Задача 5. Имеются следующие данные об уровне механизации работ (%) и производительности труда
(т/чел.) для 14 однотипных предприятий:
№ п/п | |||||||
![]() | |||||||
![]() |
№ п/п | |||||||
![]() | |||||||
![]() |
Требуется: 1) оценить тесноту и направление связи между признаками с помощью коэффициента корреляции и оценить значимость коэффициента корреляции на уровне значимости ; 2) найти уравнение линейной регрессии
на
; 3) в одной системе координат построить эмпирическую и теоретическую линии регрессии.
Решение.
1. Для удобства проведем все необходимые предварительные расчеты в таблице.
Таблица 1
Расчетная таблица
№ п/п | ![]() | ![]() | ![]() | ![]() | ![]() |
Всего |
Рассчитаем числовые характеристики выборки, используя итоговую строку расчетной таблицы и учитывая, что объем выборки :
· выборочные средние:
;
;
· средние по квадратам:
;
;
· средняя по произведениям:
;
· выборочные средние квадратические отклонения:
;
;
;
.
Вычислим выборочный коэффициент корреляции по формуле (26):
.
Т.к. и
, то, следовательно, линейная связь между изучаемыми признаками является прямой и весьма тесной.
Оценим значимость выборочного коэффициента корреляции. Для этого рассчитаем эмпирическое значение -критерия по формуле (26):
.
Для уровня значимости и числа степеней свободы
находим критическое значение
-критерия:
по таблице значений
распределения Стьюдента. Поскольку
, то коэффициент корреляции между признаками
и
является значимым (или значимо отличается от нуля).
2. Найдем уравнение линейной регрессии на
:
, вычислив параметры уравнения регрессии по формулам (23) и (24):
;
.
Следовательно, уравнение прямой регрессии имеет вид:
.
3) Построим в одной системе координат эмпирическую и теоретическую линии регрессии. Эмпирическая линия – это ломаная, соединяющая точки с координатами , а теоретическая – это график прямой регрессии, уравнение которой было получено в п. 2. Теоретическую линию регрессии можно построить по двум точкам, абсциссы которых выбираются произвольно, а ординаты находятся по построенному уравнению регрессии. Найдем координаты точек для построения теоретической линии регрессии:
, тогда
;
,
. Значит, теоретическую линию регрессии будем строить по двум точкам с координатами
и
.
![]() |
Рис. 2. Эмпирическая и теоретическая линии регрессии |
Ответ: 1) , линейная связь прямая, весьма тесная, коэффициент корреляции значим на уровне значимости
; 2) выборочное уравнение прямой регрессии
; 3) линии регрессии представлены на рис. 2.
Задача 6. Среднее число заказов такси, поступающих на диспетчерский пункт в одну минуту, равно 3. Найти вероятность того, что за 2 минуты поступит: 1) четыре вызова; 2) менее четырех вызовов; 3) не менее четырех вызовов.
Решение.
Случайные события – заказы такси – представляют собой процесс Пуассона .
По условию имеем: интенсивность потока – среднее число заказов в единицу времени – , промежуток времени
.
1) Искомая вероятность того, что за минуты поступит ровно
вызова можно вычислить по формуле (28). Имеем:
.
2) Событие "поступило менее четырех вызовов" произойдет, если за время мин. наступит одно из следующих несовместных событий: «поступило три вызова» –
, «поступило два вызова» –
, «поступил один вызов» –
, «не поступило ни одного вызова» –
. Таким образом, искомую вероятность находим с помощью теоремы сложения вероятностей (1):
3) События "поступило не менее четырех вызовов" и "поступило менее четырех вызовов" противоположны, поэтому искомую вероятность того, что за две минуты поступит не менее 4 вызовов, можно найти по формуле (3):
.
Ответы: 1) ; 2)
; 3)
СПИСОК ЛИТЕРАТУРЫ
1. Кремер, Н. Ш. Теория вероятностей и математическая статистика : учеб. для вузов / Н. Ш. Кремер. – М. : ЮНИТИ-ДАНА, 2002. – 543 с.
2. Письменный, Д. Т. Конспект лекций по теории вероятностей и математической статистике / Д.Т. Письменный. – М. : Айрис-пресс, 2004. – 256 с. – (Высшее образование).
3. Гмурман, В. Е. Теория вероятностей и математическая статистика : учеб. пособие для вузов / В. Е. Гмурман. – М. : Высш. шк., 1997. – 479 с. : ил.
4. Гмурман, В. Е. Руководство к решению задач по теории вероятностей и математической статистике / В. Е. Гмурман. – М. : Высш. шк., 1998. – 400 с. : ил.
5. Данко, П. Е. Высшая математика в упражнениях и задачах. В 2 ч. Ч. 2 : учеб. пособие для вузов. / П. Е. Данко, А. Г. Попов, Т. Я. Кожевникова. – М. : Оникс : Мир и образование, 2005. – 416 с.
[1] Построение интервальных вариационных рядов целесообразно не только при непрерывной вариации признака, но и если дискретная вариация проявляется в широких пределах, т.е. число вариантов дискретного признака достаточно велико.