Выборочный коэффициент корреляции

Измерение тесноты и направления связи является важной задачей изучения и количественного измерения взаимосвязи явлений.

Если известно (или предполагается), что между результативным и факторным признаками существует линейная связь, то для оценки ее тесноты используется выборочный коэффициент корреляции (или просто коэффициент корреляции). Он чаще всего рассчитывается по формуле:

. (25)

Коэффициент корреляции изменяется в пределах от –1 до +1. Равенство коэффициента нулю свидетельствует об отсутствиилинейной связи. Равенство коэффициента показывает наличие функциональной связи. Знак «+» указывает напрямую связь (увеличение или уменьшение одного признака сопровождается аналогичным изменением другого признака), знак «–» – на обратную связь (увеличение или уменьшение одного признака сопровождается противоположным по направлению изменением другого признака).

В зависимости от того, насколько приближается к 1, различают линейную связь слабую – , умеренную – , заметную – , достаточно тесную – и весьма тесную – .

В отличие от коэффициента регрессии коэффициент корреляции не зависит от принятых единиц измерения признаков, а, следовательно, он сравним для любых признаков.

Как любая статистическая величина, коэффициент корреляции подвержен случайным колебаниям в результате выборочности исследования.

Для оценки значимости коэффициента корреляции применяется -критерий Стьюдента. При этом определяется эмпирическое значение критерия :

. (26)

Вычисленное по формуле (27) значение сравнивается с критическим, которое берется из таблицы значений распределения Стьюдента с учетом заданного уровня значимости ( ) и числа степеней свободы .

Если , то величина коэффициента корреляции признается значимой.

 

Случайные процессы

Случайным процессом называется процесс, значение которого при любом значении аргумента является случайной величиной. Обычно – это время.

Пусть с течением времени в случайные моменты происходит некоторое событие . Обозначим число событий, имевших место в интервале . Для определенности начинаем отсчет времени в момент , в который событие не произошло, т.е. .

Важнейшая математическая характеристика такого процесса – это вероятность того, что за время событие произойдет ровно раз:

, где ,

т.е. закон распределения целочисленной случайной величины .

Процесс называется процессом Пуассона (или простейшим потоком событий), если для него выполняются следующие предположения.

1. Процесс является стационарным, т.е. вероятность появления числа событий во временном промежутке , зависит только от длины этого промежутка (не зависит от начала отсчета).

2. Процесс – это процесс без последствий, т.е. вероятность появления событий на любом участке времени длины не зависит от того, сколько событий появилось на любом другом не пересекающемся с ним участком.

3. Процесс – это ординарный процесс, т.е. вероятность того, что за малый промежуток времени событие произойдет более одного раза, есть величина более высокого порядка малости чем .

Для пуассоновского процесса функция имеет вид:

, , (27)

Числовой параметр называется интенсивностью пуассоновского потока, т.е. – это среднее число событий , происходящих в единицу времени.

РЕШЕНИЕ ПРИМЕРНОГО ВАРИАНТА РГЗ

Задача 1. Стрелок ведет стрельбу по цели с вероятностью попадания при каждом выстреле 0,4. За каждое попадание он получает 5 очков, а в случае промаха очков ему не начисляют. Составить закон распределения случайной величины – числа очков, полученных стрелком за 3 выстрела, построить многоугольник распределения, вычислить математическое ожидание, дисперсию и среднее квадратическое отклонение этой случайной величины.

Решение.

Случайная величина может принимать 4 значения:

0 – если стрелок промахнулся 3 раза;

5 – если стрелок попал 1 раз при трех выстрелах;

10 – если стрелок попал 2 раза при трех выстрелах;

15 – если стрелок попал 3 раза.

Так как каждый выстрел можно рассматривать, как независимое испытание, в результате которого возможны только два исхода: попадание («успех») или промах («неудача»), то вероятности, соответствующие каждому значению случайной величины, можно найти по формуле Бернулли (5):

.

По условию задачи имеем: число испытаний , вероятность успеха , , значения будут изменяться от 0 до 3. Т.о. имеем:

,

,

,

Следовательно, окончательно закон распределения случайной величины будет иметь вид:

0,216 0,432 0,288 0,064

 

Построим многоугольник распределения. Для этого по оси абсцисс отложим возможные значения случайной величины, а по оси ординат – соответствующие им вероятности и соединяем точки (xi, pi) отрезками прямых. Полученная при этом ломаная линия и есть многоугольникраспределения вероятностей случайной величины .

Рис. 1. Многоугольник распределения вероятностей

 

Рассчитаем числовые характеристики случайной величины .

1. Математическое ожидание вычисляем по формуле (7)

.

2. Дисперсия вычисляется по формуле (9):

.

3. Среднее квадратическое отклонение

.

Ответ. Закон распределения случайной величины :

0,216 0,432 0,288 0,064

многоугольник распределения – на рисунке 1, , , .

Задача 2. Случайная величина распределена по нормальному закону с математическим ожиданием и дисперсией . Найти вероятность того, что в результате испытания примет значение, заключенное в интервале .

Решение.

Так как случайная величина имеет нормальное распределение, то вероятность ее попадания в интервал можно найти по формуле (11). Учитывая, что по условию имеем: , , , , то получим:

.

По таблице значений функции Лапласа находим: F(2)=0,4772, F(1)=0,3413. Значит, получаем: .

Ответ:

Задача 3. По выборке из генеральной совокупности нормально распределенного количественного признака X найти: 1) числовые характеристики выборки – выборочную среднюю, выборочную дисперсию, среднее квадратическое отклонение; 2) несмещенные оценки для генеральной средней и генеральной дисперсии; 3) доверительный интервал для оценки генеральной средней с надежностью .

33,2 38,2 43,2 48,2 53,2

Решение.

1. Сначала вычислим числовые характеристики выборки.

Выборочную среднюю найдем по формуле (14).

Учитывая, что объем выборки , получаем:

.

Выборочную дисперсию удобнее вычислять по формуле (16):

.

Выборочное СКО:

.

2. Несмещенной оценкой для генеральной средней является выборочная средняя .

Несмещенной оценкой дисперсии генеральной совокупности является исправленная выборочная дисперсия , которая вычисляется по формуле (17):

.

 

3. Так как генеральная дисперсия неизвестна, а известна лишь ее оценка – исправленная выборочная дисперсия и данная выборка имеет небольшой объем ( ), то доверительный интервал для генеральной средней можно найти, используя формулы (19) и (21).

Значение находим по таблице распределения Стьюдента, где – доверительная вероятность, – объем выборки, - число степеней свободы.

Учитывая, что , , , находим сначала точность оценки по формуле (21):

.

Теперь искомый доверительный интервал определяем по формуле (19):

или .

Ответы: 1. , , ; 2. , ; 3. .

Задача 4. Один из регулировочных параметров дизеля характеризуется выборкой из n=40 вариант. Систематизировать выборку по интервалам и выполнить ее статистическую обработку по способу моментов для чего:

1. Построить полигон частот, гистограмму и эмпирическую функцию распределения(кумуляту)

2. Вычислить статистическое среднее , исправленную выборочную дисперсию = , исправленное СКО , моду , медиану , ассиметрию , эксцесс .

3. Найти доверительные интервалы Для М(Х) и б при заданной доверительной вероятности =0.95.

 

Решение.

Исходный признак является непрерывным, следовательно, по исходным данным необходимо построить интервальный вариационный ряд.

Обычно интервалы, на которые разбивается весь интервал варьирования, имеют одинаковую длину и представимы в виде , где - число интервалов, – длина интервала. Длину следует выбирать так, чтобы построенный ряд не был громоздким, но в то же время позволял выявлять характерные изменения случайной величины. Рекомендуется для использовать следующую формулу:

, (1)

где – наибольшее и наименьшее значения изучаемого признака, – объем выборочной совокупности. Если окажется, что – дробное число, то за длину интервала следует принять либо ближайшую по округления с избытком дробь, либо ближайшую целую величину. При этом необходимо выполнение условий: .

По исходным данным имеем: , , . Тогда

(мм).

67-41=26, число интервалов с таким шагом, равно 26/4=6.5. Поэтому, возьмем 7 интервалов, тогда размах выборки равен 4*7=28>26.

В качестве нижней границы первого интервала выберем мм, верхней , размах выборки равен 28. Тогда вариационный ряд будет иметь вид:

 

Номер интервала
Границы интервала 40-44 44 – 48 48- 52 52 – 56 56 – 60 60 –64 64 – 68
Число частот

 

Одним из способов обработки вариационного ряда является построение эмпирической функции распределения.

Эмпирической функцией распределения, построенной по выборке объема , называется функция , определяемая равенством

, где – накопленная частость.

x  
n(частоты)  
  1/40 5/40 18/40 29/40 35/40 39/40

 

Под первичной статистической обработкой понимают построение полигона частот и гистограммы, кумуляты, а также нахождение моды , медианы , , (определяется по графику ).

Для вычисления , применим метод моментов с использованием условных вариант. Вычислим начальные и центральные моменты. Дальнейшее решение лучше выполнять, используя EXCEL.(см. приложение). Найдем

         
среднее   хср=m(1)+54= 53,83
         
дисперсия D(X)=v(2)*H^2= 27,11
дисперсия испр D*(X)=n/(n-1)D(x)= 27,81
СКО=s(x)=     5.27
ассиметрия A=m(3)*H^3/б^3 -0,08
         
эксцесс   E=m(4)*H^4/б^4-3 -0,44

Ассиметрия отрицательна, это указывает на «скос» кривой распределения влево от М(Х). Эксцесс отрицательный, это указывает на то, что кривая данного распределения более «плосковершинная», чем кривая простейшего нормального распределения.

Коэффициент ассиметрии и эксцесс позволяют проверить гипотезу о нормальном распределении. При нормальном распределении случайной величины выполняются следующие неравенства ;

.

n=40, 0,08<1.093, 0.044<3.22, т.е. неравенства выполняются. Следовательно, выборка произведена из нормально распределенной генеральной совокупности.

Найдем доверительные интервалы для М(Х) и . В случае, когда генеральная дисперсия неизвестна, а известна лишь ее оценка – исправленная выборочная дисперсия , то точность оценки находится по формуле: , где ,причем значение числа определяется по таблице критических точек распределения Стьюдента при доверительной вероятности и числе степеней свободы .

При достаточно больших выборках(n>30) можно воспользоваться формулой , где . По условию =0.95 и , в таблице критических точек распределения Стьюдента при доверительной вероятности и числе степеней свободы находим =2.56. Т.о., . Оценка производится по формуле находим в таблице по доверительной вероятности и числу измерений, =0.24.

Задача 5. Массовую долю (%) оксида меди в минерале определили методом иодометрии и методом комплексометрии. По первому методу получили результаты: 38,20; 38,00; 37,66, а по второму: 37,70; 37,65; 37,55. Проверить, различаются ли средние результаты данных методов на уровне значимости , если известно, что результаты измерений имеют нормальный закон распределения с неизвестными, но равными дисперсиями.

Решение.

Вычисляем для каждого метода числовые характеристики, учитывая, что объем каждой выборки равен :

· выборочные средние значения по формуле (14):

=37,63;

· исправленные выборочные дисперсии по формуле (18):

,

=0,07453;

=0,00583.

Теперь проверим гипотезу о равенстве средних двух совокупностей.

1. Нулевая гипотеза: : .

Альтернативная гипотеза: :

2. Уровень значимости .

3. Проверку гипотезы будем проводить с помощью -критерия, так как выборки маленькие и по условию дисперсии генеральных совокупностей неизвестны, но равны. По таблице значений распределения Стьюдента при и числе степеней свободы находим критическое значение: .

4. Рассчитаем эмпирическое значение -критерия, используя формулу (22):

.

 

Сравним полученное значение с табличным значением . Так как , то гипотеза принимается.

5. Гипотеза о равенстве средних значений двух методов проверена на уровне значимости с помощью -критерия и принята. Следовательно, результаты обоих методов отражают истинное содержание в минерале.

Ответ: гипотеза о равенстве средних проверена на уровне значимости с помощью -критерия и принята.

 

Задача 5. Имеются следующие данные об уровне механизации работ (%) и производительности труда (т/чел.) для 14 однотипных предприятий:

№ п/п

 

№ п/п

Требуется: 1) оценить тесноту и направление связи между признаками с помощью коэффициента корреляции и оценить значимость коэффициента корреляции на уровне значимости ; 2) найти уравнение линейной регрессии на ; 3) в одной системе координат построить эмпирическую и теоретическую линии регрессии.

Решение.

1. Для удобства проведем все необходимые предварительные расчеты в таблице.

Таблица 1

Расчетная таблица

№ п/п
Всего

Рассчитаем числовые характеристики выборки, используя итоговую строку расчетной таблицы и учитывая, что объем выборки :

· выборочные средние:

;

;

· средние по квадратам:

;

;

· средняя по произведениям:

;

· выборочные средние квадратические отклонения:

; ;

; .

Вычислим выборочный коэффициент корреляции по формуле (26):

.

Т.к. и , то, следовательно, линейная связь между изучаемыми признаками является прямой и весьма тесной.

Оценим значимость выборочного коэффициента корреляции. Для этого рассчитаем эмпирическое значение -критерия по формуле (26):

.

Для уровня значимости и числа степеней свободы находим критическое значение -критерия: по таблице значений распределения Стьюдента. Поскольку , то коэффициент корреляции между признаками и является значимым (или значимо отличается от нуля).

2. Найдем уравнение линейной регрессии на : , вычислив параметры уравнения регрессии по формулам (23) и (24):

;

.

Следовательно, уравнение прямой регрессии имеет вид:

.

3) Построим в одной системе координат эмпирическую и теоретическую линии регрессии. Эмпирическая линия – это ломаная, соединяющая точки с координатами , а теоретическая – это график прямой регрессии, уравнение которой было получено в п. 2. Теоретическую линию регрессии можно построить по двум точкам, абсциссы которых выбираются произвольно, а ординаты находятся по построенному уравнению регрессии. Найдем координаты точек для построения теоретической линии регрессии: , тогда ; , . Значит, теоретическую линию регрессии будем строить по двум точкам с координатами и .

Рис. 2. Эмпирическая и теоретическая линии регрессии

Ответ: 1) , линейная связь прямая, весьма тесная, коэффициент корреляции значим на уровне значимости ; 2) выборочное уравнение прямой регрессии ; 3) линии регрессии представлены на рис. 2.

 

Задача 6. Среднее число заказов такси, поступающих на диспетчерский пункт в одну минуту, равно 3. Найти вероятность того, что за 2 минуты поступит: 1) четыре вызова; 2) менее четырех вызовов; 3) не менее четырех вызовов.

Решение.

Случайные события – заказы такси – представляют собой процесс Пуассона .

По условию имеем: интенсивность потока – среднее число заказов в единицу времени – , промежуток времени .

1) Искомая вероятность того, что за минуты поступит ровно вызова можно вычислить по формуле (28). Имеем:

.

2) Событие "поступило менее четырех вызовов" произойдет, если за время мин. наступит одно из следующих несовместных событий: «поступило три вызова» – , «поступило два вызова» – , «поступил один вызов» – , «не поступило ни одного вызова» – . Таким образом, искомую вероятность находим с помощью теоремы сложения вероятностей (1):

3) События "поступило не менее четырех вызовов" и "поступило менее четырех вызовов" противоположны, поэтому искомую вероятность того, что за две минуты поступит не менее 4 вызовов, можно найти по формуле (3):

.

Ответы: 1) ; 2) ; 3)

 

СПИСОК ЛИТЕРАТУРЫ

 

1. Кремер, Н. Ш. Теория вероятностей и математическая статистика : учеб. для вузов / Н. Ш. Кремер. – М. : ЮНИТИ-ДАНА, 2002. – 543 с.

2. Письменный, Д. Т. Конспект лекций по теории вероятностей и математической статистике / Д.Т. Письменный. – М. : Айрис-пресс, 2004. – 256 с. – (Высшее образование).

3. Гмурман, В. Е. Теория вероятностей и математическая статистика : учеб. пособие для вузов / В. Е. Гмурман. – М. : Высш. шк., 1997. – 479 с. : ил.

4. Гмурман, В. Е. Руководство к решению задач по теории вероятностей и математической статистике / В. Е. Гмурман. – М. : Высш. шк., 1998. – 400 с. : ил.

5. Данко, П. Е. Высшая математика в упражнениях и задачах. В 2 ч. Ч. 2 : учеб. пособие для вузов. / П. Е. Данко, А. Г. Попов, Т. Я. Кожевникова. – М. : Оникс : Мир и образование, 2005. – 416 с.

 

 


[1] Построение интервальных вариационных рядов целесообразно не только при непрерывной вариации признака, но и если дискретная вариация проявляется в широких пределах, т.е. число вариантов дискретного признака достаточно велико.