Выборочный коэффициент корреляции
Измерение тесноты и направления связи является важной задачей изучения и количественного измерения взаимосвязи явлений.
Если известно (или предполагается), что между результативным и факторным признаками существует линейная связь, то для оценки ее тесноты используется выборочный коэффициент корреляции 
 (или просто коэффициент корреляции). Он чаще всего рассчитывается по формуле:
 . (25)
Коэффициент корреляции изменяется в пределах от –1 до +1. Равенство коэффициента нулю свидетельствует об отсутствиилинейной связи. Равенство коэффициента 
 показывает наличие функциональной связи. Знак «+» указывает напрямую связь (увеличение или уменьшение одного признака сопровождается аналогичным изменением другого признака), знак «–» – на обратную связь (увеличение или уменьшение одного признака сопровождается противоположным по направлению изменением другого признака).
В зависимости от того, насколько 
 приближается к 1, различают линейную связь слабую – 
 , умеренную – 
 , заметную – 
 , достаточно тесную – 
 и весьма тесную – 
 .
В отличие от коэффициента регрессии 
 коэффициент корреляции  
 не зависит от принятых единиц измерения признаков, а, следовательно, он сравним для любых признаков.
Как любая статистическая величина, коэффициент корреляции подвержен случайным колебаниям в результате выборочности исследования.
Для оценки значимости коэффициента корреляции применяется 
 -критерий Стьюдента. При этом определяется эмпирическое значение критерия 
 :
 . (26)
Вычисленное по формуле (27) значение 
 сравнивается с критическим, которое берется из таблицы значений 
 распределения Стьюдента с учетом заданного уровня значимости 
 ( 
 ) и числа степеней свободы 
 .
Если 
 , то величина коэффициента корреляции признается значимой.
Случайные процессы
Случайным процессом 
 называется процесс, значение которого при любом значении аргумента 
 является случайной величиной. Обычно 
 – это время.
Пусть с течением времени в случайные моменты 
 происходит некоторое событие 
 . Обозначим 
 число событий, имевших место в интервале 
 . Для определенности начинаем отсчет времени в момент 
 , в который событие 
 не произошло, т.е. 
 .
Важнейшая математическая характеристика такого процесса – это вероятность того, что за время 
 событие 
 произойдет ровно 
 раз:
 , где 
 ,
т.е. закон распределения целочисленной случайной величины 
 .
Процесс 
 называется процессом Пуассона (или простейшим потоком событий), если для него выполняются следующие предположения.
1. Процесс 
 является стационарным, т.е. вероятность появления числа событий 
 во временном промежутке 
 , зависит только от длины этого промежутка (не зависит от начала отсчета).
2. Процесс 
 – это процесс без последствий, т.е. вероятность появления  
 событий на любом участке времени длины 
 не зависит от того, сколько событий появилось на любом другом не пересекающемся с ним участком.
3. Процесс 
 – это ординарный процесс, т.е. вероятность того, что за малый промежуток времени 
 событие  
 произойдет более одного раза, есть величина более высокого порядка малости чем 
 .
Для пуассоновского процесса 
 функция 
 имеет вид:
 , 
 , 
 (27)
Числовой параметр 
 называется интенсивностью пуассоновского потока, т.е. 
 – это среднее число событий  
 , происходящих в единицу времени.
РЕШЕНИЕ ПРИМЕРНОГО ВАРИАНТА РГЗ
Задача 1. Стрелок ведет стрельбу по цели с вероятностью попадания при каждом выстреле 0,4. За каждое попадание он получает 5 очков, а в случае промаха очков ему не начисляют. Составить закон распределения случайной величины 
 – числа очков, полученных стрелком за 3 выстрела, построить многоугольник распределения, вычислить математическое ожидание, дисперсию и среднее квадратическое отклонение этой случайной величины.
Решение.
Случайная величина 
 может принимать 4 значения:
0 – если стрелок промахнулся 3 раза;
5 – если стрелок попал 1 раз при трех выстрелах;
10 – если стрелок попал 2 раза при трех выстрелах;
15 – если стрелок попал 3 раза.
Так как каждый выстрел можно рассматривать, как независимое испытание, в результате которого возможны только два исхода: попадание («успех») или промах («неудача»), то вероятности, соответствующие каждому значению случайной величины, можно найти по формуле Бернулли (5):
 .
По условию задачи имеем: число испытаний 
 , вероятность успеха 
 , 
 , значения 
 будут изменяться от 0 до 3. Т.о. имеем:
 ,
 ,
 ,
 .о
Следовательно, окончательно закон распределения случайной величины 
 будет иметь вид:
   
   |   ||||
   
   |   0,216 | 0,432 | 0,288 | 0,064 | 
Построим многоугольник распределения. Для этого по оси абсцисс отложим возможные значения случайной величины, а по оси ординат – соответствующие им вероятности и соединяем точки (xi, pi) отрезками прямых. Полученная при этом ломаная линия и есть многоугольникраспределения вероятностей случайной величины 
 .
   
   |   
| Рис. 1. Многоугольник распределения вероятностей | 
Рассчитаем числовые характеристики случайной величины 
 .
1. Математическое ожидание вычисляем по формуле (7)
 .
2. Дисперсия вычисляется по формуле (9):
 .
3. Среднее квадратическое отклонение
 .
Ответ. Закон распределения случайной величины 
 :
   
   |   ||||
   
   |   0,216 | 0,432 | 0,288 | 0,064 | 
многоугольник распределения – на рисунке 1, 
 , 
 , 
 .
Задача 2. Случайная величина 
 распределена по нормальному закону с математическим ожиданием 
 и дисперсией 
 . Найти вероятность того, что в результате испытания 
 примет значение, заключенное в интервале 
 .
Решение.
Так как случайная величина 
 имеет нормальное распределение, то вероятность ее попадания в интервал можно найти по формуле (11). Учитывая, что по условию имеем: 
 , 
 , 
 , 
 , то получим:
 .
По таблице значений функции Лапласа 
 находим: F(2)=0,4772, F(1)=0,3413. Значит, получаем:  
 .
Ответ:  
 
Задача 3. По выборке из генеральной совокупности нормально распределенного количественного признака X найти: 1) числовые характеристики выборки – выборочную среднюю, выборочную дисперсию, среднее квадратическое отклонение; 2) несмещенные оценки для генеральной средней и генеральной дисперсии; 3) доверительный интервал для оценки генеральной средней с надежностью  
 .
   
   |   33,2 | 38,2 | 43,2 | 48,2 | 53,2 | 
   
   |   
Решение.
1. Сначала вычислим числовые характеристики выборки.
Выборочную среднюю найдем по формуле (14).
Учитывая, что объем выборки 
 , получаем:
 .
Выборочную дисперсию удобнее вычислять по формуле (16):
 .
Выборочное СКО:
 .
2. Несмещенной оценкой для генеральной средней 
 является выборочная средняя 
 .
Несмещенной оценкой дисперсии 
 генеральной совокупности является исправленная выборочная дисперсия 
 , которая вычисляется по формуле (17):
 .
3. Так как генеральная дисперсия 
 неизвестна, а известна лишь ее оценка – исправленная выборочная дисперсия 
 и данная выборка имеет небольшой объем ( 
 ), то доверительный интервал для генеральной средней можно найти, используя формулы (19) и (21).
Значение 
 находим по таблице распределения Стьюдента, где 
 – доверительная вероятность, 
 – объем выборки, 
 - число степеней свободы.
Учитывая, что 
 , 
 , 
 , находим сначала точность оценки по формуле (21):
 .
Теперь искомый доверительный интервал определяем по формуле (19):

или 
 .
Ответы: 1. 
 , 
 , 
 ; 2. 
 , 
 ; 3. 
 .
Задача 4. Один из регулировочных параметров дизеля характеризуется выборкой из n=40 вариант. Систематизировать выборку по интервалам и выполнить ее статистическую обработку по способу моментов для чего:
1. Построить полигон частот, гистограмму и эмпирическую функцию распределения(кумуляту)
2. Вычислить статистическое среднее 
 , исправленную выборочную дисперсию 
 = 
 , исправленное СКО 
 , моду 
 , медиану 
 , ассиметрию 
 , эксцесс 
 .
3. Найти доверительные интервалы Для М(Х) и б при заданной доверительной вероятности 
 =0.95.
Решение.
Исходный признак является непрерывным, следовательно, по исходным данным необходимо построить интервальный вариационный ряд.
Обычно интервалы, на которые разбивается весь интервал варьирования, имеют одинаковую длину и представимы в виде 
 , где 
 - число интервалов, 
 – длина интервала. Длину 
 следует выбирать так, чтобы построенный ряд не был громоздким, но в то же время позволял выявлять характерные изменения случайной величины. Рекомендуется для 
 использовать следующую формулу:
 , (1)
где 
 – наибольшее и наименьшее значения изучаемого признака, 
 – объем выборочной совокупности. Если окажется, что 
 – дробное число, то за длину интервала следует принять либо ближайшую по округления с избытком дробь, либо ближайшую целую величину. При этом необходимо выполнение условий: 
 .
По исходным данным имеем: 
 , 
 , 
 . Тогда
 (мм).
67-41=26, число интервалов с таким шагом, равно 26/4=6.5. Поэтому, возьмем 7 интервалов, тогда размах выборки равен 4*7=28>26.
В качестве нижней границы первого интервала выберем 
 мм, верхней 
 , размах выборки равен 28. Тогда вариационный ряд будет иметь вид:
| Номер интервала | |||||||
| Границы интервала | 40-44 | 44 – 48 | 48- 52 | 52 – 56 | 56 – 60 | 60 –64 | 64 – 68 | 
| Число частот | 
Одним из способов обработки вариационного ряда является построение эмпирической функции распределения.
Эмпирической функцией распределения, построенной по выборке объема 
 , называется функция 
 , определяемая равенством
 , где 
 – накопленная частость.
| x | ||||||||
| n(частоты) | ||||||||
   
   
   |   1/40 | 5/40 | 18/40 | 29/40 | 35/40 | 39/40 | 
Под первичной статистической обработкой понимают построение полигона частот и гистограммы, кумуляты, а также нахождение моды 
 , медианы 
 , 
 , 
 (определяется по графику 
 ).
Для вычисления 
 , 
 применим метод моментов с использованием условных вариант. Вычислим начальные и центральные моменты. Дальнейшее решение лучше выполнять, используя EXCEL.(см. приложение). Найдем
| среднее | хср=m(1)+54= | 53,83 | ||
| дисперсия | D(X)=v(2)*H^2= | 27,11 | ||
| дисперсия испр | D*(X)=n/(n-1)D(x)= | 27,81 | ||
| СКО=s(x)= | 5.27 | |||
| ассиметрия | A=m(3)*H^3/б^3 | -0,08 | ||
| эксцесс | E=m(4)*H^4/б^4-3 | -0,44 | 
Ассиметрия отрицательна, это указывает на «скос» кривой распределения влево от М(Х). Эксцесс отрицательный, это указывает на то, что кривая данного распределения более «плосковершинная», чем кривая простейшего нормального распределения.
Коэффициент ассиметрии и эксцесс позволяют проверить гипотезу о нормальном распределении. При нормальном распределении случайной величины выполняются следующие неравенства 
 ;
 .
n=40, 0,08<1.093, 0.044<3.22, т.е. неравенства выполняются. Следовательно, выборка произведена из нормально распределенной генеральной совокупности.
Найдем доверительные интервалы для М(Х) и 
 . В случае, когда генеральная дисперсия 
 неизвестна, а известна лишь ее оценка – исправленная выборочная дисперсия 
 , то точность оценки 
 находится по формуле: 
 , где 
 ,причем значение числа 
 определяется по таблице критических точек распределения Стьюдента при доверительной вероятности  
 и числе степеней свободы 
 .
При достаточно больших выборках(n>30) можно воспользоваться формулой 
 , где 
 . По условию 
 =0.95 и 
 , в таблице критических точек распределения Стьюдента при доверительной вероятности 
 и числе степеней свободы  
 находим 
 =2.56. Т.о., 
 . Оценка 
 производится по формуле 
 
 находим в таблице по доверительной вероятности и числу измерений, 
 =0.24.
Задача 5. Массовую долю (%) оксида меди в минерале определили методом иодометрии и методом комплексометрии. По первому методу получили результаты: 38,20; 38,00; 37,66, а по второму: 37,70; 37,65; 37,55. Проверить, различаются ли средние результаты данных методов на уровне значимости 
 , если известно, что результаты измерений имеют нормальный закон распределения с неизвестными, но равными дисперсиями.
Решение.
Вычисляем для каждого метода числовые характеристики, учитывая, что объем каждой выборки равен 
 :
· выборочные средние значения по формуле (14):
 =37,63;
· исправленные выборочные дисперсии по формуле (18):
 , 
 =0,07453;
 =0,00583.
Теперь проверим гипотезу о равенстве средних двух совокупностей.
1. Нулевая гипотеза: 
 : 
 .
Альтернативная гипотеза:  
 : 
2. Уровень значимости 
 .
3. Проверку гипотезы будем проводить с помощью 
 -критерия, так как выборки маленькие и по условию дисперсии генеральных совокупностей неизвестны, но равны. По таблице значений 
 распределения Стьюдента при 
 и числе степеней свободы 
 находим критическое значение: 
 .
4. Рассчитаем эмпирическое значение 
 -критерия, используя формулу (22):
 .
Сравним полученное значение 
 с табличным значением 
 . Так как 
 , то гипотеза 
 принимается.
5. Гипотеза о равенстве средних значений двух методов проверена на уровне значимости 
 с помощью 
 -критерия и принята. Следовательно, результаты обоих методов отражают истинное содержание 
 в минерале.
Ответ: гипотеза 
 о равенстве средних проверена на уровне значимости 
 с помощью 
 -критерия и принята.
Задача 5. Имеются следующие данные об уровне механизации работ 
 (%) и производительности труда 
 (т/чел.) для 14 однотипных предприятий:
| № п/п | |||||||
   
   |   |||||||
   
   |   
| № п/п | |||||||
   
   |   |||||||
   
   |   
Требуется: 1) оценить тесноту и направление связи между признаками с помощью коэффициента корреляции и оценить значимость коэффициента корреляции на уровне значимости 
 ; 2) найти уравнение линейной регрессии 
 на 
 ; 3) в одной системе координат построить эмпирическую и теоретическую линии регрессии.
Решение.
1. Для удобства проведем все необходимые предварительные расчеты в таблице.
Таблица 1
Расчетная таблица
| № п/п |    
   |      
   |      
   |      
   |      
   |   
| Всего | 
Рассчитаем числовые характеристики выборки, используя итоговую строку расчетной таблицы и учитывая, что объем выборки 
 :
· выборочные средние:
 ;
 ;
· средние по квадратам:
 ;
 ;
· средняя по произведениям:
 ;
· выборочные средние квадратические отклонения:
 ; 
 ;
 ; 
 .
Вычислим выборочный коэффициент корреляции по формуле (26):
 .
Т.к. 
 и 
 , то, следовательно, линейная связь между изучаемыми признаками является прямой и весьма тесной.
Оценим значимость выборочного коэффициента корреляции. Для этого рассчитаем эмпирическое значение  
 -критерия по формуле (26):
 .
Для уровня значимости 
 и числа степеней свободы 
 находим критическое значение 
 -критерия: 
 по таблице значений 
 распределения Стьюдента. Поскольку 
 , то коэффициент корреляции между признаками 
 и 
 является значимым (или значимо отличается от нуля).
2. Найдем уравнение линейной регрессии 
 на 
 : 
 , вычислив параметры уравнения регрессии по формулам (23) и (24):
 ;
 .
Следовательно, уравнение прямой регрессии имеет вид:
 .
3) Построим в одной системе координат эмпирическую и теоретическую линии регрессии. Эмпирическая линия – это ломаная, соединяющая точки с координатами 
 , а теоретическая – это график прямой регрессии, уравнение которой было получено в п. 2. Теоретическую линию регрессии можно построить по двум точкам, абсциссы которых выбираются произвольно, а ординаты находятся по построенному уравнению регрессии. Найдем координаты точек для построения теоретической линии регрессии: 
 , тогда 
 ; 
 , 
 . Значит, теоретическую линию регрессии будем строить по двум точкам с координатами 
 и 
 .
   
   |   
| Рис. 2. Эмпирическая и теоретическая линии регрессии | 
Ответ: 1) 
 , линейная связь прямая, весьма тесная, коэффициент корреляции значим на уровне значимости 
 ; 2) выборочное уравнение прямой регрессии 
 ; 3) линии регрессии представлены на рис. 2.
Задача 6. Среднее число заказов такси, поступающих на диспетчерский пункт в одну минуту, равно 3. Найти вероятность того, что за 2 минуты поступит: 1) четыре вызова; 2) менее четырех вызовов; 3) не менее четырех вызовов.
Решение.
Случайные события – заказы такси – представляют собой процесс Пуассона 
 .
По условию имеем: интенсивность потока – среднее число заказов в единицу времени – 
 , промежуток времени 
 .
1) Искомая вероятность того, что за 
 минуты поступит ровно 
 вызова можно вычислить по формуле (28). Имеем:
 .
2) Событие "поступило менее четырех вызовов" произойдет, если за время 
 мин. наступит одно из следующих несовместных событий: «поступило три вызова» – 
 , «поступило два вызова» – 
 , «поступил один вызов» – 
 , «не поступило ни одного вызова» – 
 . Таким образом, искомую вероятность находим с помощью теоремы сложения вероятностей (1):

3) События "поступило не менее четырех вызовов" и "поступило менее четырех вызовов" противоположны, поэтому искомую вероятность того, что за две минуты поступит не менее 4 вызовов, можно найти по формуле (3):
 .
Ответы: 1) 
 ; 2) 
 ; 3) 
СПИСОК ЛИТЕРАТУРЫ
1. Кремер, Н. Ш. Теория вероятностей и математическая статистика : учеб. для вузов / Н. Ш. Кремер. – М. : ЮНИТИ-ДАНА, 2002. – 543 с.
2. Письменный, Д. Т. Конспект лекций по теории вероятностей и математической статистике / Д.Т. Письменный. – М. : Айрис-пресс, 2004. – 256 с. – (Высшее образование).
3. Гмурман, В. Е. Теория вероятностей и математическая статистика : учеб. пособие для вузов / В. Е. Гмурман. – М. : Высш. шк., 1997. – 479 с. : ил.
4. Гмурман, В. Е. Руководство к решению задач по теории вероятностей и математической статистике / В. Е. Гмурман. – М. : Высш. шк., 1998. – 400 с. : ил.
5. Данко, П. Е. Высшая математика в упражнениях и задачах. В 2 ч. Ч. 2 : учеб. пособие для вузов. / П. Е. Данко, А. Г. Попов, Т. Я. Кожевникова. – М. : Оникс : Мир и образование, 2005. – 416 с.
[1] Построение интервальных вариационных рядов целесообразно не только при непрерывной вариации признака, но и если дискретная вариация проявляется в широких пределах, т.е. число вариантов дискретного признака достаточно велико.