Изучение формы распределения
Для получения приблизительного представления о форме распределения строят графики распределения (полигон и гистограмму). Число наблюдений, по которому строится эмпирическое распределение, обычно невелико. При увеличении числа наблюдений, в пределе мы получим плавную кривую, которая называется кривой распределения.
Кривая распределения характеризует теоретическое распределение, т.е. то распределение, которое получилось бы при полном погашении всех случайных причин.
Исследование закономерности (или формы) распределения включает решение трех задач:
- Выяснения общего характера распределения;
- Выравнивание эмпирического распределения (построения кривой y=¦(x) с заданной формулой);
- Проверка соответствия найденного теоретического распределения эмпирическому распределению.
В практике статистического исследования встречаются самые различные распределения.
Выяснения общего характера распределения предполагает оценку степени его однородности (одновершинность распределения), а также вычисление показателей асимметрии и эксцесса. Симметричным является распределение, в котором частоты любых двух вариант, равностоящих в обе стороны от центра распределения, равны между собой. Для симметричных распределений имеет место равенство средней арифметической ( ), моды ( Мо ) и медианы (Ме ).
Для сравнительного анализа степени асимметрии нескольких распределений рассчитывают относительным показателем асимметрии Аs:
Аs =( - Мо)/ s
Положительная величина показателя асимметрии указывает на наличие правосторонней асимметрии ( Мо < Me < ), а отрицательная величина Аs свидетельствует о наличии левосторонней асимметрии ( Мо > Me > ).
Оценка степени существенности показателя Аs осуществляется с помощью средней квадратической ошибки, которая зависит от объема наблюдений и рассчитывается по формуле:
sАs = , где n – число наблюдений.
Если (|Аs|/ sАs) > 3, асимметрия существенна и распределение признаков в генеральной совокупности не является симметричным.
Если (|Аs|/ sАs) < 3, асимметрия несущественна, ее наличие объясняется влиянием случайных обстоятельств.
Для симметричных распределений рассчитывается показатель эксцесса (островершинности). Линдбергом предложен следующий показатель для оценки эксцесса: Еx = П – 38,29, где П – доля в (%) количества вариантов, лежащих в интервале, половине среднего квадратического отклонения в ту и другую сторону от средней арифметической.
Наиболее точным является показатель, основанный на использовании центрального момента четвертого порядка
Еx =(m4/s4)-3, где
m4 =( å ¦i (Xi – )4 )/ - Центральный момент четвертого порядка.
Эксцесс представляет собой выпад вершины эмпирического распределения вверх или вниз от вершины кривой нормального распределения.
В нормальном распределении отношение: (m4/s4)=3
Средняя квадратическая ошибка эксцесса рассчитывается по формуле:
sЕх = , где n - число наблюдений.
Оценка существенности показателей асимметрии и эксцесса позволяет сделать вывод о том, можно ли отнести данное эмпирическое распределение к типу кривых нормального распределения.
Если интервальная случайная величина имеет плотность распределения
f(x)= e
То она подчиняется закону нормального распределения. Для построения кривой нормального распределения достаточно знать два параметра: и s.
Нормальное распределение возможно в том случае, когда на величину признака влияет большое число случайных причин. Действие этих причин независимо, и ни одна из причин не имеет преобладающего влияния над другими.
Особенности кривой нормального распределения:
- Кривая симметрична относительно максимальной ординаты. Максимальная ордината соответствует значению = Мо = Ме, ее величина равна ;
- Кривая асимптотически приближается к оси абсцисс, продолжаясь в обе стороны до бесконечности. Следовательно, чем больше значение отклонения от , тем реже они встречаются. Одинаковые по абсолютному значению, но противоположные по знаку отклонения значения переменной хi от равновероятны;
- Кривая имеет две точки перегиба, находящиеся на расстоянии ± s от ;
- При = const c увеличением s кривая становится более пологой.
При s = const с изменением кривая не меняет свою форму, а лишь сдвигается вправо или влево по оси абсцисс.
- В промежутке ±s находится 68,3% всех значений признака. В промежутке ±2s находится 95,4% всех значений признака. В промежутке ±3s находится 99,7% всех значений признака.
Для удобства вычисления вероятностей случайные величины нормируются, а затем используют заранее табулированные значения плотности функции распределения нормированной случайной величины.
Если обозначим через t, то величину e называют нормированной функцией, а эта функция протабулирована. Для нормированной случайной величины математическое ожидание равно нулю, а дисперсия равна единице.
Определенный интеграл вида Ф(t) = носит название нормированной функции Лапласа и характеризует площадь под кривой в промежутке от нуля до t.
Пользуясь функцией Лапласа можно оценить вероятность попадания нормально распределенной случайной величины Х в заданный интервал (a ; b), т.е. Р ( a £ Х £ b ) = Ф ( t2 ) – Ф ( t1 ), где t1 =(a – )/ s ; t2 = (b – )/ s
Пример: Случайная величина Х распределена по нормальному закону. Математическое ожидание и среднее квадратическое отклонение этой величины соответственно равны 30 и 10. Найти вероятность того, что Х примет значение, принадлежащее интервалу (10,50).
Решение:
Р ( 10<Х<50 ) = Ф ((50-30)/10) – Ф ((10-30/10) = 2Ф (2) = 2×0,4772 = 0,9544 или 95,44% (Ф (2) = 0,4772 и получено из Приложения I).
Пример. Рассмотрим построение кривой нормального распределения на примере, характеризующем распределение партий деталей по длительности производственного цикла
Границы интервала | Наблюдаемая частота fi | Ф( ) | Ф( ) | Рi | |||
- - 28 | - | -1,927 | -0,5 | -0,4732 | 0,0268 | 1,9 | |
28 - 113 | -1,927 | -1,393 | -0,4732 | -0,4177 | 0,0555 | 3,94 | |
113 - 198 | -1,393 | -0,852 | -0,4177 | -0,3023 | 0,1154 | 8,19 | |
198 - 283 | -0,852 | -0,312 | -0,3023 | -0,1217 | 0,1806 | 12,82 | |
283 - 368 | -0,312 | 0,229 | -0,1217 | -0,091 | 0,2127 | 15,11 | |
368 - 453 | 0,229 | 0,769 | -0,091 | 0,2791 | 0,1884 | 13,4 | |
453 - 538 | 0,769 | 1,31 | 0,2791 | 0,4049 | 0,1258 | 8,93 | |
538 - 623 | 1,31 | 1,86 | 0,4049 | 0,4686 | 0,0637 | 4,52 | |
623 - 708 | 1,86 | 2,39 | 0,4686 | 0,4915 | 0,0229 | 1,63 | |
708 - + | 2,39 | + | 0,4915 | 0,5 | 0,0085 | 0,59 | |
Итого |
Нормальное распределение определяется двумя параметрами, оценки которых нужно знать:
это среднее арифметическое и средне квадратическое отклонение. Из приведенных данных = 331 г., s = 157,25 г.
Условные обозначения в таблице:
Хн и Хв - нижние и верхние границы интервалов.
и - нормированные отклонения для нижней и верхней границ интервала.
Ф( ) и Ф( ) – значение интегральной функции Лапласа. (Определяется из таблицы см. Приложение 1).
Рi – оценка вероятности попадания в интервал.
– частота теоретического распределения.
Теоретическая частота = Pi × n.
Например, для первого интервала = 0,0268 × 71 = 1,9 и т.д., а å ¦i = å