Эмпирическое распределение. Точечные оценки параметров распределения генеральной совокупности

 

Во многих случаях мы располагаем информацией о виде закона распределения случайной величины (нормальный, бернуллиевский, равномерный и т. п.), но не знаем параметров этого распределения, таких как M[x], D[x]. Для определения этих параметров применяется выборочный метод.

Пусть выборка объема n представлена в виде вариационного ряда. Назовем выборочной средней величину

Величина называется относительной частотой значения признака xi.

Если значения признака, полученные из выборки, не группировать и не представлять в виде вариационного ряда, то для вычисления выборочной средней нужно пользоваться формулой

.

Естественно считать величину выборочной оценкой параметра Mx.

Выборочная оценка параметра, представляющая собой число, называетсяточечной оценкой.

Выборочную дисперсию можно считать точечной оценкой дисперсии D[x] генеральной совокупности.

Используя выборочный метод можно сделать некоторые выводы о наличии или глубине корреляционной связи случайных величин x иh, даже не зная закона совместного их распределения. Выборку объема n в этом случае представим в виде таблицы, где i-й отобранный объект (i = 1, 2, ... , n)представлен парой чисел xi, yi:

 

x1 x2 ... xn
y1 y2 ... yn
         

Выборочный коэффициент корреляции рассчитывается по формуле

Здесь

,

Выборочный коэффициент корреляции можно рассматривать как точечную оценку коэффициента корреляции rxh, характеризующего генеральную совокупность.

Выборочные параметры или любые другие зависят от того, какие объекты генеральной совокупности попали в выборку и различаются от выборки к выборке. Поэтому они сами являются случайными величинами.

Пусть выборочный параметр dрассматривается как выборочная оценка параметра D генеральной совокупности и при этом выполняется равенство

M[d] = D..

Такая выборочная оценка называется несмещенной.

Для доказательства несмещённости некоторых точечных оценок будем рассматривать выборку объема n как систему n независимых случайных величин x1,x2,... xn , каждая из которых имеет тот же закон распределения с теми же параметрами, что и случайная величина x, представляющая генеральную совокупность. При таком подходе становятся очевидными равенства:

M[xi] = M[xi] = M[x]; D[xi] = D[xi] = D[x]

для всех i = 1, 2, ... , n.

Теперь можно показать, что выборочная средняя есть несмещенная оценка средней генеральной совокупности или, что то же самое, математического ожидания интересующей нас случайной величины x:

Выведем формулу для дисперсии выборочной средней:

Найдем теперь, чему равно математическое ожидание вы­борочной дисперсии s 2. Сначала преобразуем s 2 следующим образом:

Здесь использовано преобразование:

Теперь, используя полученное выше выражение для величины s 2, найдем ее математическое ожидание.

Так как M[s2] ¹ D[x], то выборочнаядисперсияне является несмещенной оценкойдисперсии генеральной совокупности.

Чтобы получить несмещенную оценку дисперсии генеральной совокупности, нужно умножить выборочную дисперсию на . Тогда получится величина

или

называемая исправленной выборочной дисперсией.

Пусть имеется ряд несмещенных точечных оценок одного и того же параметра генеральной совокупности. Та оценка, которая имеет наименьшую дисперсию, называется эффективной.

Полученная из выборки объема n точечная оценка dn параметра D генеральной совокупности называетсясостоятельной, если она сходится по вероятности к D. Это означает, что для любых положительных чисел e и g найдется такое число neg, что для всех чисел n, удовлетворяющих неравенству n > neg выполняется условие

и являются несмещёнными, состоятельными и эффективными оценками величин D[x] и M[x].

Пример 28.Приведенная ниже таблица представляет собой случайную выборку значений признака X. Объем выборки n=100.

50,2 54,0 41,0 42,0 58,2 59,3 84,8 45,0 76,5 58,3
21,0 55,0 45,0 21,5 46,0 44,0 42,5 49,0 48,7 75,0
15,3 55,0 23,8 46,5 53,0 62,8 78,5 67,0 34,5 49,9
49,7 63,0 30,0 32,0 42,4 22,4 52,0 70,4 57,2 50,0
23,0 47,8 47,4 50,8 78,3 27,0 56,6 51,3 58,6 28,4
51,7 50,0 48,8 49,4 57,5 47,4 33,5 27,0 39,7 57,5
18,4 35,6 28,4 37,6 49,5 26,7 54,0 68,6 29,3 62,7
43,8 44,0 69,1 46,3 76,7 37,1 69,2 39,3 30,0 43,0
85,0 63,0 30,0 43,8 64,8 22,0 38,8 42,3 64,8 41,0
30,0 10,0 63,0 48,8 71,2 54,4 47,8 31,2 46,1 17,8

Найти закон распределения, точечные оценки математического ожидания, дисперсии и среднеквадратического отклонения признака X.

Решение. Значения Х в таблице почти не повторяются, поэтому построим интервальное распределение Х. Определим длину каждого частичного интервала (In), предварительно найдя по таблице размах выборочных значений (R):

,

,

где n=100 – объем выборки.

Нижняя граница первого интервала принимается равной а его верхнюю границу второй интервал будет (15; 25), третий (25; 35) и так далее. Если повторяющееся выборочное значение совпадает с границей двух соседних интервалов, то договоримся относить его к левому интервалу. Так число 55 дважды будет отнесено к интервалу (45; 55) и ни разу – к интервалу (55; 65).

В итоге этих действий получаем следующее интервальное распределение исходной выборки, куда внесены не только частоты , но и относительные частоты выборочных значений признака, попавшего в i-й частичный интервал:

 

xi1xi 5-15 15-25 25-35 35-45 45-55 55-65 65-75 75-85
ni
0,01 0,09 0,14 0,19 0,29 0,15 0,07 0,06

 

Для проверки правильного заполнения таблицы нужно убедиться, что сумма элементов второй строки равна объему выборки (в нашем примере n=100), а сумма элементов третьей строки равна единице.

Распределение непрерывной случайной величины характеризуется функцией плотности вероятностей. В статистике ее оценкой является гистограмма относительных частот. Это ступенчатая фигура, для построения которой по горизонтальной оси откладываются частичные интервалы, по вертикальной – плотности относительных частот В нашем примере

 

0,001 0,009 0,014 0,019 0,029 0,015 0,007 0,006

 

От интервального распределения выборки можно перейти к точечному (дискретному) распределению, взяв за новые выборочные значения признака середины частичных интервалов. В рассматриваемом примере такое распределение будет иметь вид следующей таблицы:

 

xi
ni
0,01 0,09 0,14 0,19 0,29 0,15 0,07 0,06

Для наглядности можно построить полигон относительных частот. Это ломаная линия, вершины которой находятся в точках (xi, ).

Для точечного распределения выборки можно построить эмпирическую функцию распределения F*(x). Она является статистической оценкой функции распределения вероятностей признака Х (интегрального закона распределения) и строится по формуле , где n – объем выборки, а nх – сумма частот выборочных значений признака Х, меньших х. Ясно, что эмпирическую функцию распределения характеризует процесс накопления относительных частот. В нашем примере

Аналогом эмпирической функции распределения является кумулята относительных частот, представляющую собой для точечного (дискретного)выборочного распределения ломаную линию с вершинами в точках , где n – объем выборки, а nх – сумма частот выборочных значений признака Х, меньших хi.

Точечные статистические оценкигенеральных параметров распределения признака Х вычислим по формулам

где xi – выборочное значение признака Х, ni – частоты этих значений, n – объем выборки.

Получим