Точечные оценки параметров генеральной совокупности.

.Пусть выборка объема n представлена в виде вариационного ряда. Назовем выборочной средней величину

Величина называется относительной частотой значения признака xi. Если значения признака, полученные из выборки не группировать и не представлять в виде вариационного ряда, то для вычисления выборочной средней нужно пользоваться формулой .

Естественно считать величину выборочной оценкой параметра Mx. Выборочная оценка параметра, представляющая собой число, называетсяточечной оценкой.

Выборочную дисперсию

можно считать точечной оценкой дисперсии Dx генеральной совокупности.

Приведем еще один пример точечной оценки. Пусть каждый объект генеральной совокупности характеризуется двумя количественными признаками x и y. Например, деталь может иметь два размера – длину и ширину. Можно в различных районах измерять концентрацию вредных веществ в воздухе и фиксировать количество легочных заболеваний населения в месяц. Можно через равные промежутки времени сопоставлять доходность акций данной корпорации с каким-либо индексом, характеризующим среднюю доходность всего рынка акций. В этом случае генеральная совокупность представляет собой двумерную случайную величину x,h. Эта случайная величина принимает значения x, y на множестве объектов генеральной совокупности. Не зная закона совместного распределения случайных величин x иh, мы не можем говорить о наличии или глубине корреляционной связи между ними, однако некоторые выводы можно сделать, используя выборочный метод.

Выборку объема n в этом случае представим в виде таблицы, где
i-тый отобранный объект (i= 1,2,...n)представлен парой чисел xi, yi :

x1 x2 ... xn
y1 y2 ... yn

Выборочный коэффициент корреляции рассчитывается по формуле

Здесь

, ,

.

Выборочный коэффициент корреляции можно рассматривать как точечную оценку коэффициента корреляции rxh, характеризующего генеральную совокупность.

Выборочные параметры или любые другие зависят от того, какие объекты генеральной совокупности попали в выборку и различаются от выборки к выборке. Поэтому они сами являются случайными величинами.

Пусть выборочный параметр dрассматривается как выборочная оценка параметра D генеральной совокупности и при этом выполняется равенство

Md =D.

Такая выборочная оценка называется несмещенной.

Для доказательства несмещённости некоторых точечных оценок будем рассматривать выборку объема n как систему n независимых случайных величин x1,x2,... xn , каждая из которых имеет тот же закон распределения с теми же параметрами, что и случайная величина x, представляющая генеральную совокупность. При таком подходе становятся очевидными равенства: Mxi = Mxi =Mx;
Dxi = Dxi =Dx для всех k = 1,2,...n.

Теперь можно показать, что выборочная средняя есть несмещенная оценка средней генеральной совокупности или , что то же самое, математического ожидания интересующей нас случайной величины x :

.

Выведем формулу для дисперсии выборочной средней:

.

Найдем теперь, чему равно математическое ожидание выборочной дисперсии s 2. Сначала преобразуем s 2 следующим образом:

Здесь использовано преобразование:

Теперь, используя полученное выше выражение для величины s 2, найдем ее математическое ожидание.

.

Так как Ms 2 ¹ Dx, выборочная дисперсия не является несмещенной оценкой дисперсии генеральной совокупности.

Чтобы получить несмещенную оценку дисперсии генеральной совокупности, нужно умножить выборочную дисперсию на . Тогда получится величина , называемая исправленнойвыборочнойдисперсией.

Пусть имеется ряд несмещенных точечных оценок одного и того же параметра генеральной совокупности. Та оценка, которая имеет наимень­шую дисперсию, называется эффективной.

Полученная из выборки объема n точечная оценка dn параметра D генеральной совокупности называетсясостоятельной, если она сходится по вероятности к D. Это означает, что для любых положительных чисел e иg найдется такое число neg , что для всех чисел n, удовлетворяющих неравенству n > neg выполняется условие . и являются несмещёнными, состоятельными и эффективными оценками величин Mxи Dx.

Интервальные оценки.

Точечные оценки параметров генеральной совокупности могут быть приняты в качестве ориентировочных, первоначальных результатов обработки выборочных данных. Их недостаток заключается в том, что неизвестно, с какой точностью оценивается параметр. Если для выборок большого объема точность обычно бывает достаточной (при условии несмещенности, эффективности и состоятельности оценок), то для выборок небольшого объема вопрос точности оценок становится очень важным.

Введем понятие интервальной оценки неизвестного параметра генеральной совокупности (или случайной величины x, определенной на множестве объектов этой генеральной совокупности). Обозначим этот параметр черезD. По сделанной выборке по определенным правилам найдем числа D1 и D2, так чтобы выполнялось условие:

P(D1<D<D2) =P (DÎ(D1; D2)) = g

Числа D1 и D2 называются доверительными границами, интервал (D1, D2) — доверительным интервалом для параметра D. Число g называется доверительной вероятностью или надежностью сделанной оценки.

Сначала задается надежность. Обычно ее выбирают равной 0,95, 0,99 или 0,999. Тогда вероятность того, что интересующий нас параметр попал в интервал (D1, D2) достаточно высока. Число (D1 + D2) / 2 – середина доверительного интервала – будет давать значение параметра D с точностью (D2 D1) / 2, которая представляет собой половину длины доверительного интервала.

Границы D1 и D2 определяются из выборочных данных и являются функциями от случайных величин x1, x2,...,xn, а следовательно – сами случайные величины. Отсюда – доверительный интервал (D1, D2) тоже случаен. Он может покрывать параметр Dили нет. Именно в таком смысле нужно понимать случайное событие, заключающееся в том, что доверительный интервал покрывает число D.

 

 

11. Графические характеристики случайных величин. Гистограмма. Характеристики положения (мода, медиана, выборочная средняя).

Медиана (50-й процентиль, квантиль 0,5) — возможное значение признака, которое делит ранжированную совокупность (вариационный ряд выборки) на две равные части: 50 % «нижних» единиц ряда данных будут иметь значение признака не больше, чем медиана, а «верхние» 50 % — значения признака не меньше, чем медиана.

Для наглядности строят различные графики статистического распределения, в частности, полигон и гистограмму.

Полигоном частот называют ломаную линию, отрезки которой соединяют точки . Для построения полигона частот на оси абсцисс откладывают варианты , а на оси ординат – соответствующие им частоты и соединяют точки отрезками прямых.

Полигон относительных частот строится аналогично, за исключением того, что на оси ординат откладываются относительные частоты .

В случае непрерывного признака строится гистограмма, для чего интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько частичных интервалов длиной h и находят для каждого частичного интервала – сумму частот вариант, попавших в i–й интервал.

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которой служат частичные интервалы длиною h, а высоты равны отношению . Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии (высоте) . Площадь i–го прямоугольника равна – сумме частот вариант i–о интервала, поэтому площадь гистограммы частот равна сумме всех частот, т.е. объему выборки.