Оценка параметров генеральной совокупности по ее выборке

Предположим, что генеральная совокупность является нор­мальным распределением (здесь вместо вероятности следует ис­пользовать относительную частоту). Нормальное распределение полностью определено математическим ожиданием (средним зна­чением) и средним квадратическим отклонением. Поэтому если по выборке можно оценить, т. е. приближенно найти, эти парамет­ры, то будет решена одна из задач математической статистики — определение параметров большого массива по исследованию его части.

Как и для выборки, для генеральной совокупности можно оп­ределить генеральную среднюю — среднее арифметическое значение всех величин, составляющих эту совокупность. Учиты­вая большой объем этой совокупности, можно полагать, что гене­ральная средняя равна математическому ожиданию:

(3.10)

где X — общая запись случайной величины (значения изучаемого признака) генеральной совокупности.

Рассеяние значений изучаемого признака генеральной сово­купности от их генеральной средней оценивают генеральной дис­персией

(3.11)

где N — объем генеральной совокупности, или генеральным сред­ним квадратическим отклонением

 

(3.12)

 

 

Точечная оценка. Предположим, что из генеральной совокуп­ности производятся разные выборки; делают это так, чтобы вся генеральная совокупность сохранялась неизменной. Для опреде­ленности будем считать объемы этих выборок одинаковыми и рав­ными п. Их выборочные средние являются случай­ными величинами, которые распределены по нормальному зако­ну (см. конец § 2.3), а их математическое ожидание равно математическому ожиданию генеральной совокупности, т. е. генеоалъной средней:

(3.13)

На практике иногда при достаточно большой выборке за генераль­ную среднюю приближенно принимают выборочную среднюю.

Для дисперсий положение получается несколько иным. Мате­матическое ожидание дисперсий различных выборок [M(DBi)], со­ставленных из генеральной совокупности, отличается от гене­ральной дисперсии:

(3.14)

При большом п получаем и

Dг » M(DBi) (3.14а)

 

 

Для генерального среднего квадратического отклонения соответ­ственно из (3.14) и (3.14а) получаем:

(3.15)

На практике иногда при достаточно большой выборке выбороч­ное среднее квадратическое отклонение приближенно принимают за генеральное среднее квадратическое отклонение. Так, если счи­тать, что статистическое распределение (см. табл. 5) является вы­боркой из некоторой генеральной совокупности, то на основании (3.6) и (3.9) можно заключить, что для этой генеральной совокуп­ности »3,468 кг и sг »0,3896 кг.

Такого рода оценка параметров генеральной совокупности или каких-либо измерений определенными числами называется то­чечной оценкой.

Интервальная оценка генеральной средней. Точечная оцен­ка, особенно при малой выборке, может значительно отличаться от истинных параметров генеральной совокупности. Поэтому при не­большом объеме выборки пользуются интервальными, оценками.

В этом случае указывается интервал (доверительный интер­вал, или доверительные границы), в котором с определенной (до­верительной) вероятностью р находится генеральная средняя.

Иначе говоря, р определяет вероятность, с которой осуществ­ляются следующие неравенства:

(3.16)

 

где положительное число e характеризует точность оценки.

Кроме доверительной вероятности используют «противопо­ложное» понятие — уровень значимости

b = 1 – р, (3.17)

который выражает вероятность непопадания генеральной сред­ней в доверительный интервал.

Доверительную вероятность не следует выбирать слишком ма­ленькой (не следует ее обесценивать). Наиболее часто р прини­мают равной 0,95; 0,99; 0,999. Чем больше р, тем шире интервал, т. е. тем больше e. Чтобы установить количественную связь между этими величинами, необходимо найти выражение для довери­тельной вероятности. Это можно сделать, используя (2.17), одна­ко нужно понять, что при этом следует взять за функцию распределения вероятностей и какие принять пределы ин­тегрирования. Рассмотрим этот вопрос.

Итак, генеральная совокупность распределена по нормальному закону с математическим ожиданием (средним значением) и дисперсией Dг. Если из этой генеральной совокупности брать раз­ные выборки с одинаковым объемом п, то можно для каждой вы­борки получить среднее значение . Эти средние значения сами являются случайными величинами. Их распределение, т. е. рас­пределение средних значений разных выборок, полученных из одной генеральной совокупности, будет нормальным со средним значением, равным среднему значению генеральной совокупности , дисперсией и средним квадратическим отклонением (см. конец § 2.2).

Таким образом, уже выступает как случайная величина, для нее можно записать следующую функцию распределения вероят­ностей [см. (2.22)]:

 

(3.18)

Из (3.16) можно записать для следующие неравенства:

 

(3.19)

Вероятность того, что попадает в этот интервал (доверитель­ную вероятность), можно найти по общей формуле (2.17), используя функцию (3.18). Пределы интегрирования необходимо взять из выражения (3.19):

 

(3.20)

 


(3.21)

Результаты интегрирования (3.20) найдем, используя функ­цию Ф (см. § 2.3). По формуле (2.25) получим

 

 

Обозначая

(3.22)

 

и учитывая, что Ф(-t) = 1 - Ф(t), получим из (3.21):

р = Ф(t) - Ф(-t) = Ф(t) - 1 + Ф(t) = (t) - 1.

Для нахождения р по t или t по р можно воспользоваться табл. 7 или таблицей функции Ф (см. [2]).

Таблица 7

 

т
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,4
0,9
1,4
1,9

 

Хотя неравенства (3.16) и (3.19) по существу идентичны, но для практических целей важнее запись (3.16), так как она позво­ляет решить главную задачу — при заданной доверительной веро­ятности и найденной выборочной средней найти доверительный интервал, в который попадает генеральная средняя.

Запишем неравенство (3.16), подставив в него выражение из формулы (3.22):

Практически при нахождении доверительного интервала по формуле (3.24) берут выборочную среднюю некоторой конкретной выборки (объем п ³ 30), а вместо генеральной средней квадратично» используют выборочную среднюю квадратичную этой же выборки.

Поясним это некоторым примером. Вновь обратимся к данным табл. 5, считая их выборкой. Найдем доверительный интервал для генеральной средней, из которой эта выборка получена, счи­тая доверительную вероятность равной р = 0,95. Из (3.23) для такой доверительной вероятности получаем: Ф(t) = 0,975 имеем t = 1,9 + 0,06 = 1,96. Подставляя это значение t, выборочную среднюю (3.6), выборочное среднее квадратическое отклонение (3.9) и объем вы­борки (п = 100) в выражение (3.24), имеем:

 

 

или



php"; ?>