Статистическое распределение выборки. Эмпирическая функция распределения

Раздел второй

Математическая статистика

Глава 1. Выборочный метод

Выборочная и генеральная совокупности. Типы выборок

Под генеральной совокупностью понимают множество всех объектов некоторого наблюдения в совокупности с множеством всех значений этого наблюдения, соответствующих каждому объекту. Под выборкой объема n понимают множество из n объектов, реально подвергшихся наблюдению, в совокупности с n значениями наблюдения для каждого объекта. Например, генеральная совокупность – группа студентов, присутствующих на паре; выборка объема nn студентов, опрошенных преподавателем, вместе с оценками, полученными ими.

Основная задача статистики – получить обоснованные выводы о свойствах генеральной совокупности, анализируя, извлеченную из нее выборку.

Для того чтобы по данным выборки можно было достаточно уверенно судить об интересующем признаке генеральной совокупности, необходимо, чтобы выборка была репрезентативной (представительной), то есть достаточно полно представлять изучаемые признаки генеральной совокупности. Условием обеспечения репрезентативности выборки является, согласно закону больших чисел, соблюдение случайности отбора, то есть все объекты имеют одинаковую вероятность попасть в выборку.

Повторной называют выборку, при которой отобранный объект перед извлечением следующего возвращается в генеральную совокупность. Бесповторной называют выборку, при которой На практике чаще используется безповторная выборка.

 

Статистическое распределение выборки. Эмпирическая функция распределения

Пусть из генеральной совокупности извлечена выборка, причем значение признака х1наблюдалось п1 раз, х2п2 раз, и т.д., хkпk раз и – объему выборки. Наблюдаемые значения хi называют вариантами, а последовательность вариант, записанных в возрастающем порядке, – вариационным рядом. Операции расположения вариант по неубыванию называется ранжированием статистических данных. Числа наблюдений называют частотами,а их отношения к объему выборки – относительными частотами. Причем .

Статистическим распределением выборки (статистическим рядом) называют перечень вариант и соответствующихим частот или относительных частот. Записывается статистическое распределение в виде таблицы. Первая строка содержит варианты хi, а вторая – их частоты (или относительные частоты ).

Статистическое распределение выборки является оценкой неизвестного распределения. При больших значениях статистическое распределение мало отличается от истинного распределения.

Накопленной частотой называется число вариант выборки меньших данного числа х, а их отношения к объему выборки – относительной накопленной частотой. Ясно, что , так как нет ни одной варианты, меньшей х1. Кроме того, .

Относительные накопленные частоты – это статистические аналоги значений функции распределения дискретной случайной величины.

Эмпирической (статистической) функцией распределения выборки называется функция , определяющая для каждого значения х относительную накопленную частоту, то есть .

В отличие от эмпирической функции распределения выборки функцию распределения F(х) генеральной совокупности называют теоретической функцией распределения. Различие между эмпирической и теоретической функциями состоит в том, что теоретическая функция F(х)определяет вероятность события {Х < х}, а эмпирическая функция определяет относительную частоту этого же события. Очевидно, что эмпирическая функция распределения обладает теми же свойствами, что и теоретическая функция распределения. Эмпирическая функция распределения выборки является оценкой теоретической функции распределения генеральной совокупности.

В случае, когда число наблюдаемых значений признака велико или признак является непрерывным (признак может принимать любое значение в некотором интервале (например, размер некоторой детали)), составляют интервальный статистический ряд. В первую строку таблицы статистического распределения вписывают частичные промежутки , которые берут обычно одинаковыми по длине: Для определения длины интервала можно использовать формулу Стерджеса: , где – разность между наибольшим и наименьшим значениями признака (размах варьирования), – примерное число интервалов ( ). За начало первого интервала рекомендуется брать величину . Во второй строчке статистического ряда вписывают частоту ( ), равную количеству вариант выборки попавших в интервал , или относительные частоты . Кроме того, вычисляют накопленные и относительные накопленные частоты для правых границ интервалов. Если всего интервалов , то очевидно: , , , , где – правая граница последнего интервала.