Статистическое распределение выборки. Полигон и гистограмма

Глава 5. Математическая статистика

 

Математическая статистика занимается изучением закономерностей, которым подчиняются массовые явления, на основе наблюдений. Первая задача математической статистики – это разработка методов сбора и группировки статистического материала, полученного в результате наблюдений за случайными процессами.

Вторая задача состоит в разработке методов анализа полученных статистических данных. Этот анализ включает оценку вероятностей события, функции распределения вероятностей или плотности вероятности, оценку параметров известного распределения, а также связей между случайными величинами.

Математическая статистика опирается на теорию вероятностей и, в свою очередь, служит основой для обработки и анализа статистических результатов в конкретных областях человеческой деятельности.

Выборочная и генеральная совокупности

Пусть требуется изучить некоторую совокупность однородных объектов по некоторому признаку , который для нее является случайной величиной.

Например:

1) Кипа волокон хлопка. Признаками этой совокупности являются длина волокна, прочность, сорт и т.д.

2) Студенты вуза. Признаки: пол, возраст, рост, количество отличных оценок и т.д.

Для изучения такой совокупности по выбранному признаку можно измерить числовое значение признака у всех объектов совокупности и обработать полученные результаты. Общее количество объектов в данном случае и составляет генеральную совокупность.

В некоторых же случаях неудобно или невозможно получить результаты измерений на всех объектах и поэтому выбирают определенную часть из этой генеральной совокупности, которую называют выборочной совокупностью или выборкой. Обрабатывая результаты измерений выборки, получают обобщенные характеристики, с помощью которых оценивают параметры генеральной совокупности.

 

Опр. Объемом совокупности (генеральной или выборочной) называют число ее объектов.

Опр.Повторной называют выборку, при которой объект перед отбором следующего возвращается в генеральную совокупность.

Опр. Бесповторной называют выборку, при которой отобранный объект в генеральную совокупность не возвращается.

Для того чтобы по данным выборки можно было достаточно уверенно судить об интересующем нас признаке генеральной совокупности необходимо, чтобы выборка была репрезентативной (представительной). В силу закона больших чисел можно утверждать, что выборка будет репрезентативной, если ее осуществлять случайно, т.е. все объекты должны иметь одинаковую вероятность попасть в выборку.

 

Статистическое распределение выборки. Полигон и гистограмма

 

Пусть из генеральной совокупности произведена выборка объема по некоторому признаку . Т.к. признак является случайной величиной, то при обследовании получим ее числовых значений , называемых вариантами. Среди этих вариант могут оказаться и одинаковые.

Если все варианты записать в порядке возрастания, то получим вариационный ряд (причем, одинаковые варианты записываются столько раз, сколько раз они встречаются).

Число наблюдений варианты называется частотой, а отношение частоты к объему выборки ( ) называется относительной частотой или частостью. Статистическим распределением выборки называют перечень различных вариант и соответствующих им частот или относительных частот.

Если – дискретная случайная величина, то удобно составить таблицу частот и частостей (табл.1)

Таблица1. Таблица частот и частостей (дискретный случай)

Варианты Частоты Частости Накопленные частоты Накопленные частости

где и .

Если на плоскость нанести точки и соединить их отрезками прямых, то полученная ломаная линя называется полигоном частот (рис. 1).

Аналогично строят полигон относительных частот, соединяя точки отрезками прямых.

Если признак – непрерывная случайная величина, то одинаковых вариант может и не оказаться. В таком случае находят интервал , содержащий все варианты и разбивают его на несколько частичных интервалов и подсчитывают число вариант, попадающих в каждый частичный интервал, а затем заполняют таблицу 2.

Рисунок 1. Полигон частот

Таблица 2. Таблица частот и частостей (непрерывный случай)

Частичные интервалы Середины интервалов Интервальные частоты Интервальные частости Накопленные частоты Накопленные частости Плотность частоты

где и .

При составлении таблицы 2 рассматривают интервалы одинаковой длины . Существует несколько формул для вычисления шага разбиения интервала .

, k – число интервалов или .

Визуализируем данные таблицы 2 (изобразим графически). Получаем полигон частот и гистограмму частостей. Для гистограммы по оси абсцисс откладываются частичные интервалы длинной , а на каждом из них строится прямоугольник высотой (плотность частоты) или (плотность относительной частоты).

Заметим, что в гистограмме частот площадь того прямоугольника равна , т.е. интервальной частоте, а площадь всей гистограммы равна сумме всех частот, т.е. объему выборки (рис.2).

Гистограмму и полигон выборочного распределения можно использовать для подбора модели распределения изучаемой случайной величины .

 

Рисунок 2. Гистограмма частот