Эмпирические функции распределения, относительные частоты и функции плотности

В статистике объектом анализа является генеральная совокупность, отражающая поведение случайной величины с теоретической функцией распределения (вообще говоря, неизвестной) .

Пусть из генеральной совокупности извлечена выборка, причем наблюдалось раз, раз, раз и – объем выборки. Наблюдаемые значения называют вариантами, а последовательность вариант, записанных в возрастающем порядке, – вариационным рядом. Числа наблюдений называют частотами.

Статистическим распределением выборки называют перечень вариант и соответствующих им частот. Статистическое распределение можно также задать в виде последовательности интервалов и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал).

Эмпирическим (или выборочным, т.е. построенным по выборке объема ) аналогом теоретической функции распределения является функция , определяющая для каждого значения относительную частоту события .

,

где – число вариант меньших ; – объем выборки.

Таким образом, для того чтобы найти, например, , надо число вариант, меньших , разделить на объем выборки:

.

Различие между эмпирической и теоретической функциями состоит в том, что теоретическая функция определяет вероятность события , а эмпирическая функция определяет относительную частоту этого же события. При достаточно большом значения и мало отличаются. Поэтому для приближенного представления теоретической функции распределения генеральной совокупности удобно использовать эмпирическую функцию.

Из определения эмпирической функции распределения непосредственно следует объяснение часто используемого ее другого названия – «накопленная относительная частота».

Если анализируемая СВ дискретна и имеет возможные значения , принимаемые соответственно с вероятностями , то имеет смысл ввести понятие выборочной (эмпирической) относительной частоты , которая определяется как отношение соответствующей частоты к объему выборки, т.е. .

Если – непрерывная случайная величина (генеральная совокупность) с функцией плотности вероятности и функцией распределения , то, располагая выборкой , можно построить выборочный аналог функции плотности – эмпирическую функцию плотности .

Для построения эмпирической функции плотности на всей области ее определения (т.е. для всех возможных значений исследуемой величины) используют предварительно сгруппированные данные и определяют

,

где – порядковый номер интервала группирования, в который попала точка ; – число наблюдений, попавших в этот интервал; – длина интервала.

Геометрическое изображение эмпирической плотности называется гистограммой. Для построения гистограммы на оси абсцисс отмечают границы каждого из интервалов , а по оси ординат значения . Тогда -му интервалу будет соответствовать прямоугольник, основанием которого является отрезок , а высота равна .

Если значения соотнести к серединам соответствующих интервалов и соединить полученные точки, то получим ломанную линию, которую называют полигоном.

График эмпирической функции распределения называют кумулятивной кривой или кумулянтой.