Эмпирические функции распределения, относительные частоты и функции плотности
В статистике объектом анализа является генеральная совокупность, отражающая поведение случайной величины с теоретической функцией распределения (вообще говоря, неизвестной)
.
Пусть из генеральной совокупности извлечена выборка, причем наблюдалось
раз,
–
раз,
–
раз и
– объем выборки. Наблюдаемые значения
называют вариантами, а последовательность вариант, записанных в возрастающем порядке, – вариационным рядом. Числа наблюдений называют частотами.
Статистическим распределением выборки называют перечень вариант и соответствующих им частот. Статистическое распределение можно также задать в виде последовательности интервалов и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал).
Эмпирическим (или выборочным, т.е. построенным по выборке объема ) аналогом теоретической функции распределения
является функция
, определяющая для каждого значения
относительную частоту события
.
,
где – число вариант меньших
;
– объем выборки.
Таким образом, для того чтобы найти, например, , надо число вариант, меньших
, разделить на объем выборки:
.
Различие между эмпирической и теоретической функциями состоит в том, что теоретическая функция определяет вероятность события , а эмпирическая функция
определяет относительную частоту этого же события. При достаточно большом
значения
и
мало отличаются. Поэтому для приближенного представления теоретической функции распределения генеральной совокупности удобно использовать эмпирическую функцию.
Из определения эмпирической функции распределения непосредственно следует объяснение часто используемого ее другого названия – «накопленная относительная частота».
Если анализируемая СВ дискретна и имеет возможные значения
, принимаемые соответственно с вероятностями
, то имеет смысл ввести понятие выборочной (эмпирической) относительной частоты
, которая определяется как отношение соответствующей частоты
к объему выборки, т.е.
.
Если – непрерывная случайная величина (генеральная совокупность) с функцией плотности вероятности
и функцией распределения
, то, располагая выборкой
, можно построить выборочный аналог функции плотности – эмпирическую функцию плотности
.
Для построения эмпирической функции плотности на всей области ее определения (т.е. для всех возможных значений исследуемой величины) используют предварительно сгруппированные данные и определяют
,
где – порядковый номер интервала группирования, в который попала точка
;
– число наблюдений, попавших в этот интервал;
– длина интервала.
Геометрическое изображение эмпирической плотности называется гистограммой. Для построения гистограммы на оси абсцисс отмечают границы каждого из интервалов , а по оси ординат значения
. Тогда
-му интервалу будет соответствовать прямоугольник, основанием которого является отрезок
, а высота равна
.
Если значения соотнести к серединам соответствующих интервалов
и соединить полученные точки, то получим ломанную линию, которую называют полигоном.
График эмпирической функции распределения называют кумулятивной кривой или кумулянтой.