Непараметрические критерии
В математической статистике часто требуется проверить гипотезу, что независимая выборка
(2.17)
взята из генеральной совокупности с функцией распределения . Относительно конкурирующей гипотезы, кроме независимости
в (2.17), других предположений не делается. В этом случае применяются так называемые непараметрические статистические критерии, которые строятся на основе какой-либо статистики
зависящей от
, причем распределение этой статистики при справедливости основной гипотезы известно точно и асимптотически при
. Обычно статистика положительна, и при любой конкурирующей гипотезе ее значение вырастает.
Выбирается такое , чтобы
при основной гипотезе выполнялось с вероятностью ошибки I рода
.
Основная гипотеза принимается, если и отвергается, если
.
Одним из наиболее известных таких критериев является -критерий Пирсона.
Выберем точки
Обозначим число тех
из выборки (2.17), которые удовлетворяют условию
. Тогда при справедливости основной гипотезы случайные величины
(2.18) имеют полиноминальное распределение:
, (2.19)
.
Первоначальную задачу мы редуцируем теперь к проверке гипотезы о том, что частоты (2.18) получены из номинального распределения (2.19) с вероятностями
.
Статистика, на основе которой строится критерий, называется -статистикой Пирсона и определяется суммой:
(2.20)
Теорема 2 . Распределение при
слабо сходится к
-распределению с
й степенью свободы с функцией распределения.
(2.21)
Данный факт применяется следующим образом. Задаемся уровнем значимости . Тогда в силу теоремы 2, при больших
с вероятностью, приближенно равной
выполняется неравенство:
(2.22) где
-
-квантиль
-распределения с
й степенью свободы, т.е.
(2.23)
Мы считаем основную гипотезу принятой, если
, и отвергнутой, если выполнено обратное неравенство.
Выбор точек деления должен удовлетворять двум требованиям. Во-первых, вероятности
должны достаточно хорошо отражать вид функции распределения
(для этого
должно быть больше, а
меньше). Во-вторых, для того, чтобы можно было пользоваться предельной теоремой
и соответственно,
должны быть не очень маленькими (для этого r не должно быть очень большим). Обычно на практике требуют, чтобы
,
.
Из этих противоположных требований и выбираются точки .
Другим примером непараметрического критерия является критерий Колмогорова. Этот критерий основан на статистике:
, (2.24)
где -непрерывная функция распределения генеральной совокупности,
-эмпирическая (выборочная) функция распределения, построенная по выборке (1.1):
,
( , где
- число выборочных значений, расположенных левее
).
Докажем, что распределение случайной величины инвариантно относительно
.
Теорема 3. Если непрерывна, то распределение статистики
не зависит от
.
Доказательство.
Докажем, что при любой непрерывной
имеет такое же распределение, как и в случае, когда
задает равномерное распределение на отрезке
Пусть - независимые случайные величины и каждая их них имеет функцию распределения
.
Предположим, что ,
и
при
, причем
и
могут быть бесконечными. Обозначим через
множество, состоящее из тех точек
, для которых при любом
Нетрудно видеть, что при любом
существует единственная точка
, для которой
Примем это
за значение обратной функции
.
Введем случайные величины ,
. Они независимы, так как
- независимы и равномерно распределены в
так как события
и
равносильны и при любом
.
Обозначим более подробно эмпирические функции распределения для выборок и
:
.
Положим ,
. Тогда из равносильности событий
и
следует
. (2.25)
Верхнюю грань в (2.24) можно брать по , поэтому в силу (2.25) с вероятностью 1:
,
что и требовалось доказать.
А.Н.Колмогоров доказал, что при для любой непрерывной
имеет место следующее соотношение:
(2.26)
На основе предельного соотношения (2.26) строится непараметрический критерий Колмогорова. Пусть –
-квантиль предельного распределения (2.26)
.
Тогда гипотеза о том, что выборка (2.17) взята из распределения с функцией , принимается, если
, и отвергается, если
. Уровень значимости этого критерия приближенно равен
.
С той же самой предельной функцией связан критерий Смирнова. Он состоит в следующем. Пусть
и
- две независимые выборки, первая имеет функцию распределения
, вторая -
Обозначим :
.
Н.В.Смирнов доказал, что если
непрерывны, то при
в пределе имеет тот же закон распределения
, определенный рядом (2.26). Эта предельная теорема позволяет нам строить критерий по проверке гипотезы о том, что выборки
и
взяты из одного и того же распределения.
ОЦЕНКИ ПАРАМЕТРОВ