Критерий согласия Колмогорова-Смирнова для одной выборки (Kolmogorov-Smirnov (K-S) one-sample test)

Непараметрический метод проверки степени согласия эмпирической функции распределе­ния переменной с определенным теоретическим законом распределения.

 

Критерий Колмогорова—Смирнова сравнивает эмпирическую функцию распределения переменной с определенным теоретическим законом распределением. В наших дальнейших рассуждениях Аiобозначает кумулятивную частость для каждой категории теоретического (предполагаемого) распределения, a Oiсравниваемое значение выборочной частости. Критерий К—С основан на максимальном значении абсолютной разности между Аi и Oi. Значение критерия вычисляют по формуле:

Решение об отклонении нулевой гипотезы основано на значении К. Чем больше значение К, тем больше уверенности, что нулевая гипотеза Н0 неверна. При α = 0,05 критическое значе­ние К для больших выборок (свыше 35 наблюдений) задается формулой [20]. Альтерна­тивно, К можно преобразовать в нормально распределенную z-статистику и определить свя­занную с ней вероятность.

Предположим, что в рамках примера по степени использования Internet мы хотели бы уз­нать, действительно ли собранные данные подчиняются нормальному распределению. Резуль­таты проверки с помощью критерия согласия К—С, представлены в табл. 15.16.

 

Таблица 15.16. Критерий К-С для проверки нормального закона распределения данных (для одной выборки) в примере по изучению степени использования Internet
Проверка распределения — Нормальное
Среднее Стандартное отклонение Случаи (количество) 6,600 4,296
Самые большие значения разностей
Абсолютное Положительное Отрицательное K-S z-статистика Двусторонняя вероятность р
0,222 0,222 -0,142 1,217 0,103

 

Самая большая по абсолютной величине разность между наблюдаемым и нормальным распределением равна К = 0,222. Хотя размер нашей выборки только 30 (меньше, чем 35), мы можем использовать приближенную формулу, и критическое значение для К равно . Так как вычисленное значение К меньше критического, то нулевая гипотеза не может быть отклонена. Альтернативно, из данных табл. 15.16 видно, что вероятность по­явления наблюдаемого значения К, равного 0,222, определенная с помощью нормализован­ной z-статистики, равна 0,103. Поскольку это значение больше, чем уровень значимости 0,05, то нулевую гипотезу нельзя отклонить. Мы пришли к аналогичному выводу. Следова­тельно, распределение степени использования Internet несущественно отклоняется от нор­мального распределения.

Как уже упоминалось, в отношении одной переменной из одной выборки можно выпол­нять проверку гипотезы по критерию хи-квадрат. В этом плане он также является критерием согласия. Он проверяет, действительно ли существует статистически значимая разница между наблюдаемым числом случаев в каждой категории и ожидаемым. Другие непараметрические методы проверки включают критерий серий и биномиальный тест.