Критерий согласия χ2 (хи-квадрат) Пирсона.
Пусть дано n измерений. Важно установить, можно ли описать эти n значений с помощью принятой теоретической модели. В качестве теоретической модели может выступать любая уже известная модель (нормального распределения, равномерного распределения или распределения Пуассона).
Для проверки выдвигают нулевую гипотезу – Н0: «между эмперическим распределением и теоретической моделью нет никакого различия».
Для проверки гипотезы Н0 поступают следующим образом.
Разбивают всю область значений случайной величины Х на κ интервалов. и подсчитвают вероятности Рі (і=1,2,...,к) попадания случайной величины Х (то есть наблюдения) в интервал , используя формулу Р(α≤Χ≤β)=F0(β)-F0(α). Тогда теоретическое число значений случайной величины Х попавших в интервал , можно рассчитать по формуле . Таким образом, имеем статистический ряд распределения случайной величины Х (1) и теоретический ряд распределения:
… | |||
… |
(2)
Если эмпирические частоты ( ) сильно отличаются от теоретических ( ) ,то проверяемую гипотезу Но следует отвергнуть; в противном случае-принять.
Критерием, характеризующим степень расхождения между эмпирическими и теоретическими частотами предложил К. Пирсон (1857-1936 г.г., английский математик, статик, биолог, философ) , О –фактически наблюдаемое число, Е – теоретически ожидаемое число или ,(3) где n-объем выборки, k-число интервалов разбиения выборки, -число значений выборки, попавших в і-й интервал (обычно это число не должно быть меньше 5), - теоретическая частота попадания значений в і-й интервал.
Для распределений признаков, которые принимают всего 2 значения в формулу расчета критерия соответствия Хи-квадрат вносится поправка Йейтса
Согласно теореме Пирсона, статистика (3) имеет распределения с m=k-r-1 степениями свободы, где r-число параметров предполагаемого распределения. Если распределение нормально, то оценивают два параметра ( а и ), поэтому число степеней свободы m=k-2-1.
Правило применения критерия
- Н0: «между эмперическим распределением и теоретической моделью нет никакого различия». Н1: «между эмперическим распределением и теоретической моделью есть различие».
- Выбираем уровень значимости α критерия.
- По формуле или вычисляют -выборочное значение статистики критерия.
- По таблице -распределения находим критическую точку
- Если ≤ , то гипотеза Н0 принимается; если > , то гипотеза Н0 отвергается.
Неоходимым условием применения критерия Пирсона является наличие в каждом из интервалов не менее 5 наблюдений (то есть ≥5 ). Если в отдельных интервалах их меньше, то число интервалов надо уменьшить путем объединения (укрепления) соседних интервалов.
АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ.
Задачи анализа.
Различные статистические процедуры, с которыми мы знакомились на предыдущих лекциях, предназначены для анализа количественных признаков. Примером таких признаков служат артериальное давление или продолжительность госпитализации. Единицей их измерения могут быть миллиметры ртутного столба или дни. Над значениями количественных признаков можно было проводить различные арифметические действия, их можно было упорядочить или расположить в возрастающем порядке.
Однако очень многие признаки невозможно измерить числом. Например, можно быть мужчиной или женщиной, врачом, юристом и т.д. Здесь мы имеем дело с качественными признаками. Эти признаки не связанны между собой никакими арифметическими соотношениями, упорядочить их тоже нельзя. Единственный способ описания качественных признаков состоит в том, чтобы подсчитать число объектов, имеющих одно и то же значение. Кроме того можно подсчитать какая доля от общего числа объектов приходится на то или иное значение.
Существует еще один вид признаков. Это порядковые признаки. Их можно упорядочить, но производить над ними арифметические действия нельзя. Например, категории тяжести состояния (легкая, средняя, тяжелая, крайне тяжелая степени).
Определение: Данные о частотах наблюдения изучаемого признака и уровнях неколичественных переменных называются категорированными. Такие данные сводятся в таблицы, получившие название частотных таблиц или таблиц сопряженности. Когда эта таблица имеет 2 ряда и 2 колонки, она называется таблицей 2х2.
встречаемость признака | не встречаемость признака | итого | |
1 метод лечения | a | b | a+b |
2 метод лечения | c | d | c+d |
всего | a+c | b+d | a+b+c+d=n |
При наличии частотной таблицы можно решить основные задачи исследования:
- определение относительных величин частоты наблюдений исследуемого признака и оценка их точности и надежности,
- проверка гипотез о значимости различия относительных величин частоты в различных группах, т.е. для различных категорий сочетаний уровней факторов.