Проверка статистических гипотез

Формулирование гипотез систематизирует предположения исследователя и представляет их в четком, лаконичном виде. Решение, которое требуется принять исследователю, касается истинности или ложности статистической гипотезы. Различают два вида гипотез: научные и статистические. Научная гипотеза – это предполагаемое решение проблемы (формулируется как теорема). Статистическая гипотеза – просто утверждение относительно неизвестного параметра генеральной совокупности (свойстве случайной величины или событии), которое формулируется для проверки надежности связи и которое можно проверить по известным выборочным статистикам (результатам исследования, имеющимся эмпирическим данным).

Статистические гипотезы подразделяются на нулевые и альтернативные, направленные и ненаправленные. Нулевая гипотеза (Н₀) это гипотеза об отсутствии различий, отсутствие влияния фактора, отсутствие эффекта и т.п. Это то, что предполагается опровергнуть, если перед нами стоит задача доказать значимость различий. Альтернативная гипотеза (Н₁) это гипотеза о значимости различий. Это то, что предполагается доказать, поэтому ее иногда называют экспериментальной или рабочей гипотезой.

Сама же процедура обработки полученных количественных данных, заключающаяся в вычислении некоторых статистических характеристик и оценок, позволяющих проверить нулевую гипотезу называется статистическим анализом.

Нулевая и альтернативная гипотезы могут быть направленными и ненаправленными. Гипотеза называется направленной, если она содержит указание на направление отличий. Такие гипотезы следует формулировать, например, в том случае, если в одной из групп индивидуальные значения испытуемых по какому-либо признаку выше, а в другой ниже, или необходимо доказать, что в одной из групп под влиянием каких-либо экспериментальных воздействий произошли более выраженные изменения, чем в другой группе. Гипотеза называется ненаправленной, если ее формулировка предполагает лишь определение отличий или не отличий (без указания направления отличий). Например, если необходимо доказать, в двух разных группах различаются формы распределения признака.

Примеры формулирования гипотез.

Направленные гипотезы	Ненаправленные гипотезы
Н₀: Х1 не превышает Х2	Н₀: Х1 не отличается от Х2
Н₁: Х1 превышает Х2	Н₁: Х1 отличается от Х2

Метод, который используется для принятия решения относительно справедливости статистической гипотезы, называется проверкой гипотезы. Основной принцип проверки гипотезы состоит в том, что выдвигается нулевая гипотеза Н₀, с тем, чтобы попытаться опровергнуть ее и тем самым подтвердить альтернативную гипотезу Н₁.

При проверке любой статистической гипотезы решение исследователя никогда не принимается с уверенностью, поскольку всегда остается риск принятия неправильного решения.

Обычно используемые выборки невелики, и в этих случаях вероятность ошибки может быть значительной. Существует так называемый уровень достоверности (уровень значимости) различия. Это вероятность того, что различия считаются существенными, а они на самом деле случайны. То есть это вероятность отклонения нулевой гипотезы, в то время как она верна.

Когда указывается, что различия достоверны на 5%-ном уровне значимости, или при p£0,05, то имеется в виду, что вероятность того, что они все-таки недостоверны, составляет 0,05 (низший уровень статистической значимости). Если указывается, что различия достоверны на 1%-ном уровне значимости, или при p£0,01, то имеется в виду, что вероятность того, что они все-таки недостоверны, составляет 0,01 (достаточный уровень статистической значимости). Если указывается, что различия достоверны на 0,1%-ном уровне значимости, или при p£0,001, то имеется в виду, что вероятность того, что они все-таки недостоверны, составляет 0,001 (высший уровень статистической значимости).

Правило отклонения Н₀ и принятия Н₁:

Если эмпирическое значение критерия равняется критическому значению, соответствующему p£0,05 или превышает его, то Н₀ отклоняется, но еще нельзя определенно принять Н₁.

Если эмпирическое значение критерия равняется критическому значению, соответствующему p£0,01 или превышает его, то Н₀ отклоняется принимается Н₁.

Для наглядности правила принятия решения можно использовать так называемую «ось значимости».

Если уровень достоверности не превышен, то можно считать вероятным, что выявленная разница действительно отражает положение дел в популяции. Для каждого статистического метода этот уровень можно узнать из таблиц распределения критических значений соответствующих критериев.

T – критерий Стьюдента

Это параметрический метод, используемый для проверки гипотез о достоверности разницы средних при анализе количественных данных в популяциях с нормальным распределением и с одинаковой дисперсией. Он хорошо применим в случае сравнения величин средних случайных значений измеряемого признака в контрольной и экспериментальной группах, в различных половозрастных группах, группах, имеющих другие различные признаки.

Обязательным условием применимости параметрических методов, в том числе и t‑критерия Стьюдента, для доказательства статистических гипотез является подчинение эмпирического распределения исследуемого признака закону нормального распределения.

Метод Стьюдента различен для независимых и зависимых выборок.

Независимые выборки получаются при исследовании двух различных групп испытуемых (например, контрольной и опытной групп). К зависимым выборкам относятся, например, результаты одной и той же группы испытуемых до и после воздействия независимой переменной.

Проверяемая гипотеза Н₀ состоит в том, что разность между средними значениями двух выборок равна нулю (= 0), другими словами это гипотеза о равенстве средних (). Альтернативная гипотеза Н₁ состоит в том, что эта разность отлична от нуля (¹ 0) или же существует отличие выборочных средних ().

В случае независимых выборок для анализа разницы средних применяют формулу: при n₁, n₂ > 30

и формулу при n₁, n₂ < 30, где

- среднее арифметическое значение первой выборки;

- среднее арифметической значение второй выборки;

s₁ – стандартное отклонение для первой выборки;

s₂ – стандартное отклонение для второй выборки;

n₁ и n₂ – число элементов в первой и второй выборках.

Для нахождения критического значения t определим число степеней свободы:

n = n₁ - 1 + n₂ - 1 = (n₁+ n₂) – 2 = n - 2.

Если |t_эмп | > t_кр, то нулевую гипотезу отбрасываем и принимаем альтернативную, то есть считаем разницу средних достоверной. Если |t_эмп | < t_кр, то разница средних недостоверна.

В случае зависимых выборок для определения достоверности разницы средних применяется следующая формула: , где

d – разность между результатами в каждой паре (х_i – y_i );

åd – сумма этих частных разностей;

åd² – сумма квадратов частных разностей;

n – число пар данных.

Число степеней свободы в случае зависимых выборок для определения t критерия будет равно n = n - 1.

Существуют и другие статистические критерии проверки гипотез, как параметрические, так и непараметрические. Например, математико-статистический критерий, позволяющий судить о сходстве и различиях в дисперсиях случайных величин, называется критерием Фишера.

Корреляционный анализ

В самом общем виде под значением «корреляция» понимается взаимная связь. Хотя, говоря о корреляции, используют также термины «корреляционная связь» и «корреляционная зависимость», которые часто используются как синонимы.

Под корреляционной связью понимают согласованные изменения двух или большего количества признаков, т.е. изменчивость одного признака находится в некотором соответствии с изменчивостью другого.

Корреляционная зависимость - это изменения, которые вносят значения одного признака в вероятность появления разных значений другого признака.

Таким образом, согласованные изменения признаков и отражающая это корреляционная связь между ними может свидетельствовать не о зависимости этих признаков между собой, а о зависимости обоих этих признаков от какого-то третьего признака или сочетания признаков, не рассматриваемых в исследовании.

Корреляционные связи не могут рассматриваться как свидетельство причинно-следственной связи, они свидетельствуют лишь о том, что изменениям одного признака, как правило, сопутствуют определенные изменения другого, но находится ли причина изменений в одном из признаков или она оказывается за пределами исследуемой пары признаков, неизвестно.

В целом, при корреляционном анализе стараются установить, существует ли статистическая взаимосвязь между двумя показателями (переменными) в одной выборке или между двумя различными выборками, и если эта связь существует, то сопровождается ли увеличение одного показателя возрастанием или уменьшением другого. При этом в большинстве случаев трудно определить, что в рассматриваемой паре признаков является независимой, а что зависимой переменной.