Проверка одной гипотезы в нескольких независимых тестах
Предположим, группа исследователей, действуя независимо друг от друга, провела несколько однотипных экспериментов, тестирующих одну и ту же гипотезу. В результате статистического анализа не было получено надежных результатов, позволяющих подтвердить проверяемую исследователями экспериментальную гипотезу. Во всех статистических тестах нулевая гипотеза была сохранена. Однако всякий раз исследователи получали результат, демонстрирующий пусть и небольшое, но все же заметное отличие от теоретически ожидаемого для нулевой гипотезы параметра.
Один из вариантов решения обозначенной проблемы мог бы состоять в объединении результатов всех экспериментов и проведении общего статистического анализа по всем полученным данным. Однако на практике более удобным и корректным со статистической точки зрения оказывается несколько иной подход.
Обозначим вероятность полученного в каждом из k экспериментов результата оценки статистики как j. Тогда мы можем определить совокупный результат, полученный в этих экспериментах с помощью следующей статистики:
(2.8)
Выдвинем статистическую гипотезу о том, что все наблюдаемые значения вероятностей соответствуют ее 50%-ному уровню в генеральной совокупности. Тогда статистика χ2, вычисляемая по формуле (2.8), будет распределена по закону χ2 с числом степеней свободы, равным 2k.
Используя такой подход, можно показать, что в совокупности экспериментов можно получить статистически надежное доказательство в пользу альтернативной гипотезы, несмотря на то, что в каждом из экспериментов в отдельности такого доказательства получено не было.
В качестве примера рассмотрим результаты эксперимента, представленные в табл. 2.4 (В. J. Winer [28]).
Таблица 2.4
Результаты статистического анализа данных пяти экспериментов
Эксперимент |
Полученное значение t-статистики (df = 14) |
Вероятность (p) |
ln р |
1 |
0,87 |
0,20 |
-1,61 |
2 |
0,54 |
0,30 |
-1,20 |
3 |
1,10 |
0,15 |
-1,90 |
4 |
1,50 |
0,07 |
-2,66 |
5 |
1,30 |
0,11 |
-2,21 |
Всего |
-9,58 |
Таким образом, исследователи, проведя пять независимых друг от друга экспериментов, только в одном случае получили маргинально значимый результат. В других экспериментах исследователи устойчиво получают результат, выходящий за пределы 10%-ного квантиля. В таких случаях принято сохранять нулевую гипотезу и отвергать альтернативную.
Для значения статистики χ2, рассчитанного по формуле (2.8), получаем следующий результат: χ2(10) = 19,16. Граничное значение для 5%-ного квантиля распределения χ2 с десятью степенями свободы оказывается равным 18,31 (см. приложение 2). Следовательно, вероятность получить наблюдаемое нами значение статистики χ2 (или большее) оказывается меньше, чем один шанс из 20. Это означает, что мы должны отвергнуть гипотезу о 50%-ном значении вероятности р в генеральной совокупности. Отсюда следует вывод о статистически надежном совокупном результате всех пяти экспериментов, несмотря на то что ни один из экспериментов не демонстрировал этого.
Существует другой подход, который позволяет выполнить метаанализ результатов ряда экспериментов, где в качестве статистического критерия выбран t-тест Стьюдента. В этом случае в качестве нулевой гипотезы выдвигается предположение о равенстве нулю значений t в генеральной совокупности. Для проверки этой гипотезы строится Вперед статистика z:
(2.9)
В случае истинности нулевой гипотезы эта статистика оказывается распределенной в соответствии с законом стандартного нормального распределения, или 2-распределения. Тогда оценку результатов этой статистики можно выполнить с помощью соответствующих таблиц единичного нормального распределения (см. приложение 1).
Подставляя результаты статистического анализа пяти экспериментов, представленных в табл. 2.4, в формулу (2.9), получаем значение статистики z = 2,37, которое попадает в 1%-ный квантиль стандартного нормального распределения (см. приложение 1). Таким образом, нулевая гипотеза должна быть отвергнута.
Следовательно, по совокупности экспериментальных результатов можно сделать вывод о высоконадежном отличии статистики t от нулевого значения. Однако следует оговориться, что такой вывод может быть признан статистически корректным, только если сами статистики t распределены в соответствии с нормальным законом. А это оказывается возможным лишь при достаточно большом числе степеней свободы каждой статистики. Как правило, если число степеней свободы превышает 30, то условие нормальности распределения статистики t выполняется.