Проблемы, которые каждый раз нужно решать заново

Проверка статистических гипотез является стандартом в анализе психологических данных с точки зрения их надежности и оценки уверенности в их достоверности. Это самый распространенный способ количественной оценки результатов исследований. Выше, в главе 6 была представлена логика оценивания статистических гипотез в традициях старого (фишеровского) и нового (нейманпирсоновского) подходов.

Проверка статистических гипотез чаще всего определяется как статистический метод, который использует выборочные данные для формализованной оценки гипотез о популяции. Описанная в главе 6 традиция принятия или непринятии ЭГ на основе оценивания значимости отвержения нуль-гипотезы — ПЗНГ — основана на работах Р. Фишера. Не вдаваясь в подробности истории развития ПЗНГ, остановимся на том, какой эта процедура, популяризованная в 50-х гг. XX в., видится ведущим специалистам в области методологии социальных наук и статистики в настоящее время.

ПЗНГ имеет множество сторонников и яростных критиков, атакующих этот метод практически с самого его появления. Особое внимание к ПЗНГ, в частности, связано с институционализацией ПЗНГ как ключевого раздела инференциальной статистики в преподавании психологии в зарубежных университетах [Friedrich et al., 2000]. Критика ПЗНГ в наиболее общем виде связана с тремя проблемами: 1) рутинным и ошибочным применением ПЗНГ в большинстве исследований, 2) неадекватностью ПЗНГ по отношению к целям и задачам исследований и 3) неправильной интерпретацией результатов ПЗНГ.

Г. Гигеренцер, обсуждая ПЗНГ, отмечает, что ПЗНГ стала не адекватной статистической процедурой, но бездумным исследовательским ритуалом [Gigerenzer, 20031, при которой исследователь формулирует Я(| как гипотезу о "нулевых различиях" или "нулевых корреляциях", не формулируя ни четкие предсказания исследовательской гипотезы, ни собственно альтернативную гипотезу Я,. В качестве критического уровня значимости выбирается а = .05, при этом если полученное в исследовании р < а, исследователь принимает Яр а результаты представляет в виде р < .05, < .01, < .001 и т.д. в зависимости от того, к какой точке ближе точное значение р. Такое использование ПЗНГ фактически означает смешение двух традиций, а именно: традиции, основанной на ранних работах Р. Фишера, и традиции, основанной на работах Дж. Неймана и Э. Пирсона (см. табл. 6.1).

Механическое использование ПЗНГв совокупности с заблуждениями о теории статистического вывода, недостаточным уровнем статистической грамотности и инерционностью психологического сообщества привело к закреплению не только традиции ПЗНГ, но и ложных представлений о сущности информации, которую она предоставляет. Мы кратко обобщили основные ошибки в интерпретации результатов ПЗНГ, представленные в обзоре Р. Клайна [Kline, 2004], в табл. 8.2. Не останавливаясь подробно на каждой из них, отметим несколько важных, на наш взгляд, общих заблуждений, ставших предметом особо яростной критики со стороны противников ПЗНГ.

Одна из основных ошибок заключается в интерпретации величины полученного уровня значимости р как отражающего вероятность получения указанных результатов из-за воздействия случайных факторов и/или вероятность истинности Яц. Обе интерпретации неверны и отражают существенные ограничения процедуры ПЗНГ. В первом случае важно понимать, что в любом исследовании указанный статистический критерий будет принимать значение, отличное от "идеального", при условии истинности Я0именно в силу воздействия случайных факторов. ПЗНГ направлена на установление различий между выборочным значением критерия и его теоретическим распределением при условии истинности Я0 и при учете "случайных" факторов. Вторая ошибка связана с желанием интерпретировать р в контексте того, что как раз и интересует исследователя, а именно: вероятности, связанной с истинностью нуль-гипотезы, р (Н0П). К сожалению, ПЗНГ позволяет устанавливать только условную вероятность получения определенных данных при истинности Я(), р (ОН0), где О — полученные данные.

Вторым существенным ограничением ПЗНГ является отсутствие количественной информации о величине наблюдаемого эффекта. Частой ошибкой является интерпретация р как показателя величины эффекта, что вызвано игнорированием вопросов взаимосвязи размера выборки, мощности статистического критерия в данном исследовании и размера эффекта. Так, р прямо зависит от величины выборки и размера наблюдаемого эффекта, поэтому даже самый тривиальный эффект будет статистически значим при достаточном количестве испытуемых.

Проблемой является и устоявшееся понимание #0 как нуль-гипотезы, формулируемой как гипотеза об отсутствии различий (р, — р2 = 0) или нулевом эффекте (г = 0). Чаще всего такая формулировка является необоснованной как не учитывающая: 1) наличие "корреляционного шума" как наличия ненулевых взаимосвязей между большинством переменных в психологических исследованиях, 2) проблемы клинической и практической значимости полученных результатов. Так, сама по себе ПЗНГ не требует формулировки нуль-гипотезы как гипотезы об отсутствии различий, напротив, это может быть гипотеза об определенном размере различий (например, о разнице в интеллекте между двумя популяциями р, — р2 = 15 баллов по шкале 1(У). Легко заметить, что такой подход позволяет проверять гораздо более точечные гипотезы, в которых отправной точкой является утверждение о значении размера эффекта, который может устанавливаться, в частности, в соответствии с соображениями минимальной практической значимости.

Такая спецификация проверяемой гипотезы связана и с другой проблемой, а именно: интерпретацией р как показателя "значимости" полученных исследователем результатов. На самом деле р не обозначает меру практической, клинической или иной значимости полученных результатов, поскольку даже тривиальные по величине эффекты могут быть статистически значимыми. Уточнение иных видов "значимости" требует количественной оценки величины эффекта и его сопоставления с критериями в указанной области исследований и практики.

Таблица 8.2. Типичные ошибки в интерпретации результатов ПЗНГ