Использование доверительных интервалов: простой способ

 

Рассмотрим проверку нулевой гипотезы Н0: µ = µ0 против альтернативной гипотезы Н1: µ µ0 на основе данных случайной выборки из генеральной совокупности. Сначала обычным образом, исходя из значений и , строим 95% доверительный интервал. Затем смотрим, попадает ли значение µ0 в этот интервал. Если значение µ0 находится за пределами доверительного интервала, то µ0 не может рассматриваться как допустимое значение среднего генеральной совокупности, а значит, следует принять альтернативную гипотезу; в противном случае принимается нулевая гипотеза. Этот подход проиллюстрирован на рис. 10.2.1.

 

 

Есть несколько эквивалентных способов описать результат такой проверки статистической гипотезы. В каждом случае принятое решение может быть сформулировано так:

Если заданное значение µ0 находится в доверительном интервале от -t до +t , то:

1. Принять нулевую гипотезу Н0 как допустимую возможность.

2. Не принимать альтернативную гипотезу Н1.

3. Выборочное среднее незначимо отличается от заданного значения µ0.

4. Наблюдаемая разница между выборочным средним и заданным значением µ0 может быть обусловлена чистой случайностью.

5. Результат проверки не является статистически значимым.

(все перечисленные выше утверждения эквивалентны.)

 

Если заданное значение µ0 не находится в доверительном интервале от -t до +t , то:

1. Принять альтернативную гипотезу Н1.

2. Отклонить нулевую гипотезу Н0.

3. Выборочное среднее значимо отличается от заданного значения µ0.

4. Наблюдаемая разница между выборочным средним и заданным значением µ0 не может быть обусловлена только лишь случайностью.

5. Результат проверки является статистически значимым.

(все перечисленные выше утверждения эквивалентны.)

 

Почему этот метод работает? Вспомним, что в соответствии с формулировкой доверительного интервала вероятность того, что µ находится в (случайном) до­верительном интервале, равна 0,95. Допустим на мгновение, что нулевая гипотеза верна и µ = µ0. Тогда вероятность того, что µ0 находится в доверительном интервале, также равна 0,95. Это говорит о том, что если нулевая гипотеза верна, то принятое решение будет корректным (приблизительно) в 95% случаев и будет неверным только приблизительно в 5% случаев. В этом смысле мы имеем процесс принятия решений с точной, контролируемой вероятностью.

 

 

Пример. Действительно ли добавка "увеличивает объем продукции"?

 

Вспомним добавку, увеличивающую (предположительно) объем продукции, покупку которой мы рассматривали в начале этой главы. Будем считать, что в табл. 10.2.2. приведены основные данные, характеризующие эту задачу.

Табл. 10.2.2.

Средний ежедневный объем продукции на прошлой неделе Стандартная ошибка Размер выборки Среднее значение ежедневного объема продукции за длительный период (без использования добавки) n µ0   39,6 т 4,2 т   7 дней 32,1 т  

 

Данные содержат 7 наблюдений объема продукции при условии использования добавки. Генеральная совокупность состоит из всех возможных дневных объемов продукции, полученных с использованием добавки. Среднее генеральной совокупности µ представляет среднее значение объема продукции, полученной за длительный период в условиях применения добавки (это значение неизвестно и поэтому в таблице не приведено). Выборочное среднее представляет наилучшую оценку µ.

Действительно, данные в таблице выглядят так, как будто добавка эффективна. Средний дневной объем продукции, достигнутый с применением добавки ( = 39,6 тонны), на 7,5 тонны выше ожидаемого среднего дневного объема продукции в отсутствие добавки, рассчитанного за предыдущий длительный период (µ0 =32,1 тонны). Это не удивительно. При проверке гипотезы заданное значение почти никогда точно не равно наблюдаемому значению (в нашем случае ). Вопрос заключается в том, обусловлена ли эта разница только случайностью. Гистограмма данных с обозначенными на ней выборочным средним и заданным значением показана на рис. 10.2.2.

При подготовке к проверке статистических гипотез выдвигают гипотезы, которые теперь можно сформулировать непосредственно с использованием заданного значения µ0 = 32,1 тонны. (Теперь больше нет необходимости использовать в формальной записи гипотез символическое µ0 вместо его известного значения.) Гипотезы формулируются следующим образом.

Н0 : µ = 32,1 тонны

Нулевая гипотеза утверждает, что при использовании добавки неизвестное среднее значение объема продукции за длительный период времени µ точно равно заданному значению µ0 =32,1 тонны (объем продукции без использования добавки).

Н1 : µ 32,1 тонны

Альтернативная гипотеза утверждает, что при использовании добавки неизвестное среднее значение объема продукции за длительный период времени µ не равно заданному значению µ0 =32,1 тонны (объем продукции без использования добавки).

Далее, для проверки гипотезы вычислим обычным способом доверительный интервал, используя значение t = 2,447 из t-таблицы для n - 1 = 6 степеней свободы.

 

 

 

Мы на 95% уверены, что при использовании добавки среднее значение объема продукции за длительный период времени находится между 29,3 и 49,9 тонны.

 

Наконец, чтобы действительно осуществить процедуру проверки гипотезы, следует просто проверить, находится ли заданное значение µ0 =32,1 в пределах доверительного интервала или нет. Это значение находится в интервале, поскольку число 32,1 лежит между числами 29,3 и 49,9. Иными словами, утверждение 29,3 < 32,1 <49,9 является справедливым. Результат проверки гипотезы приведен в табл. 10.2.3.

Среднее значение дневного объема продукции при использовании добавки, равное = 39,6 тонны, несущественно отличается от среднего значения объема продукции за длительный период времени без применения добавки, которое равно µ0 =32,1 тонны. Этот результат неубедительный и неоднозначный. Вы не имеете четкого доказательства в пользу добавки. Когда вы в следующий раз будете разговаривать с настойчивым коммерческим агентом, пытающимся продать вам добавку, то можете с уверенностью сказать ему, что такое повышение объема продукции не является значимым и вы не убеждены в эффективности добавки.

Доказала ли проверка гипотезы неэффективность добавки? Нет. Добавка может быть и эффективной. У вас нет убедительных доказательств ни ее эффективности, ни ее неэффективности.

 

t-статистика: способ другой, результат тот же

 

Другой способ двусторонней проверки гипотезы о среднем генеральной сово­купности состоит в том, чтобы сначала вычислить t-статистику по формуле

tстатистика = ,

а затем, используя t - таблицу, решить, какую из гипотез следует принять. Результат всегда будет таким же, как и при проверке методом доверительного интервала, поэтому неважно, какой из этих двух методов вы используете. Процедура проверки статистической гипотезы сравнения среднего генеральной совокупности с заданным значением исходя из значений и (использование обоих указанных методов) называется t-тестом Стьюдента, или просто t-тестом. (Используют также названия t-критерий Стьюдента и t- критерий). Имя Стьюдент использовал В. С. Госсетт, главный пивовар фирмы Guinness, при публикации первой статьи, в которой он вместо таблицы нормального распределения использовал t-таблицу (которую он первым и предложил), скорректированную для использования стандартного отклонения выборки S вместо неизвестного стандартного отклонения генеральной совокупности в условиях небольшого размера выборки п.

В соответствии с общим подходом проверка статистической гипотезы начинается с того, что на основе данных, содержащих наилучшую имеющуюся информацию для установления различий между двумя гипотезами вычисляют величину, которую называют тест-статистикой. Далее эту тест-статистику (например, t-статистику) сравнивают с подходящим критическим значением, взятым из стандартной таблицы критических значений (например, t-таблицы), чтобы определить, какую гипотезу принять. В более сложных ситуациях, чем просто проверка гипотезы о среднем генеральной совокупности, могут потребоваться определенные творческие усилия, чтобы (1) подобрать тест-статистику, использующую информацию из выборки наиболее эффективно, и (2) найти подходящее критическое значение. При этом либо критическое значение определяют исходя из теоретических соображений (как в случае с t-таблицей), либо, как это все чаще делают в последнее время, специально вычисляют критические значения с помощью компьютеров для каждой отдельной ситуации.

Существуют две различные величины, которые обозначают буквой t. Критическое t-значение представляет собой число tтабл., которое находят в t-таблице и которое никак не связано с выборочными данными. С другой стороны, t - статистика является тест-статистикой и показывает, сколько стандартных ошибок находится между µ0 и .

 

t – статистика

Для распределения количественной переменной:

tстатистика =

Для биномиального распределения:

tстатистика =

Процедура t-теста использует обе эти величины, сравнивая t-статистику, вычисленную на данных, с t-значением, найденным по t-таблице. Результат проверки гипотезы сформулирован в табл. 10.2.6.

 

Полезно запомнить такое простое правило: если значение t-статистики по абсолютной величине больше 2, то нулевую гипотезу отвергают, в противном случае принимают. Это правило применяют при п больше 40, используя число 2 как аппроксимацию t - значения 1,96. Таким образом, просмотрев колонку t-статистик, можно легко и быстро принять решение об их значимости. Например, числа 6,81; -4,97; 13,83; 2,46 и -5,81 — это значимые t-статистики, а числа 1,23; -0,51; 0,02; -1,86 и 0,75 — это незначимые t-статистики. (Отрицательное значение t-статистики говорит о том, что среднее значение выборки меньше заданного значения µ0.)

А что делать, если значение t-статистики точно равно t-значению из таблицы. Это имеет место, когда значение µ0 точно совпадает с границей доверительного интервала. Как быть в таком случае? К счастью, это почти никогда не случается. Тем не менее, вы можете увеличить точность, вычислив больше цифр после запятой, или же сделать вывод о том, что результат “значим, но является пограничным”.

Несмотря на то, что для решения вопроса о значимости значение t-статистики можно легко сравнить с числом 2 (или с более точным значением из t-таблицы), необходимо помнить, что значение t-статистики измеряется не в тех же единицах, что и исходные данные. Поскольку единицы измерения в числителе и знаменателе t-статистики взаимно сокращаются, результат является безразмерной величиной. Эта величина представляет собой расстояние между и µ0, выраженное в количестве стандартных ошибок, а не в единицах, в которых измерены исходные данные.

В примере о добавке, «повышающей объем продукции», среднее выборки равно = 39,6 тонны, стандартная ошибка = 4,2 тонны, размер выборки n = 7 и заданное значение µ0 = 32,1 тонны. Если вычислить t – статистику, получим:

tстатистика = = (39,6-32,1)/4,2 = 1,79

Поскольку абсолютное значение t – статистики 1,79 меньше значения из t – таблицы 2,447, то нулевая гипотеза принимается. Таким образом, использование t – статистики дает тот же результат, что и использование доверительного интервала.