Однофакторный дисперсионный анализ

Элементы дисперсионного анализа

Цель данных методических указаний – познакомить студентов с простейшими задачами, решаемыми средствами дисперсионного анализа, и помочь в выполнении индивидуального задания.

Основные задачи

Предположим, что изучается влияние одного или нескольких факторов на некоторую величину. Эти факторы могут принимать разные значения, называемые уровнями. Факторы могут быть как числовыми, так и нечисловыми. Например, на износ автомобильных покрышек может влиять как тип покрышки (нечисловой фактор), так и длина пробега (числовой фактор).

Вот некоторые из задач, которые ставятся в дисперсионном анализе:

· влияет ли некоторый фактор или группа факторов на изучаемую величину?

· какой из них имеет наибольшее влияние?

· зависит ли влияние факторов от их взаимодействия друг с другом?

 

Предварительные сведения

Напомним определения некоторых понятий из курса теории вероятностей и математической статистики, необходимых для понимания последующего материала:

а) Функция называется функцией распределения случайной величины , если для любого выполняется равенство , где вероятность попадания значения величины в интервал .
б) Функция называется плотностью распределения.

в) Числовые характеристики случайной величины:

математическое ожидание;
дисперсия.

Математическое ожидание является в определенном смысле средним значением случайной величины, а дисперсия – характеристикой рассеяния значений случайной величины относительно ее среднего значения.

г) Число , определяемое уравнением , называется -квантилью распределения. Из определения следует, что -квантиль является возрастающей функцией от . Если график плотности симметричен относительно математического ожидания , то и, значит, в этом случае совпадает с -квантилью.

д) Случайной выборкой объема называется набор значений случайной величины, полученных в результате независимых опытов. Эти значения называют в статистике наблюдениями.

е) Функция от наблюдений называется несмещенной оценкой параметра , если ее математическое ожидание равно .

Однофакторный дисперсионный анализ

1. Постановка задачи

Пусть фактор А имеет m уровней и число получено в результате j-го опыта, проведенного на его i-м уровне, . Числа называются наблюдениями, а число наблюдений, полученных на i-м уровне. Наблюдения представим в виде

, (1)
где - математическое ожидание у на i-м уровне, а - случайная ошибка. Обычно наблюдения записывают в виде таблицы.

 

Таблица 1. Исходные данные

 

Отметим, что столбцы в таблице могут быть разной длины, так как число наблюдений на разных уровнях фактора А не обязательно одинаково.

Пример 1. Четыре фирмы производят одинаковые изделия, некоторый показатель качества изделия (например, время безотказной работы). Здесь фактор А нечисловой – это фирма-производитель. Для сравнения качества изделий отбирают по 7 изделий у двух фирм и 9 и 8 изделий у двух других фирм и определяют значение для каждого изделия. Получаем две случайные выборки объема 7 и две – объема 9 и 8. Здесь m = 4, n1 = 9, n2 = n3 = 7, n4 = 8. Требуется на основании этих данных выяснить, одинаково ли качество продукции у этих фирм, т.е. ответить на первый из перечисленных выше вопросов.

Если фактор не влияет на переменную у, торассеяние ее значений вызвано лишь случайными ошибками, а математические ожидания на всех уровнях одинаковы. В терминах математической статистики задача сводится к проверке гипотезы .

Обозначим . Число называется эффектом фактора А на i-м уровне. Тогда уравнение (1) и гипотеза принимают вид
(2)
. (3)
Далее предполагается, что случайные ошибки удовлетворяют следующим условиям:

а) имеют нулевое математическое ожидание;

б) имеют постоянную дисперсию, т.е. не зависящую ни от уровня фактора, ни от номера наблюдения;

в) подчиняются нормальному распределению.

2. Оценки параметров модели (2)
Определим следующие величины:
средние значения по столбцам;
отклонения от среднего в каждом столбце;
общее среднее, ;

отклонения средних по столбцам от общего среднего;
Если выполнены допущения а), б), в), то можно доказать, что

, (4)
где .

На языке математической статистики соотношения (4) означают, что случай-ные величины и являются несмещенными оценками параметров и . 3. Идея проверки гипотезы (3)
Вычислим следующие суммы квадратов:

полная сумма квадратов;

межгрупповая сумма квадратов;

внутригрупповая сумма квадратов.

Справедливо соотношение

. (5)
Здесь характеризует рассеяние средних по столбцам относительно общего среднего, т.е. рассеяние между группами (уровнями фактора), а характеризует рассеяние значений относительно , т.е. рассеяние внутри групп (столбцов таблицы).

Метод проверки гипотезы (3) основан на следующей идее. Если гипотеза верна, т.е. , то величины должны быть достаточно близки к 0. Тогда вклад в по сравнению с должен быть мал. Поэтому малое значение является доводом в пользу гипотезы, а большое значение является доводом против гипотезы. Очевидно, в этом рассуждении не хватает точного указания, какое значение считать малым.

4. Применение F - критерия для проверки гипотезы

Опишем точный метод проверки гипотезы (3), основанный на - критерии.

1. Вычисляем средние суммы квадратов:

Числа (m – 1) и (n – m), на которые делятся суммы квадратов, назы-ваются степенями свободы.

2. Вычисляем значение - критерия

.

3. Задаем число и из таблицы квантилей - распределения со степенями свободы при уровне значимости находим критическое значение .

Правило:
если , то гипотеза отвергается;

если , то гипотеза принимается.

Замечания.

1) Вероятностный смысл состоит в следующем. Предположим, что гипотеза верна, но из-за случайных ошибок вычисленное значение F оказалось больше критического, т.е. . Тогда согласно сформулированному выше правилу мы должны отвергнуть , хотя на самом деле она верна. Получается, что, применяя это правило, мы в этом случае совершим ошибку, называемую ошибкой 1-го рода (отвергается верная гипотеза). Вероятность такой ошибки равна вероятности неравенства , вычисленной в предположении верности гипотезы , т.е. равна .

2) зависит от выбранного значения , причем увеличивается при уменьшении . Поэтому, уменьшая , всегда можно добиться выполнения неравенства и тем самым принятия гипотезы. Однако, уменьшая , мы увеличиваем вероятность ошибки 2-го рода: принять , когда на самом деле она неверна. Обычно используют . Задать значение мы не можем, так как оно зависит от неизвестных нам истинных значений эффектов .

Пример 2.

Таблица 2. Исходные данные к примеру 2

Номер наблюдения А1 А2 А3 А4
9,57 11,17 12,07 13,12
8,33 10,81 11,06 10,81
10,13 11,73 10,90 12,36
10,29 10,41 10,17 12,75
8,85 13,18 11,29 9,91
11,19 10,86 9,66 10,06
11,19 11,11 11,71 12,07
9,96 - - 11,10
10,33 - - -
9,98 11,32 10,98 11,52

 

Здесь

Из таблицы видно, что средние по столбцам заметно различаются. Однако нельзя исключить, что это различие вызвано лишь случайным рас-сеянием данных, в то время как "истинные" значения средних, т.е. , одина-ковы. Для проверки гипотезы применим описанный выше метод. Результаты расчетов приведены в таблице 3.

Таблица 3. Результат дисперсионного анализа

Источник рассеяния Сумма квадратов Степени свободы Средняя сумма квадратов
между группами 12,003 4,001 3,99 0,018

Окончание табл. 3

Источник рассеяния Сумма квадратов Степени свободы Средняя сумма квадратов
внутри групп 27,047 1,002 - -
полная 39,05 - - -

 

Поясним содержание таблицы. Второй столбец содержит суммы квадратов , смысл которых указан в первом столбце; в 3-м столбце – степени свободы, равные (m - 1), (n - m) и (n - 1) соответственно; 4-й столбец получается делением сумм квадратов на их степени свободы. В последний столбец обычно помещают вероятность . Дело в том, что для проверки неравенства

(6)

потребуется сначала найти , а для этого нужна таблица квантилей F-распределения, которая не всегда доступна. Заметим, что где функция распределения Фишера. Функция возрастающая, поэтому неравенство (6) равносильно (7)

. (7)

Поэтому вместо неравенства (6) можно пользоваться неравенством (7). В данном примере при получаем принимается на уровне значимости 0,05.