Тема 13. Дисперсионный анализ (Часть 1)

Глава 3. Методы проверки статистических гипотез. Дисперсионный и

Регрессионный анализы

Дисперсионный анализ (Analysis Of Variance или сокращенно ANOVA) применяется для

исследования влияния одной или нескольких качественных переменных (факторов) на одну

зависимую количественную переменную.

В основе дисперсионного анализа лежит предположение о том, что одни переменные могут

рассматриваться как причины (факторы, независимые переменные), а другие как следствия

(зависимые переменные). Таким образом, исходя из этого, при описании результатов ANOVA

мы будем говорить о наличие зависимости между зависимой и независимой переменной.

Основной целью ANOVA является исследование значимости различия между средними с

помощью сравнения дисперсий. Разделение общей дисперсии на несколько источников,

позволяет сравнить дисперсию, вызванную различием между группами, с дисперсией,

вызванной внутригрупповой изменчивостью. Сравнивая компоненты дисперсии друг с другом

посредством F-критерия Фишера, можно определить, какая доля общей вариативности

результативного признака обусловлена действием регулируемых факторов.

Исходя из вышесказанного, целью дисперсионного анализа является проверка статистической

значимости различия между средними (для групп или переменных). Эта проверка проводится с

помощью разбиения суммы квадратов на компоненты, т.е. с помощью разбиения общей

дисперсии на части, одна из которых обусловлена случайной ошибкой (то есть

внутригрупповой изменчивостью), а вторая связана с различием средних значений. Последняя

компонента дисперсии затем используется для анализа статистической значимости различия

между средними значениями. Если это различие значимо, то принимается гипотеза о

существовании различия между средними.

Исходным материалом для дисперсионного анализа служат данные исследования трех и более

выборок, которые могут быть как равными, так и неравными по численности, как связными, так

и несвязными.

Типичная схема эксперимента сводится к изучению влияния независимой переменной (одной

или нескольких) на зависимую переменную.

Обязательным условием ANOVA является то, чтоб зависимая переменная была представлена в

шкале отношений, интервалов или порядка, а влияющие (независимые) переменные имели бы

нечисловую природу (номинальная или категориальная шкала). Зависимая переменная

рассматривается как изменяющаяся под влиянием независимых переменных. Независимая

переменная представляет собой качественно определенный (номинальный) признак, имеющий

две и более градаций. Каждой градации независимой переменной соответствует выборка

объектов, для которых определены значения зависимой переменной.

Выделяют однофакторный ANOVA, многофакторный ANOVA, ANOVA с повторными

измерениями и многомерный ANOVA (или MANOVA).

Тема 14. Дисперсионный анализ (Часть 2)

Глава 3. Методы проверки статистических гипотез. Дисперсионный и

Регрессионный анализы

Однофакторный ANOVA

Этот вид дисперсионного анализа позволяет проверить гипотезу о существовании влияния

изучаемого фактора на зависимую переменную.

Математическая модель однофакторного ANOVA предполагает выделение в общей

изменчивости зависимой переменной двух ее составляющих: межгрупповая составляющая

изменчивости обусловлена различием средних значений под влиянием фактора;

внутригрупповая составляющая изменчивости обусловлена влиянием неучтенных причин.

Соотношение этих двух составляющих изменчивости и есть основной показатель,

определяющий статистическую значимость влияния фактора.

При выявлении уровня ошибки выше или равно 5% (т.е. р≥0,05), подтверждается гипотеза о

равенстве средних значений. А при уровне ошибки меньше 5% (т.е. р<0,05) подтверждается

гипотеза о различие по крайней мере двух средних значений.

Ограничения метода: 1) дисперсии выборок должны быть однородны; для этого смотрят на

результаты критерия Ливена, направленный на выявление однородности дисперсий (т.е. если

при проведении теста Ливена p≥0,05, значит Вы можете смело применять для своих данных

дисперсионный анализ); 2) формально численность выборок не должно быть меньше двух

объектов.

Альтернатива – сравнение независимых выборок по критерию H-Краскела-Уоллеса.

Основным показателем для принятия решения является F-критерий Фишера и, конечно же,

его уровень достоверности.

Если Ваш фактор состоит из более 2-х градаций, то Вам необходимо дополнительно проводить

множественные сравнения средних значений, чтобы можно было сделать вывод о том, как

различаются друг от друга средние значения для разных градаций фактора. Это касается не

только однофакторного ANOVA, но и других видов дисперсионного анализа, если Ваш фактор

имеет более 2-х градаций.

Одним из актуальных вопросов на этапе множественных сравнений становится выбор критерия.

В программе Statistica представлены следующие методы: LSD (Least Significant Difference)

Fisher, поправка Бонферрони, метод Шеффе, метод Tukey HSD (Honestly Significant Differences),

метод HSD для неравных размеров выборок, метод Ньюмана-Кеулса, метод Дункана и Даннет.

Здесь все зависит от Вас самих, какой метод множественного сравнения Вам использовать.

Однако, необходимо 1085 „{отметить следующие моменты. Так, среди исследователей распространены

методы Шеффе и LSD Фишера. Здесь необходимо учитывать то, что критерий Шеффе является

грубым критерием и особенно пригоден в тех случаях, когда имеется подозрение о неравенстве

дисперсий выборок между собой, а при использовании критерия LSD Фишера возникает

вероятность ошибки первого рода (т.е. ложноположительный результат, выявление различий,

даже если их нет). Та же ситуация с увеличением ошибки первого рода наблюдается и с

использованием метода Tukey HSD. Метод Бонферрони работает, если число сравнений

невелико, обычно не больше 8. При большем числе сравнений критерий Ньюмана-Кеулса и

Тьюки дают более точную оценку вероятности альфа. Критерий Дункана, как и критерий

Ньюмена-Кеулса, основан на статистике размаха. Соответственно, если Вы используете в

анализе неравные выборки, тогда выбрать можно метод HSD для неравных размеров выборок.

Многофакторный ANOVA

Данный дисперсионный анализ предназначен для изучения влияния нескольких независимых

факторов (переменных) на зависимую переменную. Отличительной особенностью

многофакторного ANOVA от однофакторного является возможность оценить не только

влияние каждой независимой переменной в отдельности, но и взаимодействие факторов –

зависимость влияния одних факторов от уровней других факторов.

Таким образом, в результате мы получаем влияние 1-ой независимой переменной, влияние 2-ой

независимой переменной, …., взаимовлияние независимых переменных.

При использовании многофакторного анализа порой получаются достаточно интересные

результаты, которые невозможно было бы получить с помощью предыдущего дисперсионного

анализа.

Ограничениями метода выступают однородность дисперсий и выборки не должны заметно

различаться по численности.