Методы вторичной статистической обработки результатов эксперимента

 

С помощью вторичных методов статистической обработки экспериментальных данных непосредственно проверяются, доказываются или опровергаются гипотезы, связанные с экспериментом. Эти методы, как правило, сложнее, чем методы первичной статистической обработки, и требуют от исследователя хорошей подготовки в области элементарной математики и статистики.

Обсуждаемую группу методов можно разделить на несколько подгрупп: 1. Регрессионное исчисление. 2. Методы сравнения между собой двух или нескольких элементарных статистик (средних, дисперсий и т. п.), относящихся к разным выборкам. 3. Методы установления статистических взаимосвязей между переменными, например их корреляции друг с другом. 4. Методы выявления внутренней статистической структуры эмпирических данных (например, факторный анализ). Рассмотрим каждую из выделенных подгрупп методов вторичной статистической обработки на примерах.

Регрессионное исчисление — это метод математической статистики, позволяющий свести частные, разрозненные данные к некоторому одному линейному графику, приблизительно отражающему внутреннюю взаимосвязь, и получить возможность по значению одной из переменных приблизительно оценивать вероятное значение другой переменной.

Воспользуемся для графического представления взаимосвязанных значений двух переменных х и у точками на графике (рис. 3). Поставим перед собой задачу: заменить точки на графике линией прямой регрессии, наилучшим образом представляющей взаимосвязь, существующую между данными переменными. Иными словами, задача заключается в том, чтобы через скопление точек, имеющихся на этом графике, провести прямую линию, пользуясь которой по значению одной из переменных, х или у, можно приблизительно судить о значении другой переменной. Для того чтобы решить эту задачу, необходимо правильно найти коэффициенты а и b в уравнении искомой прямой:

у = ах + b.

 

Это уравнение представляет прямую на графике и называется уравнением прямой регрессии.

 

 

Рис. 3. Прямая регрессии Y по X. х и у — средние значения переменных. Отклонения отдельных значений от линии регрессии обозначены вертикальными пунктирными линиями. Величина является отклонением измеренного значения переменной уi от оценки, а величина является отклонением оценки от среднего значения (Цит. по: Иберла К. Факторный анализ. — М., 1980. С. 23).

 

Формулы для подсчета коэффициентов а и b являются следующими:

b = y - a·x, где

 

где xiyiчастные значения переменных X и Y, которым соответствуют точки на графике;

средние значения тех же самых переменных;

п — число первичных значений или точек на графике.

Для сравнения выборочных средних величин, принадлежащих к двум совокупностям данных, и для решения вопроса о том, отличаются ли средние значения статистически достоверно друг от друга, нередко используют t-критерий Стьюдента. Его основная формула выглядит следующим образом:

 

 

где x1 — среднее значение переменной по одной выборке данных;

x2 — среднее значение переменной по другой выборке данных;

т1 и m2 — интегрированные показатели отклонений частных значений из двух сравниваемых выборок от соответствующих им средних величин;

т1 и m2 в свою очередь вычисляются по следующим формулам;

 

 

где — выборочная дисперсия первой переменной (по первой и выборке);

выборочная дисперсия второй переменной (по второй выборке);

n1 — число частных значений переменной в первой выборке;

n2 — число частных значений переменной по второй выборке.

После того как при помощи приведенной выше формулы вычислен показатель t, по таблице 1 для заданного числа степеней свободы, равного n1 + n2 - 2, и избранной вероятности допустимой ошибки* находят нужное табличное значение t и сравнивают с ними вычисленное значение t. Если вычисленное значение t больше или равно табличному, то делают вывод о том, что сравниваемые средние значения из двух выборок действительно статистически достоверно различаются с вероятностью допустимой ошибки, меньшей или равной избранной. Рассмотрим процедуру вычисления t-критерия Стьюдента и определения на его основе разницы в средних величинах на конкретном примере.

* Степени свободы и вероятность допустимой ошибки — специальные математико-статистические термины, содержание которых мы здесь не будем рассматривать.

 

Допустим, что имеются следующие две выборки экспериментальных данных: 2, 4, 5, 3, 2, 1, 3, 2, 6, 4 и 4, 5, 6, 4, 4, 3, 5, 2, 2, 7. Средние значения по этим двум выборкам соответственно равны 3,2 и 4,2. Кажется, что они существенно друг от друга отличаются. Но так ли это и насколько статистически достоверны эти различия? На данный вопрос может точно ответить только статистический анализ с использованием описанного статистического критерия. Воспользуемся этим критерием.

Определим сначала выборочные дисперсии для двух сравниваемых выборок значений:

 

 

Поставим найденные значения дисперсий в формулу для подсчета т и t и вычислим показатель t:

 

 

Сравним его значение с табличным для числа степеней свободы 10 + 10 — 2 = 18. Зададим вероятность допустимой ошибки, равной 0,05, и убедимся в том, что для данного числа степеней свободы и заданной вероятности допустимой ошибки значение t должно быть не меньше чем 2,10. У нас же этот показатель оказался равным 1,47 т. е. меньше табличного. Следовательно, гипотеза о том, что выборочные средние, равные в нашем случае 3,2 и 4,2, статистически достоверно не отличаются друг от друга, хотя на первый взгляд казалось, что такие различия существуют.

Вероятность допустимой ошибки, равная и меньшая чем 0,05, считается достаточной для научно убедительных выводов. Чем меньше эта вероятность, тем точнее и убедительнее делаемые выводы. Например, избрав вероятность допустимой ошибки, равную 0,05, мы допускаем ошибку, не превышающую 5%, а выбор вероятности допустимой ошибки 0,001 гарантирует точность расчетов, превышающую 99,99%, или ошибку, меньшую чем 0,01%.

Таблица 1