Анализ первичных статистик

Для определения способов математико-статистической обработки, прежде всего, необходимо оценить характер распределения по всем используемым параметрам. Для параметров, имеющих нормальное распределение или близкое к нормальному, можно использовать методы параметрической статистики, которые во многих случаях являются более мощными, чем методы непараметрической статистики. Достоинством последних является то, что они позволяют проверять статистические гипотезы независимо от формы распределения.

Одним из важнейших в математической статистике является понятие нормального распределения. Нормальное распределение — модель варьирования некоторой случайной величины, значения которой определяются множеством одновременно действующих независимых факторов. Число таких факторов велико, а эффект влияния каждого из них в отдельности очень мал. Такой характер взаимовлияний весьма характерен для психических явлений, поэтому исследователь в области психологии чаще всего выявляет нормальное распределение. Однако так бывает не всегда, поэтому в каждом случае форма распределения должна быть проверена.

Важнейшими первичными статистиками являются:

а) средняя арифметическая— это величина, сумма отрицательных и положительных отклонений от которой равна нулю. В статистике ее обозначают буквой M или x. Чтобы ее подсчитать, надо суммировать все значения ряда и разделить сумму на количество суммированных значений. Если в ряду есть числа со знаком “минус”, то суммирование производят с учетом знаков.

б) среднее квадратичное отклонение(обозначаемое греческой буквой s (сигма) и называемое также основным, или стандартным, отклонением) - мера разнообразия входящих в группу объектов; она показывает, на сколько в среднем отклоняется каждая варианта (конкретное значение оцениваемого параметра) от средней арифметической. Чем сильнее разбросаны варианты относительно средней, тем большим оказывается и среднее квадратичное отклонение. Разброс значений характеризует и размах — разность между наибольшим и наименьшим значением в ряду. Однако сигма полнее характеризует разброс значений относительно средней арифметической.

в) коэффициент вариации- частное от деления сигмы на среднюю арифметическую, умноженное на 100%. Обозначается CV:

s

CV = --- 100%

M

Сигма - величина именованная и зависит не только от степени варьирования, но и от единиц измерения. Поэтому по сигме можно сравнивать изменчивость лишь одних и тех же показателей, а сопоставлять сигмы разных признаков по абсолютной величине нельзя. Для того, чтобы сравнить по уровню изменчивости признаки любой размерности (выраженные в различных единицах измерения) и избежать влияния масштаба измерений средней арифметической на величину сигмы, применяют коэффициент вариации, который представляет собой по существу приведение к одинаковому масштабу величины s .

Для нормального распределения известны точные количественные зависимости частот и значений, позволяющие прогнозировать появление новых вариант: 1) слева и справа от средней арифметической лежит 50% вариант; 2) в интервале от M-1s до M+1s — 68.7% вариант; 3) в интервале от M-1.96s до M+1.96s — 95% вариант.

Таким образом, ориентируясь на эти характеристики нормального распределения, можно оценить степень близости к нему рассматриваемого распределения.

Следующими по важности являются такие первичные статистики, как коэффициент асимметрии и эксцесс. Коэффициент асимметрии- показатель скошенности распределения в левую или правую сторону по оси абсцисс. Если правая ветвь кривой длиннее левой - говорят о положительной асимметрии, в противоположном случае - об отрицательной. Эксцесс показатель островершинности. Кривые, более высокие в своей средней части - островершинные, называются эксцессивными, у них большая величина эксцесса. При уменьшении величины эксцесса кривая становится все более плоской, приобретая вид плато, а затем и седловины - с прогибом в средней части.

Эти параметры позволяют составить первое приближенное представление о характере распределения: у нормального распределения редко можно обнаружить коэффициент асимметрии, близкий к единице и более единицы (-1 и +1).

Подчеркну, что это только приблизительная оценка. Точную и строгую оценку нормальности распределения можно получить используя один из существующих методов проверки (см. например главы 2 и 5 книги Г.В.Суходольского "Основы математической статистики для психологов". Л., 1972.)

Начать с анализа первичных статистик надо еще и по той причине, что они весьма чувствительны к наличию выпадающих вариант. Большие величины эксцесса и асимметрии часто являются индикатором ошибок при подсчетах вручную или ошибок при введении данных через клавиатуру для компьютерной обработки. Грубые промахи при введении данных в обработку можно обнаружить, если сравнить величины сигм у аналогичных параметров. Выделяющаяся величиной сигма может указывать на ошибки.

Существует правило, согласно которому все расчеты вручную должны выполняться дважды (особо ответственные - трижды), причем желательно разными способами, с вариацией последовательности обращения к числовому массиву.

По части никогда не удается полностью охарактеризовать целое, всегда остается вероятность того, что оценка генеральной совокупности на основе выборочных данных недостаточно точна, имеет некоторую большую или меньшую ошибку. Такие ошибки, представляющие собой ошибки обобщения, экстраполяции, связанные с перенесением результатов, полученных при изучении выборки, на всю генеральную совокупность, называются ошибками репрезентативности. Репрезентативность - степень соответствия выборочных показателей генеральным параметрам.

Статистические ошибки репрезентативности показывают, в каких пределах могут отклоняться от параметров генеральной совокупности (от математического ожидания или истинных значений) наши частные определения, полученные на основе конкретных выборок. Очевидно, величина ошибки тем больше, чем больше варьирование признака и чем меньше выборка. Это и отражено в формулах для вычисления статистических ошибок, характеризующих варьирование выборочных показателей вокруг их генеральных параметров.

В число первичных статистик входит статистическая ошибка средней арифметической. Формула для ее вычисления такова:

s

m = ± ------ ,

n

где m - ошибка средней, s - сигма, n - число значений признака. Это основные первичные статистики, которые позволяют оценить характер распределения данных в экспериментальном массиве.