Общее представление о вторичной обработке

 

Вторичная обработка заключается главным образом в статистическом анализе итогов первичной обработки. Уже табулирование и построение графиков, строго говоря, тоже есть статистическая обработка, которая в совокупности с вычислением мер центральной тенденции и разброса включается в один из разделов статистики, а именно в описательную статистику. Другой раздел статистики — индуктивная статистика — осуществляет проверку соответствия данных выборки всей популяции, то есть решает проблему репрезентативности результатов и возможности перехода от частного знания к общим. Третий большой раздел — корреляционная статистика — выявляет связи между явлениями. В целом же надо понимать, что «статистика — это не математика, а, прежде всего, способ мышления, и для ее применения нужно лишь иметь немного здравого смысла и знать основы математики».

Статистический анализ всей совокупности полученных в исследовании данных дает возможность охарактеризовать ее в предельно сжатом виде, поскольку позволяет ответить на три главных вопроса:

1) «Какое значение наиболее характерно для выборки?»;

2) «Велик ли разброс данных относительно этого характерного значения, то есть какова "размытость" данных?»;

3) «Существует ли взаимосвязь между отдельными данными в имеющейся совокупности, и каковы характер и сила этих связей?»

Ответами на эти вопросы служат некоторые статистические показатели исследуемой выборки. Для решения первого вопроса вычисляются меры центральной тенденции (или локализации), второго — меры изменчивости (или рассеивания, разброса), третьего — меры связи (или корреляции). Эти статистические показатели приложимы к количественным данным (порядковым, интервальным, пропорциональным).

Меры центральной тенденции (м. ц. т.) — это величины, вокруг которых группируются остальные данные. Эти величины являются как бы обобщающими всю выборку показателями, что, во-первых, позволяет по ним судить обо всей выборке, а во-вторых, дает возможность сравнивать разные выборки, разные серии между собой. К мерам центральной тенденции относятся: среднее арифметическое, медиана, мода, среднее геометрическое, среднее гармоническое. В психологии обычно используются первые три.

Среднее арифметическое (М) — это результат деления суммы всех значений (X) на их количество (N):

 

Медиана (Me) — это значение, выше и ниже которого количество отличающихся значений одинаково, то есть это центральное значение в последовательном ряду данных.

Примеры:

3,5,7,9, 11, 13, 15; Me - 9.

♦ 3,5,7,9, 11, 13, 15, 17; Me =10.

Из примеров ясно, что медиана не обязательно должна совпадать с имеющимся замером, это точка на шкале. Совпадение происходит в случае нечетного числа значений (ответов) на шкале, несовпадение — при четном их числе.

Мода (Мо) — это значение, наиболее часто встречающееся в выборке, то есть значение с наибольшей частотой.

Пример:

2, 6,6,8, 9,9,9, 10; Мо = 9.

Если все значения в группе встречаются одинаково часто, то считается, что моды нет (например: 1,1, 5, 5, 8,8). Если два соседних значения имеют одинаковую частоту, и они больше частоты любого другого значения, мода есть среднее этих двух значений (например: 1,2,2,2,4, 4, 4, 5, 5, 7; Мо = 3). Если то же самое относится к двум несмежным значениям, то существует две моды, а группа оценок является бимодальной (например: 0,1, 1, 1, 2, 3,4, 4,4, 7; Мо = 1 и 4).

Обычно среднее арифметическое применяется при стремлении к наибольшей точности, и когда впоследствии нужно будет вычислять стандартное отклонение. Медиана — когда в серии есть «нетипичные» данные, резко влияющие на среднее значение (например: 1,3,5,7,9,26,13). Мода — когда не нужна высокая точность, но важна быстрота определения м. ц. т.

Меры изменчивости (рассеивания, разброса)— это статистические показатели, характеризующие различия между отдельными

значениями выборки. Они позволяют судить о степени однородности полученного множества, о его компактности, а косвенно и о надежности полученных данных и вытекающих из них результатов. Наиболее используемые в психологических исследованиях показатели: размах, среднее отклонение, дисперсия, стандартное отклонение, полуквартилъное отклонение.

Размах (Р) — это интервал между максимальным и минимальным значениями признака. Определяется легко и быстро, но чувствителен к случайностям, особенно при малом числе данных.

Примеры:

(0, 2, 3, 5, 8; Р =8);

(-0,2; 1,0;1,4; 2,0; Р = 2,2).

Среднее отклонение (МД) — это среднеарифметическое разницы (по абсолютной величине) между каждым значением в выборке и ее средним:

 

 

где d = X - М; М — среднее выборки; X — конкретное значение; N — число значений.

Множество всех конкретных отклонений от среднего характеризует изменчивость данных, но, если их не взять по абсолютной величине, то их сумма будет равна нулю, и мы не получим информации об их изменчивости. МД показывает степень скученности данных вокруг среднего. Кстати, иногда при определении этой характеристики выборки вместо среднего (М) берут иные меры центральной тенденции — моду или медиану.

Дисперсия (Д) (от лат. dispersus — рассыпанный). Другой путь измерения степени скученности данных предполагает избегание нулевой суммы конкретных разниц (d = X - М) не через их абсолютные величины, а через их возведение в квадрат. При этом получают так называемую дисперсию:

—для больших выборок (N> 30);

— для малых выборок (N < 30).

Стандартное отклонение (о). Из-за возведения в квадрат отдельных отклонений опри вычислении дисперсии полученная величина оказывается далекой от первоначальных отклонений и потому не дает о них наглядного представления. Чтобы этого избежать и получить характеристику, сопоставимую со средйим отклонением, проделывают обратную математическую операцию — из дисперсии извлекают квадратный корень. Его положительное значение и принимается за меру изменчивости, именуемую среднеквадратическим или стандартным отклонением:

 

 

где х1, х и N применимы для интервальных и пропорционных данных. Для порядковых данных обычно в качестве меры изменчивости берут полуквартильное отклонение (Q), именуемое еще полуквартильным коэффициентом или полумеждуквартилъным размахом. Вычисляется этот показатель следующим образом. Вся область распределения данных делится на четыре равные части. Если отсчитывать наблюдения, начиная от минимальной величины на измерительной шкале (на графиках, полигонах, гистограммах отсчет обычно ведется слева направо), то первая четверть шкалы называется первым квартилем, а точка, отделяющая его от остальной части шкалы, обозначается символом Q1 Вторые 25 % распределения — второй квартиль, а соответствующая точка на шкале — Q2. Между третьей и четвертой четвертями распределения расположена точка Q3 Полуквартильный коэффициент определяется как половина интервала между первым и третьим квартилями:

 

 

Понятно, что при симметричном распределении точка Q, совпадет с медианой (а следовательно, и со средним), и тогда можно вычислить коэффициент Q для характеристики разброса данных относительно середины распределения. При несимметричном распределении этого недостаточно. И тогда дополнительно вычисляют коэффициенты для левого и правого участков:

 

 

Меры связи

Предыдущие показатели, именуемые статистиками, характеризуют совокупность данных по одному какому-либо признаку. Этот изменяющийся признак называют переменной величиной или просто «переменной». Меры связи же выявляют соотношения между двумя переменными или между двумя выборками. Эти связи, или корреляции (от лат. correlatio — «соотношение, взаимосвязь») определяют через вычисление коэффициентов корреляции (R), если переменные находятся в линейной зависимости между собой. Считается, что большинство психических явлений подчинено именно линейным зависимостям, что и предопределило широкое использование методов корреляционного анализа. Но наличие корреляции не означает, что между переменными существует причинная (или функциональная) связь. Функциональная зависимость — это частный случай корреляции. Даже если связь причинна, корреляционные показатели не могут указать, какая из двух переменных причина, а какая — следствие. Кроме того, любая обнаруженная в психологии связь, как правило, существует благодаря и другим переменным, а не только двум рассматриваемым. К тому же взаимосвязи психологических признаков столь сложны, что их обусловленность одной причиной вряд ли состоятельна, они детерминированы множеством причин.

Виды корреляции I. По тесноте связи:

1) полная (совершенная): R = 1. Констатируется обязательная взаимозависимость между переменными. Здесь уже можно говорить о функциональной зависимости;

2) связь не выявлена: R = 0;

3) частичная: 0 < R < 1. Меньше 0,2 — очень слабая связь; (0,2-0,4) — корреляция явно есть, но невысокая; (0,4—0,6) — явно выраженная корреляция; (0,6-0,8) — высокая корреляция; больше 0,8 — очень высокая.

Встречаются и другие градации оценок тесноты связи [61].

Кроме того, в психологии при оценке тесноты связи используют так называемую «частную» классификацию корреляционных связей. Эта классификация ориентирована не на абсолютную величину коэффициентов корреляции, а на уровень значимости этой величины при определенном объеме выборки. Эта классификация применяется при статистической оценке гипотез. Тогда чем больше выборка, тем меньшее значение коэффициента корреляции может быть принято для признания достоверности связей. А для малых выборок даже абсолютно большое значение R может оказаться недостоверным.

II. По направленности:

1) положительная (прямая); коэффициент R со знаком «плюс» означает прямую зависимость: при увеличении значения одной переменной наблюдается увеличение другой;

2) отрицательная (обратная); коэффициент R со знаком «минус» означает обратную зависимость: увеличение значения одной переменной влечет уменьшение другой.

III. По форме:

1) прямолинейная; при такой связи равномерным изменениям одной переменной соответствуют равномерные изменения другой (если говорить не только о корреляциях, но и о функциональных зависимостях, то такие формы зависимости называют пропорциональными; в психологии строго прямолинейные связи — явление не частое;

2) криволинейная. Это связь, при которой равномерное изменение одного признака сочетается с неравномерным изменением другого. Эта ситуация типична для психологии.