Парный критерий Т – Вилкоксона

Для решения задач, в которых осуществляется сравнение двух рядов чисел психолог может использовать парный критерий Т - Вилкоксона. Этот критерий применяется для оценки различий экспериментальных данных, полученных в двух разных условиях на одной и той же выборке испытуемых. Он позволяет выявить не только направленность изменений, но и их выраженность, т. е. он позволяет установить, насколько сдвиг показателей в каком-то одном направлении является более интенсивным, чем в другом.

Критерий Т основан на ранжировании абсолютных величин разности между двумя рядами выборочных значений в первом и втором эксперименте (например, до и после какого-либо воздействия). Ранжирование абсолютных величин означает, что знаки разностей не учитываются, однако в дальнейшем наряду с общей суммой рангов находится отдельно сумма рангов, как для положительных, так и для отрицательных сдвигов. Если интенсивность сдвига в одном направлении оказывается большей, то и соответствующая сумма рангов также оказывается больше. Этот сдвиг называется типичным, а противоположный, меньший по сумме рангов сдвиг - нетипичным. Эти два сдвига оказываются дополнительными друг другу. Критерий Т - Вилкоксона базируется на величине нетипичного сдвига, который называется Тэмп.

Психолог проводит с младшими школьниками коррекционную работу по формированию навыков внимания, используя для оценки результатов корректурную пробу. Задача состоит в том, чтобы определить, будет ли уменьшаться количество ошибок внимания у младших школьников после специальных коррекционных упражнений.

Для решения этой задачи психолог у 19 детей определяет количество ошибок при выполнении корректурной пробы до и после коррекционных упражнений. В таблице приведены соответствующие экспериментальные данные и дополнительные столбцы, необходимые для работы по парному критерию Т - Вилкоксона.

	До	После	Сдвиг	Абсолютные величины разностей	Ранги	Нетипичный сдвиг
			-2		10,5

			-1		6,5
					6,5	*
			-8
			-11

			-20
			-18
			-1		6,5
					6,5	*
			-22
			-1		6,5
			-2		10,5
			-6		13,5
			-4
			-1		6,5
					13,5	*

Сумма						26,5

Обработка данных по критерию Т - Вилкоксона осуществляется следующим образом:

В четвертый столбец таблицы вносятся величины сдвигов с учетом знака. Их вычисляют путем вычитания из чисел третьего столбца соответствующих чисел второго столбца.

В пятом столбце в соответствие каждому значению сдвига ставят его абсолютную величину.

В шестом столбце ранжируют абсолютные величины сдвигов, представленных в пятом столбце.

По формуле: подсчитывают сумму рангов. В нашем примере она составляет:

12,5 + 6,5 + 6,5 + 15 + 16 + 2 + 18 + 17 + 6,5 + 6,5 + 19 + 6,5 + 10,5 + 13,5 + 12 + 6,5 + 13,5 +2 = 190

Проверяют правильность ранжирования на основе совпадения сумм рангов полученных двумя способами. В нашем случаи обе величины совпали, 190 = 190, следовательно, ранжирование проведено правильно.

Любым символом отмечают все имеющиеся в таблице нетипичные сдвиги. В нашем случае это три положительных сдвига.

Суммируют ранги нетипичных сдвигов. Это и будет искомая величина . В нашем случае эта сумма равна: = 6,5 + 13,5 + 6,5 = 26,5.

Ткрит для P<=0,05=53

Ткрит для P<=0,01=38

Cледовательно, можно утверждать, что зафиксированные в эксперименте изменения не случайны и значимы на 1% уровне. Таким образом, психолог может говорить о том, что применение коррекционных упражнений способствует повышению точности выполнения корректурной пробы, следовательно, оказывает положительное влияние на развитие внимания школьников.

Критерий X2r Фридмана

Назначение критерия

Критерий X²_r применяется для сопоставления показателей, измеренных в трех или более условиях на одной и той же выборке испытуемых.

Критерий позволяет установить, что величины показателей от условия к условию изменяются, но при этом не указывает на направление изменений.

Данный критерий является распространением критерия Т Вилкоксона на большее, чем 2, количество условий измерения. Однако здесь мы ранжируем не абсолютные величины сдвигов, а сами индивидуальные значения, полученные данным испытуемым в 1, 2, 3 и т. д. замерах.

Гипотезы

Н₀: Между показателями, полученными (измеренными) в разных условиях, существуют лишь случайные различия.

H₁: Между показателями, полученными в разных условиях, существуют неслучайные различия.

Например, если у испытуемого в первом замере определена скорость прохождения графического лабиринта 54 сек, во втором замере - 42 сек, а в третьем замере - 63 сек, то эти показатели получат ранги, соответственно, 2, 1, 3, поскольку меньшему значению, полученному во втором замере, мы начислим ранг 1, среднему значению, полученному в первом замере - ранг 2, а наибольшему значению, полученному в третьем замере - ранг 3.

После того, как все значения будут проранжированы, подсчитываются суммы рангов по столбцам для каждого из произведенных замеров.

Если различия между значениями признака, полученными в разных условиях, случайны, то суммы рангов по разным условиям будут приблизительно равны. Но если значения признака изменяются в разных условиях каким-то закономерным образом, то в одних условиях будут преобладать высокие ранги, а в других - низкие. Суммы рангов будут достоверно различаться между собой. Эмпирическое значение критерия X²_r и указывает на то, насколько различаются суммы рангов. Чем больше эмпирическое значение X²_r ,тем более существенные расхождения сумм рангов оно отражает.

Если X²_rравняется критическому значению или превышает его, различия статистически достоверны.

Тест Мак-Немара

Критерий Мак-Немара - является аналогом параметрического критерия Стьюдента и непараметрического критерия Вилкоксона, применяется для анализа связанных измерений в случае изменения реакции с помощью дихотомической переменной.

До	После

	a	b
	c	d

Этот метод позволяет сравнить долю респондентов, которые не имели некоторой характеристики (0) во время первого обследования (например до воздействия), но стали обладать ею во время повторного обследования (1), с долей тех, кто имел это свойство (1), но перестал иметь его после (0).

Вычисляются два значения хи-квадрат: для ячеек А и D и для ячеек B и C. A/D хи-квадрат проверяет гипотезу о том, что частоты в ячейках A и D (верхняя левая, нижняя правая) одинаковы. B/C хи-квадрат проверяет гипотезу о равенстве частот в ячейках B и C (верхняя правая, нижняя левая). Метод не может использоваться для выборок, содержащих меньше 10 элементов.

Для ячеек А и D эмпирическое значение хи-квадрат для теста Мак-Немара вычисляется по формуле

Нулевая гипотеза формулируется как Н₀: P(A) = P(D).

Для ячеек B и C эмпирическое значение хи-квадрат для теста Мак-Немара вычисляется по формуле

Нулевая гипотеза формулируется как Н₀: P(A) = P(D).

Корреляционный анализ

Различают два типа связей между различными явлениями и их признаками: функциональную или жестко детерминированную, с одной стороны, и статистическую или стохастически детерминированную, с другой. Строго определить различие этих двух типов связи можно тогда, когда они получают математическую формулировку. Для простоты будем говорить о связи двух явлений или двух признаков, математически отображаемой в форме уравнения связи двух переменных.

Если с изменением значения одной из переменных вторая изменяется строго определенным образом, т. е. значению одной переменной соответствует одно или несколько точно заданных значений другой переменной, связь между ними является функциональной.

Нередко говорят о строгом соответствии лишь одного значения второй из переменных каждому значению первой из них, но это неверно. Например, связь между x и y является строго функциональной если y=√x; но значению x=4 соответствует не одно, а два значения; y₁=2 и y₂=-2. Уравнения более высоких степеней могут иметь несколько корней, связь разумеется остается функциональной.

Функциональная связь двух величин возможна лишь при условии, что вторая из них зависит только от первой и ни от чего более. В реальной природе таких связей нет; они являются лишь абстракциями, полезными и необходимыми при анализе явлений, но упрощающими реальность. Функциональная зависимость данной величины y от многих факторов x₁, x₂, ... x_k возможна только в том случае, если величина y всегда зависит только от переменного набора факторов x₁, x₂, ... x_k и ни от чего больше. Между тем все явления и процессы реального мира связаны между собой, и нет такого конечного числа переменных k, которые абсолютно полно определяли бы собой зависимую величину y. Следовательно, множественная функциональная зависимость переменных есть тоже абстракция, упрощающая реальность.

Однако в науке успешно используют представление связей как функциональных не только в аналитических целях, но нередко и в целях прогнозирования. Это возможно потому, что в некоторых простых системах интересующая нас переменная зависит в основном (скажем на 99% или даже на 99.99%) от немоногих других переменных или только от одной переменной. То есть связь в такой несложной системе является хотя и не абсолютно функциональной, но практически очень близкой к таковой.

Длина года (период обращения Земли вокруг Солнца) почти функционально зависит только от массы Солнца и расстояния Земли от него. На самом деле она зависит в очень слабой степени и от масс, и расстояния других планет от Земли, но вносимые ими (и тем более в миллионы раз более далекими звездами) искажения функциональной связи для всех практических целей, кроме космонавтики, пренебрежимо малы.

Статистическая связь не имеет ограничений и условий, присущих функциональной связи. Если с изменением значения одной переменной вторая может в определенных пределах принимать любые значения с вероятностями, но ее среднее значение или иные статистические (массовые) характеристики изменяются по определенному закону - связь является статистической. Иными словами, при статистической связи разным значениям одной переменной соответствуют разные распределения значений другой переменной.

Корреляционной связью называют важнейший частный случай статистической связи, состоящий в том, что различным значениям одной переменной соответствуют различные средние значения другой. С изменением значения x закономерным образом изменяется среднее значение признака y; в то время как в каждом отдельном случае значение признака y (с различными степенями вероятности) может принимать множество различных значений.

Если же с изменением значения признака x среднее значение признака y не изменяется закономерным образом, но закономерно изменяется другая статистическая характерис-тика (показатели вариации, асимметрии, эксцесса и т.п.), то связь является не корреляционной, а статистической.

Статистическая связь между двумя признаками (переменными величинами) предполагает, что каждый из них имеет случайную вариацию индивидуальных значений относительно средней величины. Если же такую вариацию имеет лишь один из признаков, а значения другого являются строго детерминированными, то говорят лишь о регрессии, но не о статистической (тем более корреляционной) связи.

При анализе динамических рядов можно измерять регрессию уровней ряда урожайности (имеющих случайную изменчивость) на номера лет. Но нельзя говорить о корреляции между ними и применять показатели корреляции с соответствующей им интерпретацией.

Само слово корреляция ввел в употребление в статистику английский биолог и статистик Френсис Гальтон в конце XIX века. Тогда оно писалось как “corelation” (соответствие), но не просто “связь” (relation), а “как бы связь”, т.е. связь, но не в привычной функциональной форме. В науке вообще, а именно в палеонтологии, термин “корреляция” применял еще раньше, в конце XVIII века французский палеонтолог Жорж Кювье. Он ввел даже “закон корреляции” частей и органов животных. “Закон корреляции” помогает восстановить по найденным в раскопках черепу, костям и т.д. облик всего животного и его место в системе: если череп с рогами, то это было травоядное животное, а его конечностями были копыта; если же лапа с когтями - то хищное животное без рогов, но с крупными клыками.

Например, измеряем рост и вес человека, каждое измерение представлено точкой в двумерном пространстве:

Несмотря на то, что величины носят случайный характер, в общем наблюдается некоторая зависимость - величины коррелируют.

В данном случае это положительная корреляция (при увеличении одного параметра второй тоже увеличивается). Возможны также такие случаи:

Отрицательная корреляция:

Отсутствие корреляции:

Взаимосвязь между переменными необходимо охарактеризовать численно, чтобы, например, различать такие случаи:

Корреляционная связь между признаками может возникать различными путями:

1. Важнейший путь - причинная зависимость результативного признака (его вариации) от вариации факторного признака. Например, признак x - балл оценки плодородия почв, признак y - урожайность сельскохозяйственной культуры. Здесь совершенно ясно логически, какой признак является независимой переменной (фактор) x, какой - зависимой переменной (результат) y.

2. Совершенно иная интерпретация нужна при изучении корреляционной связи между двумя следствиями одной причины. Известен классический пример, приведенный крупнейшим статистиком России начала XXв А.А. Чупровым: если в качестве признака x взять число пожарных команд в городе, а за признак y - сумму убытков за год в городе от пожаров, то между признаками x и y в совокупности городов России существенная прямая корреляция; в среднем, чем больше пожарников в городе, тем больше и убытков от пожаров. Уж не занимались ли поджигательством из боязни потерять работу? Но дело в другом. Данную корреляцию нельзя интерпретировать как связь причины и следствия; оба признака - следствия общей причины - размера города. Вполне логично, что в крупных городах больше пожарных частей, но и больше пожаров, и убытков от них за год, чем в мелких городах.

3. Третий путь возникновения корреляции - взаимосвязь признаков, каждый из которых и причина и следствие. В биологии примером таких взаимосвязей являются механизмы биологических обратных связей между параметрами организма при поддержании гомеостаза.