СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ ЭКСПЕРИМЕНТА

Приложение 9.

Написано А.П. Антроповым

Для чего нужна статистическая обработка экспериментальных данных?

 

 

В ходе дипломного исследования студент проводит экспериментальную работу. Как правило, в педагогическом университете дипломнику необходимо выявить некоторые особенности познавательной деятельности, эмоционально-волевой или моторно-двигательной сферы у учащихся, либо выяснить уровень сформированности определенных знаний, умений или навыков, либо изучить динамику развития учащихся по определенным параметрам. Сравнивая экспериментальную и контрольную группы, студенты обычно вычисляют процентные доли учащихся, соответствующих определенному уровню развития, выполнивших те или иные задания, и т.п. В выступлении на защите дипломной работы студент может сказать, что в экспериментальной группе после экспериментального обучения контрольные задания выполнили 75% испытуемых, а в контрольной группе, где обучение шло по традиционной методике, положительные результаты только у 50%. Студент делает вывод об эффективности предлагаемой экспериментальной методики на основании того, что в первой группе количество учащихся правильно выполнивших задание на 25% больше, чем во второй. Этот вывод не может считаться доказательным, т.к. речь идет об ограниченном числе испытуемых. Доказать, что у остальных испытуемых наблюдается такая же картина можно двумя способами. Первый способ состоит в проверке генеральной совокупности, т.е. всех потенциальных испытуемых. В подавляющем числе случаев это невозможно. Второй способ заключается в статистической обработке данных, которая позволяет установить с высокой вероятностью (95%, 99% или 99,9%), что у всех остальных потенциальных испытуемых тенденции сохранятся.

В этом методическом пособии даны краткие рекомендации по статистической обработке данных эксперимента, которых недостаточно для усвоения курса «Математическая статистика в психолого-педагогических исследованиях». Для получения достаточных знаний нужно прослушать соответствующий курс лекций и изучить литературу, список которой приведен в конце.

 

Задачи эксперимента

 

Экспериментальное исследование начинается с постановки задач и выбора групп испытуемых, называемых в статистике выборками. Если вы исследуете разные группы испытуемых, то такие выборки называют независимыми (несвязанными). Если речь идет об одних и тех же испытуемых, которых вы изучаете в разное время или в разных условиях, то выборки будут зависимыми (связанными). Задачи эксперимента можно разделить на следующие основные группы.

1) Выявление различий по какому-либо признаку между двумя независимыми выборками. Обычно при сравнении экспериментальной и контрольной групп до начала экспериментального обучения нужно показать, что они не различаются по изучаемым параметрам: по уровню каких-либо знаний, умений или навыков (например, по знанию алфавита или по скорости чтения), по уровню развития когнитивных процессов, по свойствам или качествам личности (например, по уровню развития аналитико-синтетической деятельности, по объему внимания, памяти, по особенностям общения и т.п.) и по другим признакам. По окончании экспериментального обучения для подтверждения его эффективности нужно, наоборот, установить, что показатели в экспериментальной группе выше, чем в контрольной.

2) Выявление изменений в двух зависимых выборках. В этом случае надо выяснить, произошли ли у испытуемых существенные изменения с момента начала экспериментального вмешательства или за какой-либо период времени без экспериментального вмешательства, а также посмотреть, меняются ли изучаемые параметры при изменении условий эксперимента. Убедительным доказательством эффективности экспериментальной методики может служить наличие по окончании эксперимента изменений в экспериментальной группе и отсутствие таковых в контрольной.

3) Установление корреляционных связей. Это нужно тогда, когда исследователь хочет определить, имеется ли связь между отдельными параметрами, например, между скоростью чтения и показателем IQ. Установление сильных корреляционных связей позволяет комплексно решать вопросы обучения, а также воздействовать не на следствия, а на причины того или иного явления.

Следует отметить, что список экспериментальных задач не исчерпывается перечисленными группами.

 

 

Шкалы измерения

 

Определив, что мы будем измерять, у кого и с какой целью, нужно подобрать соответствующую шкалу, которую исследователь либо создает сам, либо пользуется готовой. В статистике шкалы подразделяют на четыре вида.

1) Номинативная, или номинальная, или шкала наименований. Такая шкала показывает, отличается ли одно значение признака от другого по изучаемому параметру или нет. Например, в ответ на просьбу назвать свой любимый предмет, часть учащихся выбрала математику, другая часть — физкультуру и т.д. Учащиеся, выбравшие один и тот же предмет, оказались в одной ячейке шкалы, выбравшие разные предметы — в разных ячейках. Можно посчитать в абсолютных значениях или в процентах частоту выбора каждого учебного предмета. Номинативная шкала относится к качественным шкалам.

2) Ранговая, или ординальная, или порядковая шкала. Пример такой шкалы каждый человек знает с детства. Это пятибалльная шкала школьных оценок. Для ранговой шкалы необходимы критерии, по которым можно сказать, что значения признака не только отличаются или не отличаются друг от друга, но и определить, что одно значение больше другого или равно другому. Применительно к ранговой шкале действуют качественные критерии, поэтому эта шкала также является качественной. Действительно, учитель, ставя оценку, руководствуется соответствующими критериями и собственным опытом. Если при проверке диктанта или письменной работы по математике, как правило, можно точно сосчитать количество ошибок, допущенных учащимся, то в других случаях оценки могут быть спорными (например, за сочинение по литературе).

Студенты в дипломных работах обычно создают свою ранговую шкалу. Разделение испытуемых на три группы (класса в классификации) по уровням («средний», «ниже среднего» и «выше среднего») — это уже ранговая шкала. Количество рангов — три. Чем больше классов, тем точнее наше оценивание. Хорошая ранговая шкала начинается от восьми рангов. Но при увеличении количества рангов необходима более тонкая дифференцировка в оценивании, что бывает достаточно трудно при качественных показателях. Для дипломного психолого-педагогического исследования оптимальным можно считать вариант пятибалльной ранговой шкалы, т.к. обычно не удается найти подходящие критерии для увеличения количества рангов.

В ранговой шкале различие между рангами не является фиксированной величиной. Например, один ученик получил оценку «четыре», минимально выполнив необходимые требования, а другой ученик получил такую же оценку, не удовлетворив лишь одному критерию для получения оценки «пять». Таким образом, ответ первого ученика ближе к оценке «три», чем ответ второго. Поэтому с рангами нельзя выполнять арифметических действий. Такой показатель, как средний балл, строго говоря, не является корректным и не может служить единственным критерием для сравнения успеваемости учащихся.

3) Интервальная шкала, или шкала равных интервалов. Применяя эту шкалу, мы можем ответить не только на вопрос, какое из значений признака больше, но и насколько больше. Интервальная шкала относится к количественным шкалам. Начало отсчета в ней определяется произвольно, а интервалы равные. Примером может служить температурная шкала Цельсия. Баллы в интервальной шкале можно складывать и вычитать, но нельзя делить и умножать, именно по причине произвольного выбора нулевой точки (мы не можем, пользуясь только шкалой Цельсия, сказать, во сколько раз 5°С больше, чем 0°С).

Студенту создать самостоятельно ранговую шкалу достаточно трудно. Для этого необходима большая выборка и знание математической статистики. Применительно к педагогическому исследованию создать ранговую шкалу еще труднее, т.к. объект изучения слишком сложен и не всегда обладает количественными характеристиками.

Педагоги в своих исследованиях могут опираться и на работу психологов. Например, можно использовать данные, полученные в результате применения тестов оценки интеллекта, например, учитывать IQ каждого испытуемого. В психологии интервальными считаются стандартизированные шкалы, построенные в единицах стандартного отклонения, например, шкала оценки интеллекта Д. Векслера, шкала стенов Р.Б. Кеттелла.

4) Шкала отношений, или шкала равных отношений. Самая точная количественная шкала. Точка отсчета в этой шкале объективна. Например, температурная шкала Кельвина, шкалы массы, времени, расстояния. По отношению к интервальной шкале имеет смысл вопрос, во сколько раз одно значение признака больше другого. К шкале отношений применимы любые методы математической статистики, но такую шкалу для психолого-педагогического исследования практически невозможно построить ввиду сложности объекта изучения.

Иногда мы применяем физическую шкалу, которая является шкалой отношений, для психолого-педагогического исследования. При этом шкала отношений перестает быть таковой, т.к. с ее помощью мы измеряем не физическую величину, а нечто другое. Приведем пример. Экспериментатор просит учащегося оценить, насколько нравится ему ходить в школу. Перед испытуемым находится лист бумаги с начерченным на нем отрезком длиной 100 мм. Крайняя левая точка означает сильное нежелание ходить в школу, крайняя правая — сильное желание. Потом измеряется длина отрезка от его начала до точки, поставленной испытуемым. Понятно, что при такой методике показатели 78 мм и 71 мм нельзя с уверенностью считать различающимися, т.к. измеряется не физическая величина (длина отрезка), а отношение к школе.

 

 

Статистические гипотезы и статистические критерии

 

После получения экспериментальных данных по двум группам испытуемых можно сформулировать статистические гипотезы, которые подразделяются на нулевые и альтернативные. Нулевая гипотеза — это гипотеза об отсутствии различий. Она обозначается Н0. Например, уровень сформированности вычислительных навыков в экспериментальной группе не выше, чем в контрольной. Альтернативная гипотеза — это гипотеза о наличии различий. Она является отрицанием нулевой гипотезы и обозначается Н1. В нашем случае альтернативная гипотез будет сформулирована так: уровень сформированности вычислительных навыков в экспериментальной группе выше, чем в контрольной. Перед началом обработки данных мы формулируем две гипотезы (нулевую и альтернативную), т.к. не знаем, получит ли альтернативная гипотеза статистическое подтверждение.

Статистические гипотезы проверяются с помощью статистических критериев — правил, позволяющих отклонить ложную гипотезу и принять истинную с высокой вероятностью. Когда мы принимаем альтернативную гипотезу, то для психолого-педагогических исследований высокой можем считать вероятность не менее 95%, 99% или 99,9%. Другими словами, вероятность ошибки при этом может составлять соответственно не более 5%, 1% или 0,1% (иначе — 10/00 , т.е. 1 промилле). Эта вероятность называется уровнем значимости и обозначается соответственно р ≤ 0,05; р ≤ 0,01; р ≤ 0,001 (читаем соответственно так: «пятипроцентный уровень значимости», «однопроцентный уровень значимости», «уровень значимости — один промилле»).

Мы будем пользоваться следующим правилом.

 

Правило отклонения Н0 и принятия Н1.

 

Если эмпирическое значение критерия меньше критического значения, соответствующего p ≤ 0,05, то принимается Н0.

Если эмпирическое значение критерия равняется критическому значению, соответствующему p ≤ 0,05 или превышает его, но меньше критического значения, соответствующего p ≤ 0,01, то Н0 отклоняется и принимается Н1 (p ≤ 0,05).

Если эмпирическое значение критерия равняется критическому значению, соответствующему p ≤ 0,01 или превышает его, но меньше критического значения, соответствующего p ≤ 0,001, то Н0 отклоняется и принимается Н1 (p ≤ 0,01).

Если эмпирическое значение критерия равняется критическому значению, соответствующему p ≤ 0,001 или превышает его, то Н0 отклоняется и принимается Н1 (p ≤ 0,001).

Исключения: критерий знаков G, критерий Т Вилкоксона и критерий U Манна-Уитни. Для них устанавливаются обратные соотношения.

 

Это правило не является абсолютным. Например, в медицинских исследованиях пользуются более строгим правилом, согласно которому достижение критического значения, соответствующего р ≤ 0,05, позволяет отклонить нулевую гипотезу, но не считается достаточным для принятия альтернативной гипотезы.

Для наглядности правило можно проиллюстрировать на «оси значимости» (см. у Е.В. Сидоренко):

Для большинства критериев:
 
 


Н0 Н1 (p ≤ 0,05) Н1 (p ≤ 0,01) Н1 (p ≤ 0,001)

С

Скр 0,05 Скр 0,01 Скр 0,001

 

Для исключений (критерии знаков, Манна-Уитни и Вилкоксона):
 
 


Н1 (p ≤ 0,01) Н1 (p ≤ 0,05) Н0

С

Скр 0,01 Скр 0,05

(Для этих критериев нет табличных значений, соответствующих p ≤ 0,001.)

 

Для этих и ряда других критериев отсутствуют критические значения, соответствующие p ≤ 0,001. Поэтому для таких критериев на оси отмечаются только два критических значения для уровней значимости p ≤ 0,05 и p ≤ 0,01. В отдельном случае на «ось значимости» мы нанесем еще одно критическое значение, соответствующее p ≤ 0,10 (см. пункт «Многофункциональный статистический критерий j* — угловое преобразование Фишера»).

 

 

Параметрические и непараметрические статистические критерии

Все критерии математической статистики подразделяются на параметрические или непараметрические в зависимости от того, учитываются ли параметры распределения или нет. О распределении, его видах и параметрах более подробно можно прочитать в книгах из приведенного списка литературы.

Параметрические критерии можно применять только при соблюдении двух условий:

· признак должен быть измерен количественно, т.е. с помощью интервальной шкалы или шкалы отношений;

· значения признака должны соответствовать нормальному распределению.

Если вы хотите применить такие популярные параметрические критерии как линейный коэффициент корреляции Пирсона или критерий Стьюдента, то необходимо проверить соответствие экспериментальной задачи этим двум условиям.

Для студенческих исследований более подходят непараметрические критерии, о которых пойдет речь дальше. Описание некоторых критериев, их назначение и ограничения использования, а также алгоритмы расчета критериев и таблицы критических значений даются в книге Е.В. Сидоренко «Методы математической обработки в психологии» (см. список литературы) и курсе лекций «Математическая статистика в психолого-педагогических исследованиях». В этом методическом пособии мы ограничимся примерами. Все приведенные примеры — условные.

 

Критерий Q Розенбаума

 

Пример 1. Измерялась скорость чтения (в словах в минуту) у учащихся двух групп. Учащиеся первой группы (n1 = 15) прошли обучение по экспериментальной методике (см. таб. 1), учащиеся второй группы (n2 = 13) обучались по традиционной методике. Можно ли говорить о существенных различиях в скорости чтения у учащихся прошедших экспериментальное обучение и не прошедших его?

 

Таблица 1. Показатели скорости чтения у учащихся экспериментальной и контрольной групп.

Экспериментальная группа (n1 = 15) 56, 58, 60, 61, 63, 65, 68, 68, 68, 70, 74, 75, 77, 79, 80
Контрольная группа (n2 = 13) 48, 52, 54, 56, 57, 58, 58, 60, 62, 63, 67, 69, 72

 

Обратите внимание на то, что значения признака должны быть упорядочены, т.е. расположены в порядке возрастания или убывания.

Формулируем гипотезы.

 

Н0: скорость чтения у учащихся, прошедших обучение по экспериментальной методике, не больше, чем у школьников, обучавшихся по традиционной методике.

Н1: скорость чтения у учащихся, прошедших обучение по экспериментальной методике, больше, чем у школьников, обучавшихся по традиционной методике.

 

  56, 58, 60, 61, 63, 65, 68, 68, 68, 70, 74, 75, 77, 79, 80
48, 52, 54, 56, 57, 58, 58, 60, 62, 63, 67, 69, 72 S1
S2    

 

S1 — количество значений признака в первой выборке, больших максимального значения во второй выборке.

S2 — количество значений признака во второй выборке, меньших минимального значения в первой выборке.

S1 = 5, S2 = 3

Эмпирическое значение критерия вычисляется так:

Qэмп = S1 + S2 = 5 + 3 = 8

Критические значения различных критериев определяем по таблицам (здесь и далее см. у Е.В. Сидоренко).

  6 (p ≤ 0,05)
Qкр =  
  9 (p ≤ 0,01)

 

Начертим «ось значимости»:

6 8 9 Q Qкр 0,05 Qэмп Qкр 0,01

 

По правилу отклонения Н0 и принятия Н1, если Qкр 0,05 ≤ Qэмп < Qкр 0,01, то принимаем Н1 (p ≤ 0,05).

 

Вывод. Скорость чтения у учащихся, прошедших обучение по экспериментальной методике, больше, чем у школьников, обучавшихся по традиционной методике (p ≤ 0,05).

 

 

Критерий U Манна-Уитни

 

Применим критерий Манна-Уитни к примеру 1 (см. критерий Розенбаума).

Поскольку нам придется расставлять ранги, то приведем здесь соответствующее правило.

 

Правило ранжирования.

1. Наименьшему значению признака присваивается ранг 1.

2. Большему значению признака присваивается больший ранг по порядку номеров в упорядоченной выборке, кроме случаев, предусмотренных п. 3.

3. Если есть несколько одинаковых значений признака, то каждому из них присваивается ранг, равный среднему арифметическому их порядковых номеров.

4. Полученная сумма рангов сверяется с теоретической по формуле

S R = n (n + 1)


где n — количество ранжируемых значений признака.

 

Гипотезы формулируются позже, т.к. для этого требуется подсчитать ранговые суммы (см. таб. 2). При применении критерия Манна-Уитни ранжируются все значения признака, как если бы обе группы объединились в одну. Вместе с тем, значения признака и ранги мы записываем по каждой выборке отдельно.

 

Таблица 2. Подсчет ранговых сумм в экспериментальной и контрольной группах.

  n Экспериментальная группа (n1 = 15) Контрольная группа (n2 = 13)
Показатель скорости чтения Ранг Показатель скорости чтения Ранг
1.    
2.    
3.    
4. 4,5    
5.     4,5
6.    
7.    
8.    
9.    
10. 10,5    
11.     10,5
12.    
13.    
14. 14,5    
15.     14,5
16.    
17.    
18.    
19.    
20.    
21.    
22.    
23.    
24.    
25.    
26.    
27.    
28.    
SR   274,5   131,5

 

Суммирование удобно выполнять в программе Excel.

Проверим правильность подсчета полученных ранговых сумм.

S R = n (n + 1) = 28 (28 + 1) = = 274,5 + 131,5

Суммы рангов посчитаны верно.

Теперь можно сформулировать гипотезы. В данном случае они будут такими же, как при применении критерия Розенбаума.

 

Н0: скорость чтения у учащихся, прошедших обучение по экспериментальной методике, не больше, чем у школьников, обучавшихся по традиционной методике.

Н1: скорость чтения у учащихся, прошедших обучение по экспериментальной методике, больше, чем у школьников, обучавшихся по традиционной методике.

 

Вычислим эмпирическое значение критерия по формуле:

Uэмп = n1n2 + nx ∙ (nx + 1) – S Rx

где n1 — количество испытуемых в первой выборке;

n2 — количество испытуемых во второй выборке;

nх — количество испытуемых в выборке с большей суммой рангов;

S Rx — большая из двух сумм рангов.

 

Для нашего примера Uэмп вычисляем так:

Uэмп = 15 ∙13 + 15 ∙ (15 + 1) – 274,5 = 40,5

 

Обратите внимание на то, что nх — это не большее из двух выборок количество испытуемых, а количество испытуемых в выборке с большей суммой рангов. В данном случае nх = n1, т.к. в первой выборке сумма рангов больше, чем во второй.

Но мы еще не можем сверить полученное эмпирическое значение критерия с критическими. Если n1 ¹ n2, а у нас именно такой случай, то надо сделать проверку, подставив в формулу для нахождения эмпирического значения вместо nх и SRx оставшиеся значения:

эмп = 15 ∙13 + 13 ∙ (13 + 1) – 131,5 = 154,5

 

Из двух полученных Uэмп надо выбрать меньшее. В данном случае проверка ничего не дала, и мы выбираем первое Uэмп = 40,5.

 

По таблице находим:

  61 (p ≤ 0,05)
Uкр =  
  47 (p ≤ 0,01)

Критерий Манна-Уитни относится к исключениям (см. правило отклонения Н0 и принятия Н1), поэтому «ось значимости» будет выглядеть так:

 
 


40,5 47 61

U

Uэмп Uкр 0,01 Uкр 0,05

 

По правилу отклонения Н0 и принятия Н1 (см. исключения), если Uэмп ≤ Uкр 0,01, то принимаем Н1 (p ≤ 0,01). (Критическое значение для p ≤ 0,001 не определено, поэтому оно не учитывается.)

 

Вывод. Скорость чтения у учащихся, прошедших обучение по экспериментальной методике, больше, чем у школьников, обучавшихся по традиционной методике (p ≤ 0,01).

 

Этот пример подтверждает большую мощность критерия Манна-Уитни по сравнению с критерием Розенбаума: с помощью критерия Q различия между выборками установлены только на уровне статистической значимости p ≤ 0,05, а с помощью критерия — на уровне p ≤ 0,01.

 

Критерий знаков G

 

Пример 2. У учащихся класса (n = 16) измерялось количество правильно выполненных контрольных заданий до и после экспериментального обучения (см. таб. 3). Можно ли говорить о достоверных изменениях в количестве выполненных заданий?

 

Таблица 3. Количество выполненных контрольных заданий до и после экспериментального обучения.

n до после сдвиг n до после сдвиг
+ 2
+ 2 – 1
+ 2 + 2
– 1
+ 3 + 1
+ 1 + 2
+ 3 + 3

 

Исключим из внимания все случаи нулевых сдвигов. Таких случаев 4. Поэтому n = 16 – 4 = 12.

Типичный сдвиг — положительный.

Нетипичные сдвиги наблюдаются у испытуемых под номерами 4 и 10. В ситуации реального педагогического исследования испытуемые, у которых наблюдаются нулевые или отрицательные сдвиги, требуют особого внимания. Необходим анализ причин такого положения.

Теперь можно сформулировать гипотезы.

 

Н0: увеличение числа выполненных контрольных заданий является случайным.

Н1: увеличение числа выполненных контрольных заданий не является случайным.

 

Эмпирическое значение критерия равно количеству нетипичных сдвигов:

Gэмп = 2

 

Из таблицы критических значений узнаем, что

  2 (p ≤ 0,05)
Gкр =  
  1 (p ≤ 0,01)

 

Посмотрим на «ось значимости», не забывая о том, что критерий знаков относится к исключениям:

 
 


1 2 G

Gкр 0,01 G кр 0,05 =

= Gэмп

 

По правилу отклонения Н0 и принятия Н1 (см. исключения), если G кр 0,01 < Gэмп ≤ Gкр 0,05, то принимаем Н1 (p ≤ 0,05).

Вывод. Увеличение числа выполненных контрольных заданий не является случайным (p ≤ 0,05).

 

Критерий Т Вилкоксона

 

Применим критерий Вилкоксона к примеру 2 (см. критерий знаков).

Таблица 4.

Расчет критерия Т при сопоставлении количества выполненных контрольных заданий до и после экспериментального обучения.

n до после d (сдвиг) ½d½ R½d½
. . . .
+ 2
+ 2
– 1 2,5
+ 3
. . . .
+ 1 2,5
+ 3
+ 2
– 1 2,5
+ 2
. . . .
+ 1 2,5
. . . .
+ 2
+ 3
SR

 

Дадим пояснения к таблице 4. Мы исключили из внимания все случаи нулевых сдвигов. Таких случаев 4. Поэтому n = 16 – 4 = 12. Ранжируем модули сдвигов только у этих двенадцати испытуемых. Ранжирование проводится по упорядоченной выборке, т.е. ранжируемые значения должны быть расположены в порядке возрастания или убывания. Обычно упорядочивают в порядке возрастания. Поэтому:

 

Таблица 5.

Ранги упорядоченных модулей сдвигов.

Порядковый номер упорядоченных модулей сдвигов
½d½
R½d½ 2,5 2,5 2,5 2,5

 

Именно такие ранги внесены в таблицу 4.

Проверим теперь правильность подсчета суммы рангов.

S R = n (n + 1) = 12 (12 + 1) = 78

Сумма рангов посчитана верно.

 

Типичный сдвиг — положительный.

Теперь формулируем гипотезы.

 

Н0: интенсивность сдвигов в сторону увеличения числа выполненных контрольных заданий не превышает интенсивности сдвигов в сторону их уменьшения.

Н1: интенсивность сдвигов в сторону увеличения числа выполненных контрольных заданий превышает интенсивность сдвигов в сторону их уменьшения.

Эмпирическое значение критерия Т равно сумме рангов модулей нетипичных сдвигов. (Если имеется только один нетипичный сдвиг, то эмпирическое значение критерия равно рангу модуля этого сдвига. Если нетипичных сдвигов нет, то Тэмп = 0.) В нашем случае:

Тэмп = 2,5 + 2,5 = 5

По таблице критических значений для n = 12 (не забудьте об исключенных нулевых сдвигах!) определяем, что

  17 (p ≤ 0,05)
Ткр =  
  9 (p ≤ 0,01)

«Ось значимости», с учетом того, что критерий Вилкоксона относится к исключениям, выглядит так:

 
 


5 9 17 U

Тэмп Ткр 0,01 Ткр 0,05

 

По правилу отклонения Н0 и принятия Н1 (см. исключения), если Тэмп ≤ Ткр 0,01, то принимаем Н1 (p ≤ 0,01). (Критическое значение для p ≤ 0,001 не определено, поэтому оно не учитывается.)

 

Вывод. Интенсивность сдвигов в сторону увеличения числа выполненных контрольных заданий превышает интенсивность сдвигов в сторону их уменьшения (p ≤ 0,01). Или иначе: количество выполненных контрольных заданий увеличилось (p ≤ 0,01).

 

Критерий Вилкоксона является более мощным по сравнению с критерием знаков, поэтому результат получился на более высоком уровне значимости (при применении критерия G вывод был сделан на уровне статистической значимости p ≤ 0,05).

 

Многофункциональный статистический критерий j*

угловое преобразование Фишера

 

Пример 3. Учащиеся двух групп (n1 = 16, n2 = 20) решали задачу. В первой группе решили 12 из 16 (75%), во второй группе — 10 из 20 (50%). Достаточно ли различаются эти процентные доли при данном количестве испытуемых?

 

Применение углового преобразования Фишера начинаем с того, что определяем, что для нас является эффектом. Будем считать, что эффект есть, если задача решена.

Формулируем гипотезы.

 

Н0: доля учащихся, решивших задачу, в первой группе не больше, чем во второй.

Н1: доля учащихся, решивших задачу, в первой группе больше, чем во второй.

 

Составляем таблицу.

 

Таблица 6. Процентные доли испытуемых, решивших и не решивших задачу.

  «Есть эффект» «Нет эффекта» S
I группа (n1 = 16) 12 (75%) 4 (25%)
II группа (n2 = 20) 10 (50%) 10 (50%)
S

 

По таблице величин угла j для разных процентных долей (см. Е.В. Сидоренко) находим:

j1 (75%) = 2,094

j2 (50%) = 1,571

 

Эмпирическое значение вычисляется по формуле:

    Ö  
jэмп = (j1 – j1) ∙ n1n2
n1+ n2
     

где j1 — величина угла, соответствующего большей процентной доле в графе «Есть эффект»;

j2 — величина угла, соответствующего меньшей процентной доле в графе «Есть эффект»;

n1 — количество наблюдений в первой выборке;

n2 — количество наблюдений во второй выборке.

 

Для нашей задачи

    Ö  
jэмп = (2,094 – 1,571) ∙ 16 ∙ 20 = 0,523 ∙ 2,981 = 1,56
16 + 20
       

Критические значения для критерия j* одинаковы для любых n:

  1,64 (p ≤ 0,05)
jкр = 2,31 (p ≤ 0,01)
  2,81 (p ≤ 0,001)

Посмотрим, куда попадает наше эмпирическое значение критерия на «оси значимости»:

 
 


1,56 1,64 2,31 2,81 j*

jэмп jкр 0,05 jкр 0,01 jкр 0,001

В соответствии с правилом отклонения Н0 и принятия Н1, если jэмп < jкр 0,05, то принимаем Н0.

Вывод. Доля учащихся, решивших задачу, в первой группе не больше, чем во второй.