Выборка стандартизированного педагогического теста

Разработка тестов как измерительных инструментов связана с требованиями к расчету показателей качества тестов и требования к их оснащению. Такими показателями качества являются прежде всего выборка, надежность и валидность тестового инструментария.

Для успешного расчета необходимой выборки стандартизации дидактического теста используется ряд понятий, достаточно тесно взаимосвязанных.

Генеральная совокупность – множество элементов, объединенных общей характеристикой, указывающих на их принадлежность к единой системе и изучаемых в рамках какого-либо обследования и определенных территориально-временных границах.

Генеральная совокупность применительно к педагогической сфере представляет собой именно ту совокупность (школ, учащихся, районов, городов и т.д.), на которую исследователь (диагност) хочет распространить выводы проведенного им педагогического исследования (тестирования).

Выборочная совокупность – часть генеральной совокупности, объекты которой являются основными объектами обследования. Она отбирается с помощью специальных методик и правил таким образом, чтобы ее характеристики отражали основные свойства генеральной совокупности.

В педагогической и психологической диагностике анализ основных характеристик выборочной совокупности, отбор методов ее комплектования имеют большое значение в процессе стандартизации и валидизации тестовых методик при разработке тестовых программ.

Основа выборки – система взаимосвязанных элементов генеральной совокупности, удовлетворяющих требованиям полноты, точности, адекватности. Выборка должна удовлетворять следующим требованиям:

а) полноты – в составе генеральной совокупности должны находиться все ее элементы, иначе выборка будет смещена;

б) точности – информация по каждой единице наблюдения должна быть реальной. Если, например, основой выборки служат списки учащихся, то они должны быть уточнены, чтобы в них не попали выбывшие учащиеся;

в) отсутствия дублирования – каждая единица наблюдения не должна повторяться, т.е. попадать в список дважды;

г) адекватности – основа выборки должна соответствовать целям и задачам обследования. По существу проблема адекватности основы выборки – это проблема правильного определения (конструирования) генеральной совокупности;

д) удобства работы – единицы наблюдения, входящие в генеральную совокупность, необходимо пронумеровать, а фамилии и инициалы четко вписать в общий список.

Объем выборки зависит от числа признаков, относительно которых она производится, и должен быть велик настолько, чтобы в каждую выделенную группировку попало достаточное количество элементов.

Надежность теста и проблема угадывания

Правильного ответа

Достаточно надежный тест позволяет получить устойчивую оценку способностей испытуемых той группы, к которой он применяется.

Надежность теста как средства измерений определяется отсутствием ошибок измерения тестовых баллов и тем, в какой мере результаты измерений воспроизводятся при многократном использовании теста по отношению к данной группе испытуемых. Ошибки измерения возникают в связи с усталостью испытуемого, нервным напряжением, содержанием включенных в тест заданий, ошибочными ответами, неправильной интерпретацией инструкций и попытками угадать ответ. Эти ошибки снижают индивидуальные результаты испытуемого и надежность теста.

А. Анастази выделяет случайные ошибки, вызванные невнимательностью или незнанием учащегося, и истинные ошибки, то есть ошибки, допущенные в конструкции теста. С этой точки зрения надежность показывает, в какой степени индивидуальные различия вызваны истинными, а какие случайными ошибками.

Чтобы оценить вклад различных источников в ошибку измерения, необходимо использовать разные способы оценки надежности. Прежде всего, это ретестовая надежность. Для этого тест используют второй раз, и коэффициент надежности в этом случае равен корреляции между результатами, полученными на одних и тех же испытуемых в каждом из случаев проведения теста. Конечно же, какой-то процент колебаний результатов теста может быть вызван не только результатами теста, но и некоторыми отвлекающими моментами: самочувствием, эмоциональным состоянием и т.д. Тем не менее чем выше ретестовая надежность, тем менее чувствительны результаты к обычным изменениям состояния испытуемого и обстановке тестирования.

Ретестовая надежность зависит от интервала времени, в котором она происходит. С увеличением времени данный вид надежности уменьшается. С другой стороны, если промежуток времени невелик, то испытуемые припоминают свои прежние ответы. В этом случае обследуемые указывают примерно одинаковые правильные и неправильные ответы и коэффициент корреляции окажется обманчиво высоким.

Другой способ определения надежности – метод расщепления. В этом случае каждый испытуемый получает два результата при разбивке теста на две сопоставимые части. При такой методике надежность является мерой согласованности выборок содержания. Временная стабильность показателей в ней не представлена, так как применяется только один сеанс тестирования. Благодаря этому метод расщепления иногда называют коэффициентом внутренней согласованности.

Еще одним способом определения надежности является надежность взаимозаменяющих форм. При этом те же самые испытуемые первый раз тестируются с помощью одной формы теста, второй раз – с помощью другой, сравнимой формы. Корреляция между показателями, полученными по этим двум формам, и служит коэффициентом надежности теста. При этом измеряется как временная стабильность теста, так и согласованность ответов по двум выборкам заданий.

Кроме указанных видов надежности можно выделить также метод Кьюдера – Ричардсона и другие статистические методы, описанные в специальной литературе.

А. Н. Майоров определяет целый ряд факторов, оказывающих влияние на надежность тестового инструментария.

1. Величина теста. Чем длиннее тест, тем он надежнее. Выше отмечалось, что общая оценка теста состоит из истинной составляющей и ошибочной. Истинная составляющая, несомненно, больше ошибочной, и чем больше заданий в тесте, тем скорее сумма истинной составляющей будет возрастать, а ошибочной, соответственно, уменьшаться.

2. Непонятность и двусмысленность заданий. Непонятные и двусмысленные задания приводят к тому, что ответы на них даются случайным образом. То есть в двух тестированиях будут получены разные результаты, таким образом, корреляция между результатами тестирований снизится и, следовательно, надежность будет низкой.

3. Источники, связанные с испытуемыми: невнимательность, состояние здоровья и т.д. Все эти факторы снижают надежность тестирования. Однако в том случае, когда выборка для апробации теста достаточно велика, а инструкция для проведения четко определяет условия проведения, то многого из перечисленного удается избежать.

4. Субъективное оценивание. Результаты выполнения заданий должны оцениваться одинаково разными проверяющими. Другими словами, правильный ответ в тесте должен быть однозначным. В том случае, если это требование будет нарушено, то будут допускаться различия между оценками разных проверяющих и между оценками одного проверяющего в разных случаях. Как следствие различных оценок корреляция между результатами выполнения тестирования будет уменьшена и надежность теста будет невысокой.

5. Ошибки в подсчетах. В том случае, если задания имеют однозначную схему оценивания, причиной неудовлетворительной надежности могут стать случайные ошибки при подсчете баллов, их суммировании.

6. Инструкции для учащихся. В том случае, если задания имеют неясные, двусмысленные инструкции, то результаты двух тестирований будут существенно различаться, а надежность окажется невысокой.

7. Инструкции к тесту могут быть причиной низкой надежности. Инструкции должны обеспечивать одинаковость процедуры проведения тестирования, быть понятными и недвусмысленными. Если условия проведения тестирования в одном случае отличаются от другого, то и корреляция результатов тестирования в этих случаях будет невысокой.

8. Случайное угадывание правильных ответов также является причиной снижения надежности теста.

Остановимся на данной проблеме подробнее.

Один из доводов критиков тестирования заключается в том, что для большинства заданий существует вероятность случайного угадывания правильных ответов. В общем случае это проблема только заданий закрытого типа, и чем меньше возможных альтернатив предлагается испытуемому в рамках одного задания, тем больше вероятность угадывания. Однако для заданий альтернативных ответов, используемых одиночно, вероятность угадывания максимальна и составляет 50%. Исследователи настоятельно не рекомендуют использовать такие задания для тестов школьных достижений. Серия из пяти заданий альтернативных ответов дает вероятность угадывания 0,0313, а из десяти заданий – всего лишь 0,00098.

Проблема угадывания зависит и от времени, выделяемого на тестирование, и в меньшей степени, от мотивации. Чем выше мотивация, тем больше вероятность того, что испытуемый попытается дать ответ случайно на те вопросы, на которые он не успевает ответить, то есть попытается угадать. В свою очередь, количество вопросов, по которым возможно будет угадывание, зависит от времени, выделяемого на тестирование. Чем оно короче, тем больше будет вопросов, на которые распространится случайное угадывание. Таким образом, для времени, выделяемого на тестирование, должен быть найден баланс: недостаток его ведет к угадыванию, избыток – к подсказкам и ослаблению дисциплины.