Спецификация теста

Спецификация теста представляет собой такое его описание, которое включает необходимую информацию о целях, задачах, плане и структуре теста, а также об основных требованиях к правилам проведения тестирования, обработках результатов тестирования и их интерпретации. Для тестов, ориентированных па критерий (КОРТ), подготовка детальной спецификации очень важна, поскольку отбор содержания является самым важным этапом его создания. Для принятия решения о достижении данной цели обучения (например, стандарта выполнения) необходимо достаточно точно и полно описать все составляющие этого стандарта и выразить его совокупностью заданий, которая была бы представительной для этой цели.

Для того чтобы быть уверенным, что все значимые учебные цели войдут в разрабатываемый тест, составляется специальная таблица, которая получила название технологическая матрица^[1].

ОГЛАВЛЕНИЕм строк технологической матрицы являются предметные области, разделы, учебные темы, столбцы матрицы заполняются, исходя из соотношения учебных целей разного уровня и их иерархии. Общее количество вопросов, входящих в массив тестовых заданий, должно быть при этом распределено так, чтобы они отражали их важность — "вес" тех или иных умственных действий и их уровней или объем и количество учебного времени, отводимого на изучение тестируемого материала. При составлении матрицы для любого предмета тестирования разработчик обязан убедиться, что весь предмет охвачен предлагаемыми вопросами. ОГЛАВЛЕНИЕ предмета должно полностью "покрываться" матрицей по всем темам. Если же имеет место тестирование по отдельным учебным предметам, то и в этом случае необходимо, чтобы все его разделы были охвачены вопросами теста.

Например, в тесте, разработанном для международного мониторинга математического образования — Т1М85, тестирование учебных достижений учащихся нацелено как на оценку овладения выделенными элементами содержания, так и на оценку видов учебно-познавательной деятельности, которые должны продемонстрировать учащиеся, прошедшие учебный курс математики в четвертом и в 8-х классах. Соответственно, авторами теста выделены блоки содержания, отражающие специфическую сложность математики, изучаемой в этих образовательно-возрастных группах. Так, что по сравнению с 8-м классом на младшей ступени значительно больше внимания уделяется теме "Числа". В 8-м классе алгебра и геометрия являются отдельными школьными предметами, поэтому они выделены как отдельные блоки содержания. В то же время в 4-м классе изучается общий курс математики, поэтому диагностика учебных достижений четвероклассников сфокусирована на простейших геометрических формах и измерениях их элементов, а также на первоначальных представлениях об алгебраических понятиях (например, о числовых последовательностях), которые включены в тему "Числа". В 4-м классе тема "Представления данных" сфокусирована на диагностике умения понимать и представлять несложные условия и исходные отношения задачи, а вопросы, связанные с темой "Вероятность", вообще не затрагиваются. В то же время в 8-м классе основное внимание уделяется оценке умения интерпретировать данные и овладению первоначальными понятиями теории вероятностей, отнесенными к разделу "Шансы".

Виды учебно-познавательной деятельности одинаковы для 4-го и 8-го классов, так как они отражают характерные познавательные процессы при применении математики в различных ситуациях в начальной и основной школе. К ним авторы теста отнесли знание, применение и рассуждение^[2].

Первый вид деятельности — знание — сфокусирован на знании учащимся необходимых фактов, понятий и процедур. В отличие от привычного для требований российской школы только знания фактов, в "ПМЗБ этот вид деятельности связывают с использованием стандартных алгоритмов и методов в стандартных ситуациях (например, сложить две дроби, разделить число в заданном отношении, решить стандартное линейное уравнение).

Категория "знание" включает знание языка математики и математических фактов и свойств, которые составляют основу математического мышления. Чем больше знаний может воспроизвести ученик, чем шире круг понятий, которыми он владеет, тем больше его потенциальная возможность справиться с различными проблемами, требующими использования математики.

Виды деятельности, связанные с категорией "знание", включают воспроизведение, распознавание, вычисления, извлечение информации, использование вычислительных устройств и измерительных инструментов, классификацию математических объектов (тел, геометрических фигур).

Второй вид деятельности — применение — сфокусирован на способности учащихся применять изученные понятия для решения задач и получения ответа на поставленные вопросы, в которых в основном приходится иметь дело либо со знакомыми, либо с несколько измененными учебными ситуациями.

Третий вид деятельности — рассуждения — явно выходит за рамки решения стандартных задач и связан с применением знаний в незнакомой ситуации, с решением сложных и многошаговых задач. Особенности деятельности но группе "применение" в математике можно охарактеризовать как выбор продуктивного метода или стратегии решения задачи.

Проведение рассуждений включает различные виды деятельности, каждый из которых является значимым результатом обучения и способствует развитию более обобщенного стиля мышления. Например, рассуждения включают способность наблюдать, выводить логические следствия, основанные на предположениях и правилах, и объяснять результаты. К рассуждениям относятся задания на обобщение, предлагающие расширить область, в которой могут применяться результаты математических размышлений и решения задач посредством формулировки результатов в более общих терминах. Например, предлагается задача, в которой дана последовательность чисел: 1, 4, 7, 10. Требуется математически описать в виде формул зависимость между каждым членом последовательности и следующим за ним членом. Правильный ответ — п + 3.

Результатом подробного анализа содержания и видов деятельности является таблица, отражающая особенности структуры теста для разных образовательно-возрастных групп (табл. 8.1).

Таблица 8.1. Распределение заданий в математических тестах ТІМSS

При разработке теста необходимо обеспечить соответствие содержания применяемым формам тестовых заданий, а также предусмотреть возможное разнообразие таких форм. Нельзя забывать, что для разных элементов тестируемого содержания подходят разные по форме задания. Для сложных определений, проверки понимания фактического материала — задания с альтернативными ответами, для знания дат — задания на восстановление последовательности. Для умений различать органы или их системы в анатомии, химические соединения в химии, фонемы в родном или иностранном языке, архитектурные стили в истории искусств применяются задания на идентификацию.

Следует учитывать и то, что при использовании теста, построенного на заданиях одного вида, существует вероятность получить в качестве основной составляющей итогового балла умение обучаемых работать именно с этой формой заданий. Те из учащихся, кто быстрее приспособятся к ней, для кого эта форма окажется наиболее знакомой, получат значительные преимущества. Этого можно избежать, используя задания различного вида. Наконец, задания разного типа делают тестирование более разнообразным, с точки зрения испытуемых, что позволяет отодвинуть порог наступления утомления и, как следствие, больше времени выделить на тестирование.

Немаловажным аспектом разрабатываемого теста является подход к оцениванию его результатов. Обычно вопросы теста оцениваются дихотомически: либо одним баллом (верно), либо нулем (неверно). Однако часть вопросов требует более дробной -полиметрической — кодировки. Необходимо учитывать, что ответ на свободный вопрос в заданиях открытого типа может быть неполным, но вместе с тем осмысленным. Рассматривать такой ответ как неправильный (с нулевой оценкой) будет несправедливо. Поэтому для оценки самых сложных вопросов теста применяется модель частичного оценивания, которая позволяет дифференцировать полные и неполные правильные ответы. Полный правильный ответ получает оценку два балла, неполный — один балл. Данная процедура оценки широко применяется в тестировании достижений и в некотором смысле является предпочтительнее, поскольку более полно учитывает информацию, содержащуюся в ответе. Например, уже в упоминаемых выше тестах ТIMSS приводятся следующие разъяснения оценки выполнения математических заданий с кратким и полным ответом.

Развернутый ответ, оцениваемый двумя баллами, является полным и правильным. В ответе продемонстрировано полное понимание математических понятий и (или) методов, необходимых для решения поставленной задачи:

— ответ показывает, что ученик полностью выполнил задание и использовал при этом верные математические методы;

— ответ содержит ясное, полное объяснение или обоснование и (или) соответствующее решение, когда это требуется.

Развернутый ответ, оцениваемый одним баллом, является частично верным. В ответе продемонстрировано только частичное понимание математических понятий и (или) методов, необходимых для решения поставленной задачи, при этом:

- верно учтены только некоторые условия задачи, но решение либо не завершено, либо содержит ошибки в использовании некоторых методов или в понимании понятий;

— может быть дан верный ответ при неверном или несоответствующем объяснении или решении, решение и (или) объяснение совсем не приводится, хотя и требуется по условию задания;

— могут быть ошибки в решении, но использованы соответствующие математические методы.

Ответ, оцениваемый нулем баллов, является полностью неверным, неуместным или непоследовательным.

При оценке выполнения задания с кратким ответом используется уже не трехбалльные, а двухбалльные шкалы. При этом ответ, оцениваемый одним баллом, является верным, ответ, оцениваемый нулем баллов, является полностью неверным, неуместным или непоследовательным. Подобный подход к оцениванию осуществлен и в тестах PISA.

Интерпретация результатов теста достижений не должна ограничиваться только фиксацией уровня измеренных знаний или умений. И разработчикам, и пользователям тестов важно осознавать значение тех или иных образовательных результатов для дальнейших (не только образовательных) перспектив, как для самих учащихся, так и для общества, в котором им предстоит жить и работать.

Примером ширококонтекстной интерпретации образовательных достижений (в случае оценки читательской грамотности) является Вперед характеристика групп читателей с разными се уровнями, выявленными тестом читательской грамотности в программе PISA. Так, читатели, достигшие 6-й ступени высшего уровня, рассматриваются как высококомпетентные читатели. Их способность добывать из текста новую информацию и критически относиться к ней является чрезвычайно ценной для современного общества; где развитие экономического и социального устройства зависит от возможности совершенствоваться и принимать решения, основанные на тонком учете всей доступной информации. Читатели 5-й ступени этого уровня готовы и к дальнейшему образованию и могут войти в число профессионалов мирового класса. Читатели, достигшие 4-й ступени высокого уровня читательской грамотности, продемонстрировали свою способность учиться с помощью текстов, приобретая не только бытовые, общежитейские знания, но и знания формальные, специализированные. Читатели, достигшие среднего уровня читательской грамотности, демонстрируют начальную форму способности учиться с помощью текстов. Они способны с помощью текстов ориентироваться в новых житейских ситуациях. Читатели, не достигшие этого уровня, могут сталкиваться с трудностями в повседневных задачах (и личных, и общественных, и деловых, и образовательных), требующих минимальной читательской грамотности. Средний уровень читательской грамотности считается "пороговым условием успешного функционирования современного взрослого человека в обыденной жизни. Выделяются еще два допороговых уровня (1а и 16), указывающих на серьезные проблемы в формировании читательской компетентности"^[3].

По мере разработки тестовых заданий, определения вариантов их оценивания и интерпретации подготавливается спецификация, представляющая своего рода техническое задание к тексту. Она включает в себя краткое описание той области содержания, для изучения которой предназначен тест, образцы задания, стимулы-признаки критерия, типичные ответы, которые могут дать испытуемые в ситуации тестирования.