Доказательство валидности по содержанию

 

Доказательство валидности теста по конструкту релевантно выводам о том, что измеряет данный тест (какой конструкт лежит в его основе). Доказательство содержательной валидности релевантно выводам о конкретных вопросах, включенных в тест (его содержанию). Содержательная валидность теста обычно определяется одним из двух способов. Одно из определений — это релевантность вопросов теста тому, что измеряется с его помощью. Например, задача на умножение релевантна арифметическим вычислительным способностям, но если спросить человека, как пишется слово умножение, то такой вопрос будет нерелевантным.

Другим стандартом, используемым для доказательства валидности по содержанию, является «...степень репрезентативности выборки пунктов, заданий или вопросов теста для некоторой определенной универсалии или тематической области» (American Educational Research Association, 1985, стр. 10). Другими словами, этот стандарт касается репрезентативности того, что включено в тест, по отношению ко всему, что можно было бы в него включить, то есть к тестируемой области (test domain).

Удобным способом иллюстрации понятия — на этот раз понятия теста, который репрезентативен для своей «определенной тематической области» — может служить тот же пример экзамена в колледже. Предположим, что преподаватель проводит тест для оценки усвоения студентами содержания главы 2 этого учебника. Предположим далее, что все вопросы теста касаются лишь одного раздела из середины главы. Студенты закричат «Это нечестно!», и они будут правы. Пункты такого теста не будут репрезентативной выборкой вопросов, с помощью которых можно было бы оценить знания по заданной для изучения главе. Следовательно, этот тест будет иметь низкую содержательную валидность в качестве инструмента для оценки знаний по этой главе.

На рис. 3.2 представлена графическая иллюстрация концепции содержательной валидности теста, определяемой через релевантность и репрезентативность. Квадратом очерчена соответствующая тестируемая область — в нашем примере это материал главы 2. Точками, лежащими внутри квадрата, обозначены пункты теста. Фигуры, обозначенные буквами А, В и С, содержат вопросы, из которых можно составить три разных теста по этому материалу. Эти тесты можно описать следующим образом:

· Тест А содержит вопросы, которые нерелевантны для тестируемой области; возможно, преподаватель включил сюда некоторые вопросы из главы 3.

· Тест В содержит только релевантные вопросы, но он нерепрезентативен, поскольку все вопросы относятся только к одной части области. Это может быть такой тест, все вопросы которого касаются одного раздела главы.

· Тест С обладает наибольшей содержательной валидностью. Все его вопросы лежат внутри квадрата, и они принадлежат всем частям области. Возможно, преподаватель разделил содержание заданной главы на основные тематические разделы и выбрал по два вопроса из каждого раздела.

 

 

Рис. 3.2.Понятие содержательной валидности

 

Хотя в основе рис. 3.2 лежит пример из области учебы, принцип остается тем же при измерениях любого типа. Инструмент для оценки выполнения работы, содержащий вопросы только о количестве произведенной сотрудником продукции, имеет низкую содержательную валидность — «пункты» такого теста будут релевантными, но они нерепрезентативны для всех аспектов работы сотрудника. Такой инструмент оценки будет неполным (deficient), если количество не является единственной важной характеристикой, поскольку и другие аспекты выполнения работы, такие как качество, соблюдение сроков и умение работать с другими людьми, также релевантны для этой работы.

Чтобы установить валидность по содержанию, необходимо оценить соответствие между содержанием теста и тестируемой областью. На рис. 3.2 тестируемой областью является материал определенной главы учебника, но область не всегда так четко определена. В исследовании, которое проводилось для Отдела исправительных учреждений штата Оклахома, Хьюз и ее коллеги (Hughes, 1989) разрабатывали тест выполнения физической работы для отбора и оценки надзирателей исправительных учреждений (corrections officers). Они использовали процесс, состоявший из четырех этапов, первым из которых было определение тестируемой области.

 

1. Определение содержания работы.

2. Демонстрация соответствия между содержанием работы и предполагаемым содержанием теста.

3. Подтверждение, с помощью соответствующих данных, обоснованности процесса, использованного для конструирования теста.

4. Оценка пунктов теста и ее обоснование (то есть установление физических квалификационных стандартов).

 

Выполнение физической работы имеет очень много параметров, поэтому перед разработкой теста для надзирателей исправительных учреждений необходимо было определить, какие из этих параметров релевантны для данной профессии. Интересно отметить, что эти исследователи установили шесть основных требований к выполнению работы, в числе которых общая быстрая телесная реакция, сила захвата, пролонгированная физическая активность и другие.