Валидность тестов

Валидность результата теста означает его соответствие измеряемому признаку.

Следует с самого начала отметить, что в содержательном плане оценка валидности теста не является исключительной задачей применения и использования статистических процедур, как это имеет место в случае оценки надежности результатов психологических измерений. Однако статистические процедуры все же могут быть использованы для доказательства того, что разрабатываемая нами процедура психологических измерений обладает достаточной валидностью. Такие процедуры дают оценку особому виду валидности, которую принято обозначать термином "эмпирическая валидность".

Отношения между эмпирической и содержательной валидностью напоминают отношения между статистическими и экспериментальными гипотезами. Как мы знаем, экспериментальные гипотезы описывают содержательные причинно-следственные отношения между фактами и явлениями, которые мы наблюдаем в эксперименте. Статистические гипотезы, абстрагируясь от содержательной стороны исследуемого вопроса, предоставляют нам лишь вероятностную оценку того результата, который был получен в эксперименте. На основе этой оценки исследователь принимает решение по поводу той реальности, к которой обращены его экспериментальные и теоретические гипотезы. Аналогичным образом содержательная валидность, устанавливаемая с помощью экспертов в данной области, дает принципиальную оценку соответствия между результатами теста и той реальностью, к которой эти результаты относятся. Статистические процедуры оценки эмпирической валидности служат лишь инструментом принятия такого решения.

Таким образом, в содержательном плане понятие валидности теста, несомненно, отличается от понятия его надежности, тогда как в эмпирическом плане эти два понятия во многом совпадают. При этом следует иметь в виду, что валидность всегда предполагает надежность психодиагностических процедур. Невозможно представить диагностический тест, обладающий высокой степенью валидности, но ненадежный в психометрическом плане. Наоборот, высокая степень надежности не является гарантией столь же высокой степени валидности. Таким образом, оказывается, что снижение надежности теста непременной ведет и к снижению валидности, в то время как повышение надежности не обеспечивает безусловного повышения валидности теста.

Поскольку эмпирическая валидность может пониматься как вариант оценивания надежности теста, общие статистические приемы ее оценки совпадают с приемами оценки надежности, рассмотренными нами в подпараграфе 8.2.1.

Эмпирическая валидность устанавливается с помощью внешнего критерия, который и определяет ту предметную область, к которой обращены результаты теста. Например, интеллектуальная шкала Д. Векслера WAIS, более известная как тест Векслера, содержит шесть групп заданий на вербальный интеллект и пять групп заданий на невербальный, сенсомоторный, интеллект. Эти группы заданий называются субтестами. На основе полученных по этим субтестам результатам рассчитываются показатели вербального и невербального интеллекта. Для оценки валидности результатов по шкале вербального интеллекта был выбран уровень академической успеваемости, а для оценки результатов невербальной шкалы – успешность канцелярской работы. Уровень валидности оценивался как значение корреляции между результатами теста и показателями успешности в соответствующих видах деятельности. Такую валидность называют прагматической. Пред полагается, что результат теста может не только диагностировать наличие того или иного личностного свойства, но и дает прогноз относительно его влияния на те или иные аспекты поведения человека.

Прагматическая валидизация не обязательно предполагает организацию исключительно корреляционного исследования. Процедура оценки валидности теста может основываться на принципах квазиэксперимента с использованием приемов статистического контроля, как это было описано в подпараграфе 8.1.1, когда речь шла о методе ковариационного анализа. В этом случае применяют прием, связанный с выделением контрастных групп.

Для примера представим, что мы разрабатываем тест, который должен оценивать мотивацию достижения школьников. У нас имеются результаты, отражающие успеваемость большой группы учащихся. Эта группа разделяется на части, соответствующие высокой и низкой успеваемости. Самым грубым приемом такого разделения является разделение по медиане. Более надежным способом, однако, является прием, когда исследователь использует не все имеющиеся результаты, а лишь те, которые соответствуют крайним значениям используемого критерия. Например, для валидизации теста можно использовать лишь результаты успеваемости школьников, входящих в первый и четвертый квартили распределения фактора успеваемости. В любом случае мы имеем квазиэкспериментальный план. Тогда в качестве значения ковариаты могут быть использованы результаты разрабатываемого теста, валидность которого необходимо проверить.

Такой вариант прагматической валидизации называют ретроспективным. Если критерий валидизации только предполагается получить, используют вариант проспективной валидизации. В этом случае выборка испытуемых, участвующих в процедуре валидизации теста, составляется на основе вероятностного прогноза проявления измеряемого признака в популяции. Такая процедура валидизации позволяет с большими основаниями судить о наличии причинно-следственной связи между измеряемым свойством и исследуемыми формами поведения.

В качестве критерия эмпирической валидизации можно выбрать и результаты другого теста, валидность которого уже подтверждена и не вызывает сомнения. В этом случае говорят о конструктной валидности.

Наконец, еще одним приемом валидизации является использование экспертных оценок. Такие оценки, например, могут быть получены группой экспертов в ходе наблюдения за испытуемыми, прошедшими тестирование. Результаты такого оценивания могут быть представлены в виде таблицы, где по столбцам будут представлены оценки k экспертов, по строкам – их оценки, данные п испытуемых. В данной ситуации важным оказывается фактор согласованности полученных оценок. Такую согласованность можно определить на основе известного нам критерия α Кронбаха (формула (8.19)) или формулы Спирмена – Брауна (формула (8.17)). Высокая степень согласованности оценок экспертов является обязательным условием, позволяющим использовать эти оценки в ходе процедуры валидизации теста.

Таким образом, истинная валидность теста может быть определена следующим образом:

где ryy – корреляция с "истинным" критерием, или "истинная" валидность теста; rхх – эмпирическая корреляция с критерием; αс – надежность критерия, вычисленная по формуле Кронбаха.