Стандартизация, надежность и валидность теста

Рассмотрим понятия стандартизации, надежности и валидности теста с позиций классической эмпирико-статистической теории. В соответствии с этой теорией конструирование тестов для изменения психологических свойств и состояний основано на шкале интервалов. Измеряемое психическое свойство считается линейным и одномерным. Предполагается также, что распределение совокупности людей, обладающих данным свойством, описывается кривой нормального распределения.

В основе психологического тестирования лежит классическая теория погрешности измерений. Считается, что тест – такой же измерительный прибор, как любой физический прибор, и результаты, которые он показывает, зависят от величины свойства у испытуемого, а также от самой процедуры измерения. Любое свойство психики имеет «истинный» показатель, а показания по тесту отклоняются от истинного на величину случайной погрешности. На показания теста влияет и «систематическая» погрешность, но она сводится к прибавлению (вычитанию) константы к «истинной» величине параметра, что для интервальной шкалы значения не имеет.

Надежность теста. Если тест проводить много раз, то среднее значение будет характеристикой «истинной» величины параметра. Под надежностью теста принято понимать устойчивость результатов к воздействию случайных факторов, внешних и внутренних. Наиболее часто проводится оценка ретестовой надежности. Чем теснее коррелируют результаты начального и повторного (обычно отсроченного на несколько месяцев) проведения теста, тем он надежнее.

Предполагается, что существует неограниченное количество заданий, которые могут «работать» на измеряемое свойство. Тест есть лишь выборка заданий из их генеральной совокупности. В идеале можно создать сколько угодно эквивалентных форм теста, поэтому определение надежности теста можно провести путем корреляции параллельных форм или эквивалентных равных частей, полученных путем расщепления тестового задания на две части. Поскольку в реальном тесте число заданий ограничено (не более 100), то оценка надежности теста всегда приблизительна. Тест считается надежным, если коэффициент корреляции результатов составляет не менее 0,75.

Валидность теста. Проблеме валидности в классической теории теста уделяется много внимания, однако теоретически она никак не решается. Валидность означает пригодность теста измерять то свойство, для измерения которого он предназначен. Следовательно, чем больше на результат выполнения теста или отдельного задания влияет измеряемое свойство и чем меньше другие переменные (в том числе внешние), тем тест валиднее.

Тест валиден (и надежен), если на его результаты влияет лишь измеряемое свойство. Тест невалиден (и ненадежен), если результаты тестирования определяются влиянием нерелевантных переменных.

Существуют следующие виды валидности теста.

Очевидная валидность. Тест считается валидным, если у испытуемого складывается впечатление, что он измеряет то, что должен измерять.

Конкретная валидность (конвергентная – дивергентная валидность). Тест должен хорошо коррелировать с тестами, измеряющими конкретное свойство либо близкое ему по содержанию, и иметь низкие корреляции с тестами, измеряющими заведомо иные свойства.

Прогностическая валидность. Тест должен коррелировать с отдаленными по времени внешними критериями.

Содержательная валидность. Тест должен охватывать всю область изучаемого поведения.

Конструктная валидность. Предполагает полное описание измеряемой переменной, выдвижение системы гипотез о связях ее с другими переменными, эмпирическое подтверждение (неопровержение) этих гипотез.

С теоретической точки зрения единственным способом установления «внутренней» валидности теста и отдельных заданий является метод факторного анализа (и аналогичные), который позволяет: а) выявлять латентные (скрытые) свойства и вычислять значение «факторных нагрузок» – коэффициенты детерминации свойств тех или иных поведенческих признаков; б) определять меру влияния каждого латентного свойства на результаты тестирования.

Стандартизация теста заключается в приведении процедуры оценок к общепринятым нормативам. Стандартизация предполагает преобразование нормальной или искусственно нормализованной шкалы первичных оценок в шкальные оценки (подробнее об этом см. 5.2). Тестовые нормы, полученные в ходе стандартизации, представляют собой систему шкал с характеристиками распределения тестового балла для различных выборок. Они не являются «внутренними» свойствами теста, а лишь облегчают его практическое применение.