Надежность и валидность методики

Итак, введем определения базовых понятий, которые необходимы для построения логически связного контекста научного подхода для измерения эффективности методов профотбора. Это понятия "надежность" и "валидность".

Надежность теста – это устойчивость результатов теста к воздействию со стороны различных случайных факторов-помех, т.е. помехоустойчивость.

Существует великое множество этих неконтролируемых и варьирующих факторов, и они в каждой конкретной ситуации воздействуют в непредсказуемой комбинации, которая приводит к появлению ошибки измерения, или стохастической погрешности истинного значения тестового балла. Надежность измерения – хорошо известное и изученное свойство в рамках физической метрологии. Для простоты поясним "надежность" на примере физического измерения линейных размеров земельных участков. Если мы берем для измерения легкую и растяжимую резинку (вместо более твердой металлической рулетки), то она оказывается в большей степени подверженной воздействию ветра, изгибов поверхности земли, силе натяжения со стороны двух участников, которые держат ее с двух концов, и т.п., т.е. воздействию со стороны множества факторов, которые вносят погрешность в результат измерения. Примеры факторов-помех, которые воздействуют на испытуемого в момент выполнения им тестовых заданий: посторонние отвлекающие звуки речи и шумы, различия в освещенности, мелькание каких-то посторонних предметов в фоновом зрительном иоле, вибрация, возможные сбои в электросети – все, что мешает концентрации внимания на задании. От испытуемого к испытуемому и от сеанса к сеансу различаются освещенность, время суток, время, отведенное организатором тестирования для вводной информации (устной части инструкции), интонации, с которыми произносится вводная информация, и множество других случайных факторов, которые также приводят к ошибке измерения, разбросу значений вокруг истинного показателя.

А вот страх перед самой ситуацией тестирования, также затрудняющий концентрацию внимания на смысле задания, – это уже фактор другого типа, который приводит к изменению результатов в определенном направлении, порождая систематический искажающий эффект. Для подобных факторов в тестологии используется другой термин – "валидность".

Парадокс: оценочная процедура может быть надежной, но не имеющей никакого практического смысла, когда она измеряет что-то такое, что не имеет никакого отношения к эффективности деятельности. Например, она надежно измеряет творческий потенциал человека (вообще-то чрезвычайно значимое качество с точки зрения абстрактного гуманизма), но на конкретном производстве этот потенциал не задействован и не влияет никак на производительность труда, а банальная концентрация внимания вкупе с ответственным отношением к делу – вот что определяет качество и количество результатов труда.

Валидность – это мера соответствия результатов методики оценивания заявленной цели оценивания, которая лишь в частном случае сводится к тому свойству (или свойствам), которое оценивается (измеряется). Иными словами, это пригодность методики для достижения цели, которая в общем случае не сводится к измерению свойств (компетенций, или профессионально важных качеств), а состоит в прогнозировании эффективности деятельности обследованных кандидатов.

Причем в этом контексте под оцениванием мы имеем в виду и квалификационное тестирование, и психодиагностическое тестирование, и применение качественных методов психодиагностики, и применение внешних и включенных экспертных оценок – любые оценочные процедуры.

Цель практически-ориентированного оценивания персонала (тестирования, в частности, но в общем случае любой оценочной процедуры), как правило, состоит в прогнозе определенного социально значимого поведения, которое называется критериальным поведением", а измеряемое свойство считается причиной критериального поведения. На производстве критериальное поведение – это высококачественная, эффективная производственная деятельность работника. Если оценивание не выявляет то профессионально важное качество (компетенцию), которое является причиной критериального поведения (в частности эффективной профессиональной деятельности), то в этом случае говорят, что оценочно-отборочная процедура НЕ обладает валидностью, НЕ способна прогнозировать критериальное поведение.

Основной методический прием для измерения надежности – это повторное проведение тестирования (оценивания) на том же самом контингенте испытуемых с последующим расчетом корреляции результатов между первым и вторым тестированием (тест-ретест устойчивость). Основной статистический прием для измерения валидности, как известно, заключается в расчете коэффициента корреляции (статистической связи) между результатами оценочной процедуры и показателем производительности труда. Автор не будет приводить в этой статье всем известные (и доступные) формулы, в частности формулу линейной корреляции Пирсона (этот коэффициент включен в состав статистических функций сверхпопулярной программы обработки офисных данных – MS Excel). Более важной представляется другая задача – помочь читателю понять логическую структуру данных, связанных с проверкой валидности и предсказанием эффективности деятельности.

В табл. 11.2 даются приближенные интервальные значения возможных показателей эмпирической валидности для разных оценочных процедур, применяемых для отбора персонала (в этой таблице автор попытался объединить собственный опыт с данными, взятыми из различных литературных источников).

Для валидизации оценочных процедур лучше, если есть такая возможность, построить комплексный критериальный показатель, в котором используется сразу несколько различных показателей KPI (key performance indicators), или по-русски КПЭ (ключевых показателей эффективности).

В табл. 11.2 особого комментария заслуживает категория "квалификационные тесты". В настоящее время это не просто тесты профессиональных знаний с выбором ответа, похожие на образовательные тесты. Под квалификационными тестами мы понимаем такие, которые включают задания, моделирующие профессиональные задачи (кейсы). В зарубежной литературе эти тесты называются "тестами ситуационных суждений" (SJT), а иногда "ситуационно-ролевым тестами": дается краткое описание какой-то профессиональной проблемной ситуации и варианты возможного поведения (возможных решений). Самый известный пример ситуационных тестовых заданий – это решение "дорожных ситуаций" в тестах на знание правил дорожного движения.

Таблица 11.2

Сравнительные интервальные оценки эмпирической валидности для различных оценочных процедур

Оценочная процедура	Примерный интервал эмпирической валидности (коэффициента корреляции)
Интервью (оценки интервьюера без специальной подготовки в области ассессмента)	0.1–0,2
Тест-опросники личностные (характерологические, мотивационные)	0,2-0,4
Проективные методики	0,3-0,5
Тесты способностей и интеллекта	0,4-0,6
Оценки включенных наблюдателей ("360 градусов")	0,3-0,6
Анализ документов по кандидату (данных резюме, квалификационных свидетельств, рекомендаций и т.п.)	0,3-0,7
Тесты квалификационные	0,5-0,7
Ассессмент (деловые игры, экспертные оценки имитационных упражнений)	0,4-0,7
Производственные (количественные) данные эффективности (отдельные KPI)	0,6-0,9

Завершая краткое введение психометрических понятий "надежность" и "валидность", подчеркнем, что в практике профотбора очень часто эти понятия и соответствующие процедуры и показатели до сих пор банально просто путают. Проводят тест-ретест процедуру для какой-то методики типа "тест-опросник" и получают коэффициент корреляции порядка 0,7 (вполне обычный для тест-опросников), но интерпретируют этот показатель как показатель валидности, в то время как показатель валидности (корреляция результатов тест-опросника с внешним критерием эффективности деятельности) остается вообще не измеренным, а он, если бы его измерили, не превышает 0,25. Кроме того, малоизвестным остается и такой "психометрический нюанс": рост надежности методики не всегда приводит к росту валидности, напротив, при очень высоких показателях надежности валидность вообще парадоксальным образом снижается. Вот какой-то наивный пользователь (или малоквалифицированный разработчик) хвастается, что получил для своего квалификационного теста надежность на уровне 0,97. Но... опять-таки при этом не производится измерение валидности. А валидность при таком значении надежности, увы, редко превышает 0,4. Почему? Все дело в том, что высокая надежность достигается, как правило, за счет так называемого сужения области валидности – за счет предъявления однотипных, слишком однородных (похожих друг на друга) тестовых заданий, которые не отражают всего разнообразия производственных ситуаций в реальной деятельности работника.