Надежность и валидность методики
Итак, введем определения базовых понятий, которые необходимы для построения логически связного контекста научного подхода для измерения эффективности методов профотбора. Это понятия "надежность" и "валидность".
Надежность теста – это устойчивость результатов теста к воздействию со стороны различных случайных факторов-помех, т.е. помехоустойчивость.
Существует великое множество этих неконтролируемых и варьирующих факторов, и они в каждой конкретной ситуации воздействуют в непредсказуемой комбинации, которая приводит к появлению ошибки измерения, или стохастической погрешности истинного значения тестового балла. Надежность измерения – хорошо известное и изученное свойство в рамках физической метрологии. Для простоты поясним "надежность" на примере физического измерения линейных размеров земельных участков. Если мы берем для измерения легкую и растяжимую резинку (вместо более твердой металлической рулетки), то она оказывается в большей степени подверженной воздействию ветра, изгибов поверхности земли, силе натяжения со стороны двух участников, которые держат ее с двух концов, и т.п., т.е. воздействию со стороны множества факторов, которые вносят погрешность в результат измерения. Примеры факторов-помех, которые воздействуют на испытуемого в момент выполнения им тестовых заданий: посторонние отвлекающие звуки речи и шумы, различия в освещенности, мелькание каких-то посторонних предметов в фоновом зрительном иоле, вибрация, возможные сбои в электросети – все, что мешает концентрации внимания на задании. От испытуемого к испытуемому и от сеанса к сеансу различаются освещенность, время суток, время, отведенное организатором тестирования для вводной информации (устной части инструкции), интонации, с которыми произносится вводная информация, и множество других случайных факторов, которые также приводят к ошибке измерения, разбросу значений вокруг истинного показателя.
А вот страх перед самой ситуацией тестирования, также затрудняющий концентрацию внимания на смысле задания, – это уже фактор другого типа, который приводит к изменению результатов в определенном направлении, порождая систематический искажающий эффект. Для подобных факторов в тестологии используется другой термин – "валидность".
Парадокс: оценочная процедура может быть надежной, но не имеющей никакого практического смысла, когда она измеряет что-то такое, что не имеет никакого отношения к эффективности деятельности. Например, она надежно измеряет творческий потенциал человека (вообще-то чрезвычайно значимое качество с точки зрения абстрактного гуманизма), но на конкретном производстве этот потенциал не задействован и не влияет никак на производительность труда, а банальная концентрация внимания вкупе с ответственным отношением к делу – вот что определяет качество и количество результатов труда.
Валидность – это мера соответствия результатов методики оценивания заявленной цели оценивания, которая лишь в частном случае сводится к тому свойству (или свойствам), которое оценивается (измеряется). Иными словами, это пригодность методики для достижения цели, которая в общем случае не сводится к измерению свойств (компетенций, или профессионально важных качеств), а состоит в прогнозировании эффективности деятельности обследованных кандидатов.
Причем в этом контексте под оцениванием мы имеем в виду и квалификационное тестирование, и психодиагностическое тестирование, и применение качественных методов психодиагностики, и применение внешних и включенных экспертных оценок – любые оценочные процедуры.
Цель практически-ориентированного оценивания персонала (тестирования, в частности, но в общем случае любой оценочной процедуры), как правило, состоит в прогнозе определенного социально значимого поведения, которое называется критериальным поведением", а измеряемое свойство считается причиной критериального поведения. На производстве критериальное поведение – это высококачественная, эффективная производственная деятельность работника. Если оценивание не выявляет то профессионально важное качество (компетенцию), которое является причиной критериального поведения (в частности эффективной профессиональной деятельности), то в этом случае говорят, что оценочно-отборочная процедура НЕ обладает валидностью, НЕ способна прогнозировать критериальное поведение.
Основной методический прием для измерения надежности – это повторное проведение тестирования (оценивания) на том же самом контингенте испытуемых с последующим расчетом корреляции результатов между первым и вторым тестированием (тест-ретест устойчивость). Основной статистический прием для измерения валидности, как известно, заключается в расчете коэффициента корреляции (статистической связи) между результатами оценочной процедуры и показателем производительности труда. Автор не будет приводить в этой статье всем известные (и доступные) формулы, в частности формулу линейной корреляции Пирсона (этот коэффициент включен в состав статистических функций сверхпопулярной программы обработки офисных данных – MS Excel). Более важной представляется другая задача – помочь читателю понять логическую структуру данных, связанных с проверкой валидности и предсказанием эффективности деятельности.
В табл. 11.2 даются приближенные интервальные значения возможных показателей эмпирической валидности для разных оценочных процедур, применяемых для отбора персонала (в этой таблице автор попытался объединить собственный опыт с данными, взятыми из различных литературных источников).
Для валидизации оценочных процедур лучше, если есть такая возможность, построить комплексный критериальный показатель, в котором используется сразу несколько различных показателей KPI (key performance indicators), или по-русски КПЭ (ключевых показателей эффективности).
В табл. 11.2 особого комментария заслуживает категория "квалификационные тесты". В настоящее время это не просто тесты профессиональных знаний с выбором ответа, похожие на образовательные тесты. Под квалификационными тестами мы понимаем такие, которые включают задания, моделирующие профессиональные задачи (кейсы). В зарубежной литературе эти тесты называются "тестами ситуационных суждений" (SJT), а иногда "ситуационно-ролевым тестами": дается краткое описание какой-то профессиональной проблемной ситуации и варианты возможного поведения (возможных решений). Самый известный пример ситуационных тестовых заданий – это решение "дорожных ситуаций" в тестах на знание правил дорожного движения.
Таблица 11.2
Сравнительные интервальные оценки эмпирической валидности для различных оценочных процедур
Оценочная процедура |
Примерный интервал эмпирической валидности (коэффициента корреляции) |
Интервью (оценки интервьюера без специальной подготовки в области ассессмента) |
0.1–0,2 |
Тест-опросники личностные (характерологические, мотивационные) |
0,2-0,4 |
Проективные методики |
0,3-0,5 |
Тесты способностей и интеллекта |
0,4-0,6 |
Оценки включенных наблюдателей ("360 градусов") |
0,3-0,6 |
Анализ документов по кандидату (данных резюме, квалификационных свидетельств, рекомендаций и т.п.) |
0,3-0,7 |
Тесты квалификационные |
0,5-0,7 |
Ассессмент (деловые игры, экспертные оценки имитационных упражнений) |
0,4-0,7 |
Производственные (количественные) данные эффективности (отдельные KPI) |
0,6-0,9 |
Завершая краткое введение психометрических понятий "надежность" и "валидность", подчеркнем, что в практике профотбора очень часто эти понятия и соответствующие процедуры и показатели до сих пор банально просто путают. Проводят тест-ретест процедуру для какой-то методики типа "тест-опросник" и получают коэффициент корреляции порядка 0,7 (вполне обычный для тест-опросников), но интерпретируют этот показатель как показатель валидности, в то время как показатель валидности (корреляция результатов тест-опросника с внешним критерием эффективности деятельности) остается вообще не измеренным, а он, если бы его измерили, не превышает 0,25. Кроме того, малоизвестным остается и такой "психометрический нюанс": рост надежности методики не всегда приводит к росту валидности, напротив, при очень высоких показателях надежности валидность вообще парадоксальным образом снижается. Вот какой-то наивный пользователь (или малоквалифицированный разработчик) хвастается, что получил для своего квалификационного теста надежность на уровне 0,97. Но... опять-таки при этом не производится измерение валидности. А валидность при таком значении надежности, увы, редко превышает 0,4. Почему? Все дело в том, что высокая надежность достигается, как правило, за счет так называемого сужения области валидности – за счет предъявления однотипных, слишком однородных (похожих друг на друга) тестовых заданий, которые не отражают всего разнообразия производственных ситуаций в реальной деятельности работника.