Валидность. В равной степени очень важным является понятие валидности, представляющей собой точность измерения
В равной степени очень важным является понятие валидности, представляющей собой точность измерения. Чтобы быть точной, любая измерительная система должна измерять именно то, для чего она предназначена. Если измерительная система обладает высокой степенью достоверности, но не обеспечивает получения точных результатов, ее валидность считается низкой, и, несмотря на высокую достоверность, у нее плохое качество измерений. Валидность теста — исключительно важный оценочный критерий. Прежде чем применять на практике определенный тест, тот, кто занимается отбором, должен удостовериться в валидности этого теста, — проведя точные измерения его неотъемлемого признака (или признаков). Это очень ответственный момент, так как прогноз будущего поведения кандидата на работе базируется на результатах таких тестов. Например рассмотрим использование в процессе отбора полиграфа (детектора лжи) для проверки честности кандидатов. В 1986 году был проведен эксперимент: исследователи подвергли тестам на детекторе лжи 1000 человек. 500 из них должны были говорить правду, а 500 — лгать. Полиграф показал, что 185 человек из группы говорящих правду лгали, а 120 человек из группы «лжецов» говорили правду. Эти результаты показывают, что валидность полиграфа как средства измерения честности не является безупречной. Детектор лжи может быть абсолютно достоверным и показывать одинаковые результаты каждый раз при выполнении теста одним и тем же человеком. Но он не является валидным, потому что дает неправильные результаты и не измеряет честность с безукоризненной точностью.
Строго говоря, признание правильности — валидность — относится скорее к интерпретации показателей, полученных в результате какого-либо теста или метода отбора, чем к интерпретации самих тестов или процедур отбора. Это центральная проблема, поскольку тест может быть валидным при измерении чего-либо одного и не быть валидным при измерении другого. Например разработчики отборочных тестов для программистов-стажеров обычно стараются оценить математические способности тестируемых, чтобы предсказать, как они будут справляться со своей будущей работой. Однако поскольку современное программирование требует прежде всего более высоких уровней способностей к словесно-логическому мышлению, а уже потом математических способностей (Пенней и Лаза-рини (Penney and Lazzarini), 1979), такие тесты несостоятельны для отбора компьютерных программистов. Тем не менее они могут быть валидными при оценке кандидатов, претендующих на вакансии, для которых математические способности важны. Следовательно, валидность осуществима только в тесной связи с целями, ради которых применялся тест.
Самыми известными дефинициями валидности являются: содержательная достоверность, конструктивная достоверность и достоверность, связанная с критерием. Каждая из них — сама по себе оценочный критерий. Нужно признать, что тест или метод отбора должен обладать всеми тремя типами валидности. Содержательную достоверность часто разделяют на два отдельных аспекта: внешнюю достоверность и собственно содержательную достоверность. Внешняя достоверность — это восприятие самих кандидатов, насколько правильно проводятся измерения при тестировании. Сама по себе внешняя достоверность в действительности вообще не является типом валидности. Некоторые исследователи утверждают, что внешняя валидность неважна (см. Мозьер (Mosier), 1947, полное освещение дискуссии), но на самом деле она имеет очень большое практическое значение, поскольку часто становится причиной, по которой или компания или кандидаты отбраковывают тест. Предполагается, что, несмотря на низкую валидность специальных интервью, они широко применяются именно из-за внешней достоверности. Содержательная достоверность как таковая решает проблему отбора образцов, имеющих отношение к процессу измерения. Содержание любого измерения может быть визуализировано в виде выборки вопросов, заданий или типов поведения, отражающих измеряемую структуру. Обеспечение содержательной достоверности — двухфазовый процесс. Первая фаза фокусируется на вопросе, отражает ли метод отбора все известные характеристики рассматриваемой работы (например навык межличностных отношений, экстраверсия). Обычно этого достигают, сравнивая измеряющий инструмент и квалификационные требования и требования к персоналу, разработанные на основе анализа содержания работы. Вторая фаза оценивает, насколько точно все задачи измеряющего инструмента отражают отличительные черты того, что измеряется. Например, если тест предназначен для измерения общих математических способностей, но не включает заданий по сложению или вычитанию, его содержательная Достоверность будет низкой. Но если этот же тест разрабатывался только для измерения способностей кандидата к умножению и делению, достоверность его содержания может быть высокой.
Потенциально конструктивная достоверность является самым полезным типом валидности, но в то же время она, как правило, — самый неопределенный и сложный из всех типов валидности. Кронбах и Мил (Cronbach and Meehl) (1955) определяют конструкцию — или обобщенный мысленный образ — как «некий постулированный атрибут человека, предположительно отражаемый в выполнении теста». Как таковой, этот тип валидности пытается ответить на вопрос: «В чем состоит психологический смысл этих показателей, и как эти показатели соотносятся с другими измерениями?» Следовательно, конструктивная достоверность имеет дело со степенью соответствия предполагаемого образа и реальности. Возьмем, к примеру Job Choice Exercise, разработанный Майклом Сталом (Michael Stahl) в 1983 году и примененный компанией Greatplay Inc. для выявления признаков управленческой мотивации. Управленческая мотивация не является некоей физической сущностью, это просто ярлык, применяемый для описания интенсивности и направленности поведения, состоящий из двух образов: Потребности Власти (NPow) — описательного названия, отражающего потребность влиять на других, и Потребности Успеха (NAch) — описательного названия, отражающего потребность ставить цели и достигать их. Чтобы определить конструктивную достоверность, Стал проверил гипотезу, что человек, обладающий высокой управленческой мотивацией, получит высокие показатели на шкалах NPow и NAch, и наоборот, показатели человека с низкой управленческой мотивацией будут низкими. Он измерил показатели 1417 респондентов разных профессий — и «синих воротничков», и управленческого персонала, — работающих в различных областях. Он обнаружил, что те, кто получили высокие показатели на шкалах NPow и NAch, имели более высокий темп продвижения по службе, чем те, чьи показатели были низкими. Обладатели высоких показателей в большей степени оказывались лидерами, чем обладатели низких показателей; среди первых оказалось больше менеджеров, чем среди вторых. На основании этих результатов мы можем сделать вывод, что образ управленческого поведения обладает значительной степенью доверия. Следовательно, Стал в сущности испытывал конструктивную достоверность идеи, скрывающейся за тестом, а не сам тест. Однако, как и в этом случае, часто довольно трудно разделить свидетельства валидности, обеспечиваемые этим подходом, от свидетельств достоверности, связанной с критерием. Более рельефный метод установления конструктивной достоверности вновь разработанного теста заключается в корреляции показателей нового теста с показателями заслуживающего доверия теста, точно отражающего данный образ. Например конструктивная достоверность теста на экстраверсию может быть установлена путем корреляции нового измерения экстраверсии с признанным тестом на экстраверсию. Конструктивная достоверность измерения также может быть определена статистическими методами, такими как исследовательский и подтверждающий факторный анализ, с помощью компьютерных программ. Но эти методики выходят за рамки исследования нашей книги; интересующийся этими вопросами читатель может обратиться к работам Джорескога и Сорбома (Joreskog and Sorbom) (1988), Бентлера (Bentler) (1989) или Фергюсона и Кокса (Ferguson and Cox) (1993).
Осведомленность о конструктивной достоверности теста может также помочь в оценке применимой достоверности, связанной с критерием. Как было продемонстрировано на примере компании Greatplay Inc., достоверность, связанная с критерием, касается отношений между применяемым тестом и выполнением работы по какому-то критерию (например выполнением производственных заданий). Прогнозирующая достоверность показывает, насколько сильно определенный тест связан с последующим выполнением работы. Но определение прогнозирующей достоверности нового теста может включать определенную долю риска и стоить довольно дорого. Предположим, компания Greatplay Inc. разработала новый тест определения управленческой Мотивации и наняла работников, основываясь на результатах теста; а некоторое время спустя представители компании решили оценить, как выполнил работу каждый из приятых работников, и соотнести полученные показатели с первоначальными результатами. Предположим, они получили низкую корреляцию. Так как соответствие между первоначальным тестом и показателями выполнения работы служат признаком прогнозирующей достоверности теста, Greatplay Inc. обнаружит, что наняла много неподходящих кандидатов. В этом и заключается риск, на который многие компании не хотят идти из-за высоких издержек. Практический способ преодоления этой проблемы заключается в том, чтобы предложить всем кандидатам новый тест, но при этом выбрать кандидатов на основании других, укоренившихся методов. Через некоторое время нужно сравнить показатели выполнения работы успешными кандидатами с их же показателями, полученными при выполнении нового теста. Если корреляция окажется высокой, показав, что новый тест обладает высокой прогнозирующей достоверностью, этот тест можно использовать в последующих процедурах отбора. Естественно, итоговый коэффициент валидности повлияет не только на точность нового теста, но и на средства измерения выполнения работы. Это очень важно, поскольку часто большие усилия направлены на то, чтобы сделать новый тест точным, а средства измерения выполнения работы почти совершенно игнорируются.
Еще одна процедура оценки достоверности, связанной с критерием, — установление согласующейся достоверности. Это способ предусматривает применение методов отбора к существующим работникам и измерение их текущего выполнения работы. Затем эти два показателя сверяются друг с другом. Преимущества этого метода заключаются в быстроте установления валидности измерения и в меньших затратах. Однако у этого метода есть свои недостатки: во-первых, реальные работники обладают более низкой мотивацией, чем потенциальные, и поэтому могут отвечать некорректно, что может привести к неверной оценке коэффициента валидности; во-вторых, реальные работники, скорее всего, хорошо выполняют свою работу, иначе они перешли бы на другую или покинули бы компанию. Это означает, что, возможно, диапазон полученных показателей теста будет ограничен, что почти всегда имеет результатом более низкий коэффициент валидности, чем он есть на самом деле. Эта проблема может быть решена при помощи математических формул (см. Смит и Робертсон, 1993а). Особый тип согласующейся достоверности, способный преодолеть эти затруднения, — методика номинированных групп, базирующаяся на использовании двух групп людей с различающимися характеристиками, подлежащими измерению. Например это группа добросовестных работников со стажем, обладающих хорошими показателями выходов на работу, и группа молодых работников. Разработанный тест на добросовестность можно испытать на этих группах. Измерение будет эффективным, если результаты покажут четкое различие показателей этих групп, с более высокими показателями в группе старших работников. Если между показателями обеих групп вообще не будет никакой разницы, измерение нельзя признать достоверными.