Разработка тестов

Сегодня есть множество разных типов тестов отбора, самые распространенные из них: тесты на познавательные способности, вопросники личностных характеристик и пробные задания. И хотя их нетрудно приобрести у компаний, специализирующихся на разработке тестов, иногда необходимо разработать тест собственными силами. Разработка любого теста тесно связана с систематической подготовкой и следует определенной логической очередности. Основные положения процедуры разработки теста изложены ниже, но они не являются исчерпывающими, так как разработка теста может включать весьма сложные и запутанные процедуры. Тем не менее эти основные положения все-таки освещают суть процесса, и поэтому те, кто выбирает между покупкой коммерческих тестов или разработкой тестов своими силами, сможет оценить составляющие процедуры, и таким образом получить более полную информацию. Интересующийся читатель может обратиться к работе Кронбаха и Глиссера (Cronbach and Glesser, 1965), чтобы ознакомиться с более полным описанием этой процедуры.

Вопросы для любого теста должны быть выбраны и сформулированы очень тщательно. Однако хорошее привило эмпирического метода гласит: они должны быть настолько простыми и ясными, насколько это возможно. Используемая терминология должна быть подобрана в расчете на конкретную целевую аудиторию. Также нужно исключить излишние статьи или статьи, включающие два или более вопроса, так как они иногда сбивают с толку респондента и затрудняют интерпретацию. Чтобы удовлетворить всем этим требованиям, следует просмотреть весь банк вопросов — статью за статьей — и проанализировать, какой цели служит каждая из них. Например, если тест разрабатывается для измерения аналитических способностей стажеров-бухгалтеров, стоит подумать, что в этом случае означает понятие «аналитические способности». Скорее всего, большая часть работы стажера будет заключаться в извлечении информации из таблиц, графиков или секторных диаграмм. Следовательно, чтобы обеспечивать содержательную достоверность, тест должен быть разработан таким образом чтобы он измерял способность кандидата извлекать значения из таблиц и графиков, даже когда определенная информация приблизительна или упущена вовсе. Однако надо позаботиться и о том, чтобы каждая статья теста отражала только те конструкции, которые измеряются. Также следует приложить усилия, чтобы отчетливо представлять, как будет подсчитываться результат по каждому вопросу, поскольку от этого зависит, какой тип формата подсчета следует избрать.

Существует несколько типов форматов подсчета, и их выбор настолько же важен, насколько важен выбор самих статей вопросов, так как именно формат подсчета лежит в основе решения о приеме или отклонении кандидата. Их диапазон простирается от простых ответов типа «да/нет» до ранжирования по некоторому типу биполярной шкалы; и у каждого способа есть свои преимущества и недостатки. Ответы «да/нет» проще, чем многовариантные; но они обладают меньшими возможностями установления различий, хотя увеличение объема теста может компенсировать этот недостаток. Многовариантные статьи позволяют хорошо различать способности кандидатов и часто используются в тестах на познавательные способности, например тестах на проверку знаний или тестах, выявляющих собственно способности. Кроме того, многовариантные статьи дают возможность более точно подсчитать результаты, поскольку ответы могут быть только верными или неверными. Главный недостаток многовариантных статей заключается в том, что создать правдоподобные отвлекающие статьи (то есть неправильные ответы) довольно трудно. Если правильный ответ слишком очевиден, различительная способность теста резко снижается. Биполярные шкалы широко используются и выключают утверждения или характеристики, оцениваемые кандидатом с точки зрения их верности или неверности.

Когда вопросы и форматы подсчета результатов выбраны, их нужно преобразовать в удобный для пользователя Формат, с ясно написанными инструкциями и вопросами-примерами; так, чтобы выполняющие тест кандидаты полностью понимали, что от них требуется. Очень часто на этом этапе разработки в тест включают больше вопросов, чем нужно. По некоторым оценкам, в три раза больше, чем останется в окончательном тесте или системе измерения. Тогда исходной мерой станет проверка разрабатываемого теста на относительно широкой выборке из числа существующих работников, чтобы убедиться в том, что все вопросы легко понятны.

Установление отличительной ценности статей вопросов достигается путем корреляции показателя каждой отдельной статьи с показателями всего теста или субшкалы. Статьи с высокой корреляцией обычно сохраняются, а статьи с низкой корреляцией отбраковываются (см. Гилфорд и Фрухтер (Guilford and Fruchter), 1978 для получения более детального обзора анализа статей). Когда определена приемлемость статей, составляется окончательная версия теста. Тесты на определение знаний обычно начинаются с простых вопросов, постепенно усложняющихся к концу. Когда тесты предназначаются для измерения социальных установок и личностных характеристик, возможно, будет полезным чередовать негативно и позитивно сформулированные статьи, чтобы избежать непродуманных ответов.

Последний этап представляет собой применение теста на широкой репрезентативной выборке, чтобы установить нормы выполнения, достоверности и валидности еще до начала его использования в качестве инструмента отбора. Кроме того, необходимо определить справедливость теста, чтобы убедиться, что он не дискриминирует никакие подгруппы населения (например по тендерным или этническим отличиям).