Примеры постоянных и непредсказуемых ошибок тестирования в классе

Источники ошибок Постоянные Непредсказуемые
Материалы теста	Типографские опечатки	Неодинаковые копии; некоторые копии напечатаны более четко, чем другие

Человек	Боязнь тестирования	Временная потеря памяти; появляются «пробелы» в памяти
Ситуация	Переполненная людьми комната	Время от времени из-за окна доносится шум газонокосилки

При рассмотрении точности результатов измерений, полученных с помощью измерительного инструмента, важно также учитывать, как пользовались этим инструментом. Лежит ли измерительный инструмент на горизонтальной поверхности? Является ли прямой линия зрения наблюдателя? Надо ли учитывать влияние толщины измерительного инструмента на результат? Конечно, всякому, кому приходилось заниматься плотницкой работой, уже ясно, как ответить на все эти вопросы. Всем известно правило «Семь раз отмерь, один раз отрежь». Из этого совета, подсказанного здравым смыслом, непосредственно следует первый из критериев, с помощью которых оценивается адекватность любого измерительного инструмента или метода, — надежность.

Надежность

Наиболее широко употребляемое определение надежности основывается на выявлении связи между дисперсией серии измерений, полученных в результате наблюдений, и дисперсией безошибочных измерений (Nunnally, 1978). К сожалению, безошибочные измерения — это теоретическая концепция; на практике они неизвестны, поэтому техническое определение надежности довольно трудно для понимания большинства людей.

Дисперсия.

Заал и Найт (Saal & Knight, 1988) предлагают другую полезную формулировку технического определения надежности: «надежные измерения относительно свободны от случайных ошибок или погрешностей, то есть ошибок, в появлении которых не удается выявить какой-либо паттерн» (стр. 139). Как можно узнать, что измерение относительно свободно от этих ошибок? Последуйте совету плотника и измерьте хотя бы дважды, а отрежьте один раз. Если результаты ваших измерений совпадут, то можете уверенно резать. Если исправный карманный калькулятор при повторном троекратном сложении колонки показывает ту же сумму, то полученный ответ, вероятно, является правильным.

Как показывают примеры, в практическом смысле под надежностью понимают постоянство или устойчивость результатов измерений. Если определенный измерительный инструмент надежен, то при повторных измерениях, проводимых тем же и/или другим человеком, результат не изменится. И наоборот, ненадежные измерительные инструменты дают различные результаты измерений, зависящие от обстоятельств.

Надежность — это общее требование, предъявляемое к измерениям любого типа при любых условиях. В организациях многие измерения проводятся в форме тестов, таких как отборочные тесты при приеме на работу, тесты способностей с целью определения потребностей в обучении и тесты компетентности для определения пригодности человека к повышению по службе. В результате индустриально-организационные психологи, занимающиеся практической работой, часто сталкиваются с вопросами надежности тестов.

Существует несколько способов оценки того, насколько надежные результаты измерений дает данный тест. В индустриально-организационной психологии чаще всего используются три метода. Все они являются коррелируемыми процедурами, но, тем не менее, часто дают различные результаты, потому что в каждом расчете присутствуют свои источники ошибок. Поэтому оценки надежности, как и сами результаты тестов, следует рассматривать только как оценки существующего положения дел. На практике исследователь предпочитает один метод оценки надежности теста другому, учитывая ряд факторов, в том числе и то, какой источник ошибок наиболее приемлем с точки зрения конкретной поставленной цели. Этот выбор в какой-то степени определяется также практическими соображениями, вытекающими из процедурных требований, о которых мы поговорим при рассмотрении каждого метода.

Корреляция.

Оценка надежности теста методом повторного тестирования (test-retest)

Одним из наиболее часто используемых операциональных определений надежности теста является процедура повторного тестирования (ретест). С помощью этой процедуры вычисляется коэффициент корреляции между двумя переменными — результатами измерений, полученными при двукратном тестировании одних и тех же людей с использованием одного и того же теста, но в разное время. Полученный в результате коэффициент обозначается буквой r, как и все прочие коэффициенты корреляции, но его называют коэффициентом устойчивости. Чем ближе его значение к 1,00, тем больше уверенность в надежности результатов теста.