Последовательность действий при проверке надежности
В.В. Столин [15], предлагает следующий алгоритм действий для проверки надежности теста:
1.Узнать, существуют ли данные о надежности теста, предполагаемого к использованию, на какой популяции и в какой диагностической ситуации проводилась проверка.
Если проверки не было или признаки новой популяции и ситуации явно специфичны, провести заново проверку надежности с учетом указанных ниже возможностей.
2. Если возможности обследования испытуемых, смысл теста и возможности обработки (наличие ЭВМ) позволяют, то произвести второе тестирование на всей выборке стандартизации и подсчитать все коэффициенты, приведенные в настоящем параграфе, как для целого теста, так и для отдельных пунктов. Анализ полученных коэффициентов позволит понять:
- насколько пренебрежима ошибка измерения;
- дает ли данный тест интервальную шкалу или только диагностичен для крайних групп, насколько устойчиво измеряемое свойство во времени (возможен ли статистический прогноз);
- в каких своих частях (пунктах) тест менее надежен (анализ этих пунктов позволяет психологически осмыслить содержательный механизм взаимодействия пунктов с испытуемыми).
3. Если возможности ограничены, произвести повторное тестирование только на части выборки (не менее 30 испытуемых), подсчитать (вручную) ранговую или четырехклеточную корреляцию для оценки внутренней согласованности (методом расщепления) и стабильности целого теста.
Контрольные вопросы для самопроверки: §6. Надежность теста. Теория надежности.
1. Что понимается под надежностью теста?
2. Какие виды надежности существуют в психометрике? Дайте им краткую содержательную характеристику.
3. Как проверяется надежность отдельных пунктов теста?
4. На чем основана теория надежности?
5. Что понимается под согласованностью пунктов теста? Относится ли это понятие в равной степени и к надежности, и к валидности?
6. Какие действия последовательно должен произвести психолог при проверке надежности?
Литература к теме.
1. Анастази А. Психологическое тестирование. В 2-х кн. М., 1982.
2. Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психодиагностике. - СПб.: Изд-во "Питер", 1999. - 528 с.
3. Корниенко А.Ф. Теория и практика психологического исследования. Учебное пособие. Казанский пед. университет, Казань, 2000. -258 с.
4. Общая психодиагностика / Под ред. А. А. Бодалева, В. В. Столина.- М., 1987.
5. Основы психодиагностики / Под ред. А. Г. Шмелева. Ростов-на-Дону., 1996.
Дискриминативность теста.
В параграфе 2 темы 1, посвященной содержанию и предмету психодиагностики, было отмечено, что к психологическим измерениям предъявляются определенные научные требования. С точки зрения психометрики имеются пять характеристик, которым должны удовлетворять все методики и тесты для психологических измерений, к ним относятся: надежность, дискриминативность, валидность, достоверность и репрезентативность.
Прежде чем переходить к обсуждению методов достижения валидности, рассмотрим способы установления дискриминативности. Поддискриминативностью теста будем понимать способность теста дифференцировать испытуемых в диапазоне от "максимального" до "минимального" результата набранного по данному теста.
Как отмечает П. Клайн [8], потенциально тест может быть гораздо более дискриминативным, чем другие средства измерения, например, интервью или рейтинги.
Показатели дискриминативности связаны по существу с ранжированием испытуемых. Основной показатель коэффициента дискриминативности, "õ" Фергюсона, который рекомендуется для оценивания дискриминативности тестов, достаточно прост в вычислении. Если не касаться процедуры вывода формулы, то ее можно представить в следующем виде:
;
где N - количество испытуемых, п - количество заданий,
fi - частота встречаемости каждого показателя.
Коэффициент Фергюсона õ =0, когда все испытуемые получили одинаковые показатели, (то есть, когда нет дискриминативности), и равно 1 при равномерном (прямоугольном) распределении.
Вычислить õ Фергюсона можно следующим образом.
1. Подсчитать, как часто встречаются значения показателей для данного теста.
2. Возвести эти числа в квадрат и просуммировать: ;
3. Прибавьте 1 к количеству заданий: п + 1 .
4. Возвести в квадрат количество испытуемых: .
5. Перемножить количество заданий на результат шага (4): n .
6. Подставить все найденные элементы в формулу.
Разработчик тестов должен учитывать некоторые характеристики õ коэффициента. Поскольку для равномерного (прямоугольного) распределения (наиболее дискриминативного) необходимы задания, в которых бы наиболее полно были реализованы все возможные проявления измеряемого свойства, это означает, что дискриминативность до некоторой степени противостоит надежности, так как использование заданий с широким перечнем возможных проявлений измеряемого свойства уменьшает взаимную корреляцию между заданиями (см. параграф 6).
Конечно, распределение показателей, которое дает тест – это, прежде всего, функция трудности заданий, а это влияет не только на надежность, но также и на дискриминативность. Это означает, что при конструировании теста следует исходить из предназначения теста, поскольку именно этот факт определяет то, на что ориентироваться разработчику - на достижение максимальной надежности или максимальной дискриминативности.
Поскольку дискриминативность целого теста зависит от дискриминативности входящих в него заданий, рассмотрим проблему определения дискриминативности отдельных заданий теста.
Аналогично с определением дискриминативности целого теста под дискриминативностью отдельных пунктов будем понимать способность отдельных пунктов (заданий) теста дифференцировать обследуемых относительно "максимального" или "минимального" результата теста [3].
Любой ответ испытуемого на конкретное задание можно оценить по двухбалльной шкале – "верно" (1 балл), "неверно" (0 баллов). Сумма баллов по всем пунктам представляет собой первичную ("сырую") оценку. Мера соответствия успешности выполнения одной задачи (одного пункта) всему тесту является показателем дискриминативности задания теста для данной выборки испытуемых и называется коэффициентом дискриминации (индексом дискриминации).
где x - среднее арифметическое всех индивидуальных оценок по тесту;
xп - среднее арифметическое оценок по тесту у испытуемых, правильно выполнивших задание (в случае опросника личностности - соответствие с "ключом");
σ -среднеквадратическое отклонение индивидуальных оценок по тесту для выборки;
Nn- число испытуемых, правильно решивших задачу (или тех, чей ответ на данный пункт опросника соответствует "ключу");
N - общее число испытуемых.
Коэффициент дискриминации может принимать значения от -1 до +1. Высокий положительный r свидетельствует об эффективности деления испытуемых. Высокое отрицательное значение r свидетельствует о непригодности данного пункта для теста, о его несоответствии суммарному результату.
Индекс дискриминативности задания теста может быть вычислен с помощью метода контрастных групп. Необходимым условием применения метода в этом случае является наличие близкого к нормальному распределению оценок по критерию валидизации. При этом, доля членов контрастных групп может изменяться в широких пределах в зависимости от величины выборки. Чем больше выборка, тем меньшей долей испытуемых можно ограничиться при выделении групп с высоким и низким результатами. Чаще из выборки "извлекают" по 27% или 33% испытуемых.
Индекс дискриминации вычисляется с использованием формулы четырехпольного коэффициента корреляции:
где:
fg - число лиц, правильно решивших задачу, по отношению к общему числу обследованных в группе с максимальным результатом;
fd - число лиц, правильно решивших задание в группе с минимальным результатом;
р - общая пропорция правильно выполненных заданий ;
q — число лиц, давших неверное решение (1 - р).
Критические значения этого коэффициента, свидетельствующие о диагностической ценности (на уровне р < 0,05), в зависимости от числа обследованных (п) приведены ниже:
n 25 50 100 200
r 0,39 0,28 0,20 0,14
Максимальная точность определения r достигается тогда, когда максимальная и минимальная группы составляют по 27% выборки.
При анализе дискриминативности задания теста особое внимание следует уделить определению статистической значимости коэффициентов корреляции. В тех случаях, когда значение коэффициента дискриминации приближается к нулю и уровень значимостиневысок, проверяемый пункт теста должен быть пересмотрен в связи с некорректностью формулировки задания или вариантов ответа на него [3].
Валидность тестов.
Как отмечает А. Анастази [1], валидность теста это понятие, которое указывает на то, что измеряет тест и насколько хорошоон это делает. Однако проблемы валидизации психологических тестов хотя и являются центральными для психометрики, но, до сих пор решенными не до конца. Решение этой проблемы зависит не от статистического аппарата, а от уровня развития теоретического аппарата дифференциальной психологии. Валидность является комплексной характеристикой, которая включает в себя не только сведения о том, для чего она создана, но и какова ее действенность, эффективность [15, 18].
Валидность и надежность. Валидность (или обоснованность) всякой процедуры измерения состоит в однозначности (устойчивости) получаемых результатов относительно измеряемых свойств объектов, т. е. относительно предмета измерения. Отличие понятия валидности от надежности измерения удобно раскрывать с помощью различения "объекта" и "предмета" измерения.
Надежность - это устойчивость процедуры относительно объектов (испытуемых). Надежность не обязательно предполагает валидность. В психологии довольно часто возникает такая ситуация, когда исследователь вначале предлагает определенную процедуру измерения, показывает ее надежность - способность устойчиво различать объекты, но вопрос о валидности остается открытым.
Устойчивость теста относительно объектов (испытуемых) является необходимым, но не достаточным условием его устойчивости относительно измеряемых атрибутов (свойств) объектов. Надежность является необходимым, но не достаточным условием валидности. Отсюда понятно основное соотношение психометрики: