Надежность психологических методик
Надежность это характеристика психодиагностической методики, отражающая точность психодиагностических измерений, а также устойчивость или стабильность результатов, полученных при помощи данной методики, к действию посторонних случайных факторов. Надежность и валидность являются важнейшими характеристиками методики как инструмента психологического исследования, хотя некоторые психологи утверждают, что надежность – это способность методики не быть чувствительной к изменениям объекта.
Наибольшая стабильность результатов наблюдается при применении графических, графологических тестов и характерологических методик, показатели которых меняются крайне медленно. Медленно изменяется почерк, практически неизменны качество линий рисунков и их композиция. Характерологический профиль тоже долгое время остается неизменным. Наибольшая динамичность показателей наблюдается у интеллектуальных тестов, которые напрямую зависят от способности человека накапливать и перерабатывать информацию.
На устойчивость (стабильность) показателей теста могут влиять следующие факторы:
– состояние и настроение обследуемых;
– мотивация испытуемых на тестирование;
– эргономические факторы (освещенность, температура в помещении, вибрация, шумы и пр.);
– характеристика деятельности (монотонность – динамичность, помехи);
– степень обучаемости (или натренированности) испытуемых и др.
Надежность результатов тестирования зависит также от изменчивости инструмента психологического измерения и от факторов стабильности самой процедуры измерения. Надежность, таким образом, есть степень согласованности результатов тестирования, получаемых при первом и последующих измерениях.
На практике наиболее широко применяются шесть типов надежности: 1) надежность ретестовая (тест-ретест надежность); 2) надежность параллельных форм; 3) надежность частей теста (надежность как гомогенность тестов); 4) надежность по Кудеру – Ричардсону; 5) надежность интерпретатора ("оценщика"); 6) стандартная ошибка измерений[1].
Коэффициент надежности в первых двух случаях вычисляется по формулам расчетов коэффициентов корреляции между первым и последующим измерениями или между параллельными формами теста.
Расчет коэффициента надежности при исследовании гомогенности методики осуществляется путем разбиения ее на равные субтесты и расчета корреляции между этими частями. Для определения надежности полученные коэффициенты корреляции вводятся в формулу Спирмена – Брауна:
где R – корреляция "половин" теста.
Если части методики являются отдельными дихотомическими заданиями, например пунктами опросника, на которые можно дать два ответа (да или нет), или заданиями с оценкой результата – как правильного, так и неправильного, используется формула
где К – количество равных частей теста;– доля 1-го варианта ответа на i-й вопрос; – доля 2-го варианта на i-й вопрос.
Надежность частей теста может также рассчитываться но формуле Кудера – Ричардсона:
где К – количество равных частей теста; – дисперсия 2-й части теста; – дисперсия целого теста.
При работе с клиническими опросниками, тестами креативности и проективными технологиями надежность методик определяется путем сравнения интерпретаций результатов двумя или более экспертами-психологами. Большие коэффициенты корреляции между ними показывают надежность тестовой оценки.
Коэффициенты надежности психологических измерений представляют собой величину дисперсии показателей, которая вычисляется путем возведения коэффициента корреляции в квадрат. Интерпретируется он следующим образом.
Например, коэффициент корреляции между параллельными формами теста равен 0,75. Рассчитывается коэффициент надежности: 0,752 = 0,56. Это означает, что 56% дисперсии исследуемых тестовых данных зависят от истинной дисперсии признаков (данных параллельного теста), а 44% – от ошибок или случайных переменных.
Разберем гипотетический пример определения надежности двух форм теста[2] в ходе исследования креативности 100 школьников. В результате коэффициент надежности взаимозаменяемых форм с интервалом ретестирования в две недели составил 0,7. Была вычислена надежность – гомогенность тестов при помощи формулы Спирмена – Брауна – 0,8. Надежность интерпретации ("оценщика") с привлечением второго специалиста-психолога была равна 0,92.
Анализ источников дисперсии ошибок показан в табл. 2.2.
Таблица 2.2
Анализ источников дисперсии ошибок в исследуемом тесте
1 |
По надежности взаимозаменяемых форм (с временны́м интервалом – две недели) |
1 - 0,7 = 0,3 (ошибка ретеста + ошибка гомогенности) |
2 |
По надежности эквивалентных половин теста (формула Спирмена – Брауна) |
1 - 0,8 = 0,2 (ошибка гомогенности) |
3 |
Разность |
0,3 - 0,2 = 0,1 (ошибка ретеста) |
4 |
По надежности интерпретации ("оценщика") |
1 - 0,92 = 0,08 (различия между интерпретациями) |
5 |
Суммарная оценка дисперсии ошибок 0,2 + 0,1 + 0,08 = 0,38 |
|
6 |
Истинная дисперсия 1 - 0,38 = 0,62 |
Результаты исследования надежности теста креативности можно представить схематично в процентном распределении дисперсии показателей теста в табл. 2.3.
Таблица 2.3
Результаты исследования надежности
Истинная дисперсия: 62% |
Дисперсия ошибок: 38% |
||
Временная устойчивость; согласованность форм; независимость от различий между интерпретациями ("оценщиками") |
Ошибка гомогенности: 20% |
Ошибка ретеста: 10% |
Различия между интерпретациями: 8% |
Надежность теста можно выразить посредством расчета стандартной ошибки измерений (SEM) (стандартная ошибка показателя)[3]. Она рассчитывается по формуле
где – стандартное отклонение показателей теста; значение коэффициента надежности.
Физический смысл SEM заключается в определении дисперсии показателей конкретного теста вокруг истинного показателя, которая характеризуется плотностью нормального распределения данных. Если, например, 68% всех случаев нормального распределения психологических данных попадает в интервал , то примерно два шанса против одного (68 : 32),что ошибка измерений будет колебаться в пределах . При увеличении плотности распределения данных, например , увеличивается и вероятность предсказания (99,7 : 0,3) при соответствующем росте интервала ошибки в обе стороны.
Пример: рассчитаем стандартную ошибку измерений при помощи тестов С FIT и "Прогрессивные матрицы" Дж. Равена. Интеркорреляция между показателями тестов составляет 0,81. Стандартное отклонение – 15. Результирующий показатель исследуемой методики CFIT равен, допустим, 110 IQ-баллов.
Это означает, что при определении истинного IQ и соотношении шансов удачного предсказания истины 2 : 1 (или 68 : 32) ошибка будет колебаться в интервале
IQ-баллов и истинный показатель теста находится в пределах от 103,5 до 116,5.
При увеличении вероятности прогноза до соотношения 99,7: 0,3 (3 ± δx) ошибка возрастает до ±19,5, а истинный показатель займет место между 90,5 и 129,5.
Таким образом, надежность, валидность и прогностичность эмпирических данных дают возможность измерять психологические переменные на соответствующем уровне достоверности, который диктуется практикой социальных исследований.