Надежность психологических методик

Надежность это характеристика психодиагностической методики, отражающая точность психодиагностических измерений, а также устойчивость или стабильность результатов, полученных при помощи данной методики, к действию посторонних случайных факторов. Надежность и валидность являются важнейшими характеристиками методики как инструмента психологического исследования, хотя некоторые психологи утверждают, что надежность – это способность методики не быть чувствительной к изменениям объекта.

Наибольшая стабильность результатов наблюдается при применении графических, графологических тестов и характерологических методик, показатели которых меняются крайне медленно. Медленно изменяется почерк, практически неизменны качество линий рисунков и их композиция. Характерологический профиль тоже долгое время остается неизменным. Наибольшая динамичность показателей наблюдается у интеллектуальных тестов, которые напрямую зависят от способности человека накапливать и перерабатывать информацию.

На устойчивость (стабильность) показателей теста могут влиять следующие факторы:

– состояние и настроение обследуемых;

– мотивация испытуемых на тестирование;

– эргономические факторы (освещенность, температура в помещении, вибрация, шумы и пр.);

– характеристика деятельности (монотонность – динамичность, помехи);

– степень обучаемости (или натренированности) испытуемых и др.

Надежность результатов тестирования зависит также от изменчивости инструмента психологического измерения и от факторов стабильности самой процедуры измерения. Надежность, таким образом, есть степень согласованности результатов тестирования, получаемых при первом и последующих измерениях.

На практике наиболее широко применяются шесть типов надежности: 1) надежность ретестовая (тест-ретест надежность); 2) надежность параллельных форм; 3) надежность частей теста (надежность как гомогенность тестов); 4) надежность по Кудеру – Ричардсону; 5) надежность интерпретатора ("оценщика"); 6) стандартная ошибка измерений^[1].

Коэффициент надежности в первых двух случаях вычисляется по формулам расчетов коэффициентов корреляции между первым и последующим измерениями или между параллельными формами теста.

Расчет коэффициента надежности при исследовании гомогенности методики осуществляется путем разбиения ее на равные субтесты и расчета корреляции между этими частями. Для определения надежности полученные коэффициенты корреляции вводятся в формулу Спирмена – Брауна:

где R – корреляция "половин" теста.

Если части методики являются отдельными дихотомическими заданиями, например пунктами опросника, на которые можно дать два ответа (да или нет), или заданиями с оценкой результата – как правильного, так и неправильного, используется формула

где К – количество равных частей теста;– доля 1-го варианта ответа на i-й вопрос; – доля 2-го варианта на i-й вопрос.

Надежность частей теста может также рассчитываться но формуле Кудера – Ричардсона:

где К – количество равных частей теста; – дисперсия 2-й части теста; – дисперсия целого теста.

При работе с клиническими опросниками, тестами креативности и проективными технологиями надежность методик определяется путем сравнения интерпретаций результатов двумя или более экспертами-психологами. Большие коэффициенты корреляции между ними показывают надежность тестовой оценки.

Коэффициенты надежности психологических измерений представляют собой величину дисперсии показателей, которая вычисляется путем возведения коэффициента корреляции в квадрат. Интерпретируется он следующим образом.

Например, коэффициент корреляции между параллельными формами теста равен 0,75. Рассчитывается коэффициент надежности: 0,752 = 0,56. Это означает, что 56% дисперсии исследуемых тестовых данных зависят от истинной дисперсии признаков (данных параллельного теста), а 44% – от ошибок или случайных переменных.

Разберем гипотетический пример определения надежности двух форм теста^[2] в ходе исследования креативности 100 школьников. В результате коэффициент надежности взаимозаменяемых форм с интервалом ретестирования в две недели составил 0,7. Была вычислена надежность – гомогенность тестов при помощи формулы Спирмена – Брауна – 0,8. Надежность интерпретации ("оценщика") с привлечением второго специалиста-психолога была равна 0,92.

Анализ источников дисперсии ошибок показан в табл. 2.2.

Таблица 2.2

Анализ источников дисперсии ошибок в исследуемом тесте

1	По надежности взаимозаменяемых форм (с временны́м интервалом – две недели)	1 - 0,7 = 0,3 (ошибка ретеста + ошибка гомогенности)
2	По надежности эквивалентных половин теста (формула Спирмена – Брауна)	1 - 0,8 = 0,2 (ошибка гомогенности)
3	Разность	0,3 - 0,2 = 0,1 (ошибка ретеста)
4	По надежности интерпретации ("оценщика")	1 - 0,92 = 0,08 (различия между интерпретациями)
5	Суммарная оценка дисперсии ошибок 0,2 + 0,1 + 0,08 = 0,38
6	Истинная дисперсия 1 - 0,38 = 0,62

Результаты исследования надежности теста креативности можно представить схематично в процентном распределении дисперсии показателей теста в табл. 2.3.

Таблица 2.3

Результаты исследования надежности

Истинная дисперсия: 62%	Дисперсия ошибок: 38%
Временная устойчивость; согласованность форм; независимость от различий между интерпретациями ("оценщиками")	Ошибка гомогенности: 20%	Ошибка ретеста: 10%	Различия между интерпретациями: 8%

Надежность теста можно выразить посредством расчета стандартной ошибки измерений (SEM) (стандартная ошибка показателя)^[3]. Она рассчитывается по формуле

где – стандартное отклонение показателей теста; значение коэффициента надежности.

Физический смысл SEM заключается в определении дисперсии показателей конкретного теста вокруг истинного показателя, которая характеризуется плотностью нормального распределения данных. Если, например, 68% всех случаев нормального распределения психологических данных попадает в интервал , то примерно два шанса против одного (68 : 32),что ошибка измерений будет колебаться в пределах . При увеличении плотности распределения данных, например , увеличивается и вероятность предсказания (99,7 : 0,3) при соответствующем росте интервала ошибки в обе стороны.

Пример: рассчитаем стандартную ошибку измерений при помощи тестов С FIT и "Прогрессивные матрицы" Дж. Равена. Интеркорреляция между показателями тестов составляет 0,81. Стандартное отклонение – 15. Результирующий показатель исследуемой методики CFIT равен, допустим, 110 IQ-баллов.

Это означает, что при определении истинного IQ и соотношении шансов удачного предсказания истины 2 : 1 (или 68 : 32) ошибка будет колебаться в интервале

IQ-баллов и истинный показатель теста находится в пределах от 103,5 до 116,5.

При увеличении вероятности прогноза до соотношения 99,7: 0,3 (3 ± δx) ошибка возрастает до ±19,5, а истинный показатель займет место между 90,5 и 129,5.

Таким образом, надежность, валидность и прогностичность эмпирических данных дают возможность измерять психологические переменные на соответствующем уровне достоверности, который диктуется практикой социальных исследований.