Валидность психологических методик

Рассуждения о валидности, видимо, следует предварить замечанием о том, что достоверность психологического измерения может подтверждаться при сопоставлении показателей методов с реальным проявлением исследуемого качества, т.е. в данном случае точкой отсчета является именно реальность проявления психики. Опенка этой реальности в практике психодиагностики называется выявлением внешнего критерия, или критериальным оцениванием. Оно может осуществляться при помощи экспертной оценки, путем объективной регистрации выполненного действия или методом самооценки.

Например, оценку уровня общительности человека достаточно получить путем опроса либо членов его группы, либо референтов (экспертов), или при помощи регистрации частоты, экспансивности и направленности его контактов с окружающими.

Таким образом, под валидностью психологического измерения свойств субъекта может пониматься мера соответствия тестовых оценок представлениям о сущности свойств ши их роли в той ши иной деятельности человека. В теории психометрии определяют типы и виды валидности (рис. 2.1).

К типам относят внешнюю и внутреннюю валидность. Каждый тип валидности подразделяется на виды. Процесс приведения соответствия психологических оценок показателям реального проявления качества или свойства называется процессом валидизации (валидации).

Внешняя валидность представляет собой меру возможности распространения результатов тестирования на исследуемую группу людей, или генеральную совокупность. Генеральная совокупность есть ограниченная группа людей (популяция), на которую исследователь распространяет полученные данные и которая также по основным параметрам или свойствам должна отражаться в характеристиках экспериментальной выборки.

Внешняя валидизации осуществляется путем отработки репрезентативности экспериментальной выборки в ходе психологической диагностики и перекрестной валидизации данных. Перекрестная валидизации есть определение

Рис. 2.1. Структура валидности

валидности теста на выборке, отличающейся от той, на которой отрабатывался Стимулъный материал и методические задания.

Репрезентативность выборки – это представительность экспериментальной выборки, отражающая основные свойства генеральной совокупности. Репрезентативность определяется путем сопоставления качественных и количественных характеристик экспериментальной выборки с характеристиками исследуемой популяции с целью определения их однородности.

К качественным характеристикам могут быть отнесены социально-демографические, видовые, интеллектуальные (образовательные), профессиональные и другие характеристики популяции (группы), которые являются предметом исследования или существенно влияют на него.

Количественная характеристика экспериментальной группы – это минимальная ее численность, которая при этом сохраняет свойства генеральной совокупности. Формирование репрезентативной выборки по количественному признаку может осуществляться на основе теоремы П. А. Чебышева о вероятности ошибки репрезентативности, которая гласит:

"С вероятностью сколь угодно близкой к единице можно утверждать, что при достаточно большом числе независимых наблюдений выборочная средняя будет сколь угодно мало отличаться от генеральной средней", и далее: "что с вероятностью, как угодно близкой к единице (“практически достоверно”), выборочная доля будет как угодно мало отличаться от генеральной доли, если объем выборки достаточно велик"[1] (следствие 1 из теоремы П. Л. Чебышева).

В психологической литературе существует несколько теоретических подходов к расчету объема минимальной репрезентативной выборки[2]. Часто приводятся таблицы опытно полученных данных[3]. Так, С. Москвин отмечает, что при объемах генеральной совокупности 400, 500, 1000, 2000, 5000, 10 000 и более 10 тыс. человек минимальная выборка составляет соответственно 200, 222, 286, 333,370, 398 и 400 испытуемых. Г. Лоза указывает на следующее соотношение генеральной совокупности и объема экспериментальной выборки при проведении социологических исследований 100/16–17 человек, 300/50 человек, 1000/100 человек и 5000/200 испытуемых. У А. Гончарова минимальная репрезентативная выборка относительно генеральной совокупности соответственно составляет: 500/222, 1000/286, 2000/333, 3000/350, 4000/360, 5000/370, 10 000/385, 100 000/398 и более 100 000/400 респондентов.

В ходе анализа психологических данных для расчета объема минимальной репрезентативной выборки используются следующие формулы:

1) формула расчета объема минимальной репрезентативной выборки[4] при нахождении доли элементов генеральной совокупности, обладающих некоторым признаком (номинальная измерительная шкала):

2) формула расчета объема минимальной репрезентативной выборки[5] при нахождении средней признака (интервальная измерительная шкала):

формула расчета объема минимальной репрезентативной выборки[6]:

где п – объем минимальной репрезентативной выборки испытуемых; t – коэффициент кратности ошибки, связанный с вероятностью гарантии ошибки выборочного наблюдения (величина t-критерия Стьюдента); δ – величина стандартного отклонения; Δ – размер ошибки доверительного интервала измерения признаков; N – объем генеральной совокупности; р – частость проявления данного признака; q = 1 - р.

Практическое задание. Рассчитать объем минимальной репрезентативной выборки испытуемых, если объем генеральной совокупности – 5000 человек и вероятность проявления исследуемого признака ("угадывания" при помощи теста) – 0,8.

Дано: t – коэффициент кратности ошибки, связанный с вероятностью (Pt), с которой требуется гарантировать результаты выборочного наблюдения; Δ – размер ошибки доверительного интервала измерения признаков = 0,05; N – объем генеральной совокупности = 5000; р – частость проявления данного признака = 0,8; q = 1 – р = 0,2.

Определить п – минимально необходимую численность экспериментальной выборки.

Ответ: п = 235.

Вывод: При повышении достоверности измерений идет заметное уменьшение объема минимально репрезентативной выборки. Аналогично влияет точность измерений (Δ).

Перекрестная валидизация производится путем апробации теста на выборке, отличной от экспериментальной.

Она осуществляется с целью определения границ применения методики по критерию "характеристика популяции"[7]. В ходе перекрестной валидизации рассчитываются коэффициенты корреляции между одними и теми же показателями, полученными в результате тестирования разных групп испытуемых. Вывод о возможности применения методики на данной популяции осуществляется при помощи параметрических или непараметрических критериев.

Практическое задание. Рассчитать объем экспериментальной выборки по критерию "уровень обучаемости испытуемых" (применялся тест ОСО[8]).

Дано: три группы испытуемых.

Группа 1 (школьники 9-го класса – 15 лет):

количество испытуемых и = 471;

среднее значение показателя Мх = 3,75;

среднеквадратическое отклонение δ = 1,4.

Группа 2 (школьники 10-го класса – 16 лет):

количество испытуемых п = 178;

среднее значение показателя Мх = 3,66;

среднеквадратическое отклонение δ = 0,8

Группа 3 (студенты колледжа связи – 18 лет):

количество испытуемых п = 104;

среднее значение показателя Мх = 3,20;

среднеквадратическое отклонение δ = 1,1.

Решение: в данном случае для расчетов используется формула параметрического t-критерия:

1) [9];

2) [10];

3) ;

4) .

Ответ: п = 649.

Вывод: в результате расчетов выявлено значимое различие показателей обучаемости между первой и третьей и между второй и третьей исследованными группами, которые не могут считаться однородными и составлять единую совокупность. Только между первой и второй выборками по данному критерию нет значимых различий < 0,05). В целях проверки валидности первую и вторую группы можно объединить в одну экспериментальную выборку и считать единой "популяцией" в количестве 649 человек.

Внутренняя валидность является мерой соответствия тестовых оценок уровню развития измеряемого свойства. Она представляется в психометрии, как правило, пятью видами валидности: концептуальной (теоретической), содержательной, конструктной, операционной и эмпирической валидностью.

Концептуальная (теоретическая) валидность есть теоретическое обоснование возможности измерения исследуемого свойства с помощью определенного психодиагностического средства (метода). Психологическая теория, лежащая в основе методики, полностью проецируется на систему интерпретации измерения. Например, метрическая парадигма фиксирует представление о психической функции относительно определенной статистической нормы. Психоаналитический подход отражается в проективных методах. Гуманитарные концепции положены в основу личностных конструктов и т.д.

Под содержательной валидностью понимается степень представленности (репрезентативности) в заданиях методики содержания измеряемой области психических функций.

Конструктная валидность – это степень репрезентативности исследуемого психологического конструкта в результатах теста. Как отмечала А. Анастази, конструктная валидность определяет, "насколько результаты теста рассматриваются в качестве меры исследуемого психологического конструкта – фактора, свойства"[11]. То есть содержательная и конструктная валидность различаются тем, что в первом случае гипотетически исследуется и конструируется инструмент оценки структуры психического действия, а во втором – данная структура сопоставляется в количественном виде с реальным его проявлением.

Операционная[12] валидность отражает степень репрезентативности в конкретных экспериментальных операциях в ходе выполнения испытуемыми заданий психодиагностической методики реальных операционных условий психической деятельности. В данном случае разговор идет не о моделировании в ходе выполнения методики физических действий, подобных или имитирующих реальные действия, а о формировании модели психических операций, воспроизводящихся в реальности.

Эмпирическая валидность вряд ли может иметь значение вида валидности. Это, скорее, совокупность характеристик валидности теста, полученная сравнительным статистическим способом оценивания. Иными словами, это математическая основа проверки совпадения или разночтения результатов, полученных при помощи психологической методики или комплекса методик, с объективными критериями проявления измеряемого свойства. К этим критериям относят аутовалидность, очевидную и критериальную валидность.

Аутовалидность представляет собой сверку показаний, полученных при помощи исследуемой методики, с интроспективными представлениями психолога о себе. Психолог, что называется, апробирует методику "на себе", а полученные результаты сопоставляет с осознаваемыми им качествами собственной личности.

Очевидная валидность – это представление о тесте, сфере его применения, результативности и прогностической ценности, которое возникает у испытуемого и другого лица, не располагающего специальными сведениями о характере использования и целях методики.

Критериальная валидность представляет собой комплекс характеристик, включающий текущую и прогностическую валидность методики и отражающий соответствие диагноза и прогноза определенному кругу критериев развития измеряемого свойства. Критериальная валидность оценивается величиной связи, корреляцией показателя методики с внешним критерием.

Собственно говоря, эмпирическая валидность определяется при помощи коэффициентов валидности. Текущая[13] валидность есть мера способности методики дифференцировать испытуемых по изучаемому признаку. Она вычисляется по трудности методики и мерам изменчивости измеряемого признака. Трудность есть отношение количества решенных заданий методики к нерешенным[14]. Уровень трудности характеризуется коэффициентом трудности (Тт).

(1)

где Np – количество решенных заданий теста; Nh – количество нерешенных заданий.

Оптимальная трудность, рассчитанная при помощи формулы (1), должна колебаться в пределах 50%, однако, как признают многие психологи, достичь такого положения крайне затруднительно. На практике критериальная трудность рассчитывается для всей тестовой батареи и уже ее значение должно колебаться в пределах 50%, а трудность входящих в нее тестов – находиться в пределах умеренного разброса. Видимо, этот умеренный разброс находится в пределах стандартного отклонения. Следует также учитывать стандартную ошибку вычислений.

В американской психодиагностике для расчета трудности психометрических тестов применяют следующую формулу:

(2)

где δ – среднеквадратическое отклонение.

Трудность теста, рассчитанного по формуле (2)[15], находится в пределах от 1 до 25. Средняя трудность теста имеет значение 13.

Практическое задание. Рассчитать трудность тестовой батареи, состоящей из двух субтестов (табл. 2.1).

Таблица 2.1

Экспериментальные данные

Тест 1

Тест 2

Νρ = А

Л'р = 2

Лгн = 5

iVii = 7

Тт = 80%

Тт = 29%

Вывод: трудность тестовой батареи составляет 54,5%, что соответствует основным методическим требованиям и демонстрирует допустимую методикой показателей дифференциацию.

Также к мерам изменчивости признаков, как правило, относят характеристики распределения эмпирических данных (нормальность распределения) и характеристики вариации признаков. Нормальность распределения данных определяет численную характеристику дифференциации испытуемых. Она вычисляется при помощи критерия Хи-квадрат Пирсона, а также с использованием коэффициентов асимметрии и эксцесса распределения переменных. Ширина полосы разброса данных по шкале измерений – от min до max. Это характеристика вариации признаков. Простейшими измерителями вариации признаков является размах вариации (R) и дискриминагивность заданий (субтестов). Размах – это разность между наибольшим и наименьшим значениями признаков, т.е. . Дискриминативность – это способность отдельных пунктов (заданий) методики дифференцировать обследуемых относительно максимального или минимального результата теста. Мера соответствия успешности выполнения одного субтеста всей методике является показателем дискриминативности заданий и называется коэффициентом дискриминации, или индексом дискриминации, который рассчитывается в процессе разработки методики. Он может вычисляться или при помощи точечно-биссериального коэффициента корреляции (Rpb), или методом контрастных групп в виде разности между долей лиц, правильно решивших задание, из высокопродуктивной и низкопродуктивной групп (D)[16]:

Наибольший интерес представляет характер группировки значений признака вокруг средней. Мерой ее определения является дисперсия (среднеквадратическое отклонение) и коэффициент вариации (V), который определяется как отношение дисперсии () к среднему (), выраженное в процентах.

Между характеристиками распределения и вариативностью переменных имеется связь, которая предопределяет оптимальное сочетание формы распределения с вариативностью. Большая вариативность признаков говорит о том, что распределение ненормально, асимметрично и сильно скошено. Малая вариативность показывает, что психодиагностический метод не дифференцирует испытуемых по измеряемому признаку[17].

Следует подчеркнуть, что при анализе трудности, нормальности распределения и вариативности показателей тестов необходимо соблюдать меру, которая вырабатывается в процессе накопления опыта диагностической работы и статистической обработки данных.

Прогностическая валидность[18] является элементом содержания достоверности тестов и определяется как степень точности и обоснованности суждения о диагностируемом психическом свойстве по результату его измерения спустя определенное время. Показателем прогностичности теста является степень регрессии тестовых данных к каким-либо объективным критериям. Регрессия представляет собой функцию , описывающую зависимость среднего показателя, отражающего данное свойство, от заданных фиксированных значений реального проявления этого свойства, т.е. внешнего критерия – у. Эта функция может носить линейный и нелинейный характер[19].

В практической психодиагностике для прогноза развития или проявления измеренного свойства чаще применяют линейную или множественную линейную регрессию (). Физический смысл ее заключается в приравнивании зависимой и независимой переменных. Изменение зависимой переменной прямо определяет изменение независимой переменной. Коэффициент а показывает угол наклона оси регрессии, а свободный член h – смешение начала оси регрессии от начала оси координат. Коэффициент корреляции показывает уровень прогностичности функции, а R2 – уровень объясняемой дисперсии у за счет изменения х При использовании тестовой батареи прогноз измеряемого свойства осуществляется посредством связанных между собой нескольких зависимых переменных (x1, х2, х3, ..., хп), которые и формируют множественную линейную регрессию. При использовании множественной линейной функции при прогнозе развития измеряемого свойства повышается уровень прогностичности тестирования и его достоверность за счет перекрытия разными методиками различных сторон измеряемого свойства.

Таким образом, параметры валидности методики дают возможность психологу выяснить, в какой степени измерительный инструмент отражает исследуемую психологическую реальность.