Матрица факторных весов с вращением и без вращения рейтинговых оценок по шкале оценки личности преподавателя (данные получены

с помощью программы

Факторная матрица после вращения представлена в колонках А', В' и С' табли- цы. Доля дисперсии каждого задания та же самая, что и в факторной матрице до вращения факторов, но факторы, полученные после вращения, легче интерпрети- ровать, чем в матрице до вращения. Вращение варимакс является процедурой ор- тогонального вращения,в которой факторные оси остаются перпендикулярны- ми друг к другу. В противоположность этой процедуре факторные оси при обличе- ском(косоугольном) вращении формируют острые или тупые углы по отношению друг к другу. Ортогональные факторы обычно легче интерпретировать, чем ко- соугольные, поскольку эти факторы не коррелируют друг с другом (независимы).

При интерпретации факторной матрицы после вращения следует обратить особое внимание на задания, которые имеют вес 0,50 и выше по данному фактору. Четыре задания — 1 (тактичный), 2 (вежливый), 4 (доброжелательный) и 9 (тер- пеливый) — имеют высокие нагрузки по фактору А'. Соответственно подходящим названием для этого фактора могло бы быть такое обозначение, как «деликат- ность» или «вежливость». Еще четыре задания имеют высокие нагрузки, но уже по фактору В': 6 (осведомленный), 8 (организованный), 10 (подготовленный) и

11 (пунктуальный), значит, соответствующим наименованием фактора В' могло бы быть «готовность». Наконец, три задания имеют высокие нагрузки по факто- ру С: 3 (креативный), 5 (увлеченный) и 7 (способный мотивировать); подходя- щим обозначением этого фактора могло бы быть — «стимулирующий» или «мо- тивирующий». Эти три фактора приобретают психологический смысл при опре- делении типа личности преподавателя, который предпочитают студенты.

SPSS — Статистический пакет для социальных наук (Statistical Package for the Social Sciences).

166 Глава 3. Психометрические основы психодиагностики: основные этапы...

Безусловно, имеется гораздо больше приложений для факторного анализа, чем те, на которых мы остановились. Сегодня факторному анализу посвящено множе- ство книг и статей. В то же время существуют значительные разногласия не толь- ко относительно наилучших процедур факторизации и вращения факторов, но и в отношении их интерпретации. Тем не менее факторный анализ был и остается одним из наиболее мощных инструментов психолога, разрабатывающего тесты.

Валидность теста

Существует достаточно много разных способов доказательства валидности теста. О них и пойдет речь далее.

Тест называется валидным,если он измеряет то, для измерения чего предназначен.

Очевидная валидность— описывает представление о тесте, сложившееся у ис- пытуемого. Тест должен восприниматься обследуемым как серьезный инструмент познания его личности, чем-то схожий с вызывающим уважение и в какой-то ме- ре трепет медицинским диагностическим инструментарием. Очевидная валид- ность приобретает особое значение в современных условиях, когда представление о тестах в общественном сознании формируется многочисленными публикация- ми в популярных газетах и журналах того, что можно назвать квазитестами, с по- мощью которых читателю предлагается определить все, что угодно: от интеллек- та до совместимости с будущим супругом.

Конкурентная валидностьоценивается по корреляции разработанного теста с другими, валидность которых относительно измеряемого параметра установ- лена. П. Клайн отмечает, что данные о конкурентной валидности полезны тогда, когда есть неудовлетворительно работающие тесты для измерения некоторых пе- ременных, а новые создаются для того, чтобы улучшить качество измерения. В са- мом деле, если уже существует эффективный тест, то для чего нужен такой же новый?

Прогностическая валидностьустанавливается с помощью корреляции между показателями теста и некоторым критерием, характеризующим измеряемое свой- ство, но в более позднее время. Например, прогностическая валидность какого- либо теста интеллекта может быть показана корреляцией его показателей, полу- ченных у испытуемого в возрасте 10 лет, с академической успеваемостью в пери- од окончания средней школы. Л. Кронбах считает прогностическую валидность наиболее убедительным доказательством того, что тест измеряет именно то, для чего он был предназначен. Основная проблема, с которой сталкивается исследо- ватель, пытающийся установить прогностическую валидность своего теста, состо- ит в выборе внешнего критерия. В особенной степени чаще всего это касается из- мерения личностных переменных, где подбор внешнего критерия — чрезвычайно сложная задача, решение которой требует немалой изобретательности. Несколь- ко проще обстоит дело при определении внешнего критерия для когнитивных тестов, однако и в этом случае исследователю приходится «закрывать глаза» на многие проблемы. Так, академическая успеваемость традиционно используется в качестве внешнего критерия при валидизации тестов интеллекта, но в то же вре-

3.9. Стандартизация теста 167

мя хорошо известно, что успехи в обучении далеко не единственное свидетельство высокого интеллекта.

Инкрементная валидностьимеет ограниченное значение и относится к слу- чаю, когда один тест из батареи тестов может иметь низкую корреляцию с крите- рием, но не перекрываться другими тестами из этой батареи. В этом случае дан- ный тест обладает инкрементной валидностью. Это может быть полезно при про- ведении профотбора с помощью психологических тестов.

Дифференциальная валидностьможет быть проиллюстрирована на примере тестов интересов. Тесты интересов обычно коррелируют с академической успева- емостью, но по-разному для разных дисциплин. Значение дифференциальной валидности, так же как и инкрементной, ограничено.

Содержательная валидностьопределяется через подтверждение того, что за- дания теста отражают все аспекты изучаемой области поведения. Обычно она определяется у тестов достижений (смысл измеряемого параметра полностью ясен!), которые, как уже указывалось, тестами собственно психологическими не являются. На практике для определения содержательной валидности подбирают- ся эксперты, которые указывают, какая область (области) поведения наиболее важна, например, для музыкальных способностей, а затем, исходя из этого, гене- рируются задания теста, которые вновь оценивают эксперты.

Конструктная валидностьтеста демонстрируется полным, насколько это воз- можно, описанием переменной, для измерения которой предназначается тест. По сути дела, конструктная валидность включает в себя все подходы к определению валидности, которые были перечислены выше. Кронбах и Мил (Cronbach & Meehl,

1955), которые ввели в психодиагностику понятие конструктной валидности, пытались решить проблему отбора критериев при валидизации теста. Они подчер- кивали, что во многих случаях ни один отдельно взятый критерий не может слу- жить для валидизации отдельного теста. Можно считать, что решение вопроса о конструктной валидности теста представляет собой поиск ответа на два вопроса:

1) существует ли реально некоторое свойство; 2) надежно ли измеряет данный тест индивидуальные различия по этому свойству. Вполне понятно, что с конструкт- ной валидностью связана проблема объективности в интерпретации результатов по изучению конструктной валидности, однако эта проблема общепсихологиче- ская и выходит за рамки валидности (подробнее см. гл. 2).

Из вышесказанного следует, что не существует какого-либо единичного пока- зателя, с помощью которого устанавливается валидность психологического теста. В отличие от показателей надежности и дискриминативности, нельзя осуществить точные статистические расчеты, подтверждающие валидность методики. Тем не менее разработчик должен представить весомые доказательства в пользу валидно- сти теста, что потребует от него психологических знаний и интуиции.

Стандартизация теста

Одним из важных отличий психометрических тестов является то, что они стан- дартизированы,а это позволяет сравнить показатели, полученные одним испы- туемым, с таковыми в генеральной совокупности или соответствующих группах.

168 Глава 3. Психометрические основы психодиагностики: основные этапы...

Тем самым достигается адекватная интерпретация показателя отдельного испы- туемого. Таким образом, стандартизация теста наиболее важна в тех случаях, ког- да осуществляется сравнение показателей обследуемых. При этом вводится поня- тие нормы,или нормативных показателей.Для получения стандартных норм нужно тщательно отобрать большее количество испытуемых в соответствии с ясно обозначенным критерием. При формировании выборки стандартизации следует учитывать ее объём и репрезентативность. В руководствах по тестам чаще всего указывается на то, что для простого уменьшения стандартной погрешности до- статочной будет выборка из 500 испытуемых. Однако репрезентативность выбор- ки не зависит от ее объема. Например, для того чтобы получить нормативные по- казатели для всей популяции детей, обучающихся в начальной школе, потребует- ся выборка объемом более 10 тысяч, тогда как выборка из такой ограниченной популяции, как шеф-пилоты авиакомпаний, не может быть столь значительной. Репрезентативность выборки, таким образом, параметр более важный, нежели ее объем. В некоторых случаях приходится формировать несколько групп стандар- тизации или стратифицировать группу стандартизации относительно таких пара- метров, как возраст, пол, социальный статус. Устанавливать нормы не всегда обя- зательно. При использовании психологических тестов в научном исследовании нормы не столь важны и достаточно «сырых» показателей теста.

Нормы для каждой группы должны быть представлены в средних величинах и показателе стандартного отклонения. Расчет средней величины элементарен и хорошо известен, а стандартное отклонение определяется с помощью формулы, имеющей вид:

где SD — стандартное отклонение; X2 — результат всего опросника всех испытуе- мых; п — количество испытуемых; — сумма.

Сегодня на практике все больше используется такой тип производной оценки, как стандартные показатели,удовлетворяющий большинству требований, предъ- являемых к психологическому измерению. Такие показатели выражают отличие индивидуального результата испытуемого от среднего в единицах стандартного отклонения соответствующего распределения. Стандартные показатели получа- ют двумя путями: линейным и нелинейным преобразованием первичных («сы- рых») оценок. В случае линейного преобразования сохраняются все свойства ис- ходного распределения «сырых» оценок, и такие показатели называются стандарт- ными или z-показателями. Для вычисления г-показателя находят разность между первичной оценкой и средним для нормативной группы и делят ее на стандарт- ное отклонение нормативной группы. Формула имеет вид:

Здесь необходимо сказать о том, что основной причиной преобразования пер- вичных оценок в некоторую производную шкалу является желание получить по- казатели, которые сопоставимы между собой вне зависимости от того, по какому

3.9. Стандартизация теста 169

тесту они получены. Линейное преобразование позволяет получить показатели сопоставимые лишь в том случае, когда распределения «сырых» оценок, по кото- рым они рассчитываются, имеют примерно одинаковую форму. Для того чтобы сопоставлять показатели, полученные на основе распределений разной формы, прибегают к нелинейному преобразованию, или к нормализованным стандарт- ным показателям.Процедура нелинейного преобразования достаточно проста и описана в многочисленных руководствах по математической статистике. Такие показатели обычно рассчитывают с помощью таблиц. В этих таблицах приводит- ся процент случаев, приходящихся на участки, которые отстоят от среднего нор- мальной кривой на некоторое число единиц стандартного отклонения. Сначала определяют процент лиц, чьи показатели превышают каждую «сырую» оценку, а затем по этому проценту в таблице отыскивают соответствующее значение нор- мализованного стандартного показателя. Эти показатели, как и линейно преоб- разованные, будут иметь среднее (X), равное 0, и стандартное отклонение (SD), равное 1. Нулевое значение показывает, что испытуемый попадает в точку, соот- ветствующую среднему нормальной кривой, превосходя 50 % группы. В случае, если показатель равен —1, испытуемый превосходит примерно 16 % группы, а ес- ли + 1 — превосходит 84 % группы. Нормализованным стандартным показателям можно придать любую удобную форму, например, умножив его на 10 и прибавив произведение к 50, получаем так называемый «T-показатель» и в этом случае Т, равное 50, соответствует среднему, равному 60 — превышает среднее на одно стан- дартное отклонение и т. д. С другими, не менее популярными нелинейными пре- образованиями «сырых» показателей теста, можно ознакомиться в соответствую- щей литературе1.

Созданием стандартизованного теста и его публикацией обычно завершается работа психолога, однако следует помнить и о том, что с течением времени не- обходим пересмотр(ревизия) теста. Достаточно вспомнить о тестах интеллекта (см. гл. 4), нормы по которым устаревают через каждые 5 лет, и можно предполо- жить, что процесс их старения будет ускоряться. Для наглядности этапы конст- руирования теста представлены на рис. 3.1.

Пример из практики: определение надежности опросника 16 PF Кеттелла.Личностный опросник Раймонда Кеттелла 16 PF(16 личностных факторов) от- носится к наиболее распространенным психодиагностическим инструментам и не нуждается в специальном представлении. Уже без малого 50 лет психологи всего мира используют его для решения разнообразных прикладных и научных задач. Однако как в бывшем СССР, так и ныне во вновь образованных странах этот опросник, несмотря на достаточно большую популярность, используется непро- фессионально, с нарушением всех норм и правил, предъявляемых к психологиче- ским тестам.

Кроме различных переводов опросника, которые существенно отличаются один от другого, в русскоязычной литературе часто встречаются и различные

См., напр., БурлачукЛ. Ф., Морозов С. М. Словарь-справочник по психодиагностике. — СПб.: Питер,

1999, а также Гласс Дж., Стэнли Дж. Статистические методы в педагогике и психологии / Пер. с англ. — М.: Прогресс, 1976.

170 Глава 3. Психометрические основы психодиагностики: основные этапы.

Рис. 3.1. Этапы конструирования теста

«ключи» к его факторам. Опубликованные в многочисленных сборниках и бро- шюрах варианты опросника не защищены (!) от ошибок и произвольного вмеша- тельства в его текст. Если добавить к этому отсутствие нормативных данных, а также то, что не проводилась проверка гомогенности шкал опросника на отече- ственных зыборках, то непонятно, какого рода результаты получали его многочи- сленные пользователи, какими диагностическими заключениями они оперировали. За последние пятнадцать лет у нас появились только три (!) работы, в которых ста- вилась задача проверки факторной структуры 16PF на. национальных выборках:

3.9. Стандартизация теста 171

это статьи В. М. Русалова и О. В. Гусевой (1990), Ю. М. Забродина, В. И. Похиль- ко и А. Г. Шмелева (1987), наконец, украинского психолога А. Г. Виноградова (1997). Читателю нетрудно сравнить это количество публикаций с тем множе- ством работ, в которых опросник использовался для получения «диагностически значимых результатов». Сказанное позволяет сделать вывод о том, что с помощью опросника 16PF измеряется нечто, имеющее неясное отношение к факторам лич- ности, выделенным и описанным Кеттеллом.

Занимаясь работой по психометрической адаптации личностных опросников1, мы не могли обойти вниманием и столь широко распространенный, как 16PF. За основу была взята форма «А» опросника 16PF. Были обследованы 227 человек (135 женщин и 92 мужчины) в возрасте от 16 до 51 года. Средний возраст иссле- дуемых составлял 28 лет. Это были люди, которые проходили отбор на различные должности в коммерческие организации Киева, все они имели высшее или сред- нее специальное образование (бухгалтеры, коммерческие директоры, менеджеры разного уровня).

Как известно, точность измерения с помощью психодиагностического инстру- мента определяется его надежностью. С целью выяснить, насколько точен прогноз, даваемый психологом на основании результатов 16PF, данные, первоначально по- лученные нами, были оценены по авторским ключам на внутреннюю согласован- ность с помощью коэффициента Кронбаха, вычисляемого по следующей формуле:

где a — коэффициент Кронбаха; r — количество заданий теста; S — дисперсия по

j-му пункту теста; — дисперсия суммарных баллов по всему тесту.

В табл. 3.6 содержатся данные о внутренней согласованности факторов лично- сти, полученные по авторским «ключам» (приведено буквенное обозначение фак- тора). Как видно из таблицы, значение коэффициента Кронбаха неудовлетвори- тельно для большинства факторов. А фактор N вообще измеряет нечто, не имею- щее никакого отношения к проницательности, расчетливости и наивности (если употреблять обыденное название этого фактора). Лишь некоторые из факторов, например фактор F (сургенция—десургенция) и фактор H пармия—тректия (сме- лость—робость), надежно измеряют то, что должны измерять. Таким образом, в результате проверки надежности—согласованности оригинальных ключей было показано, что ряд шкал опросника негомогенны. Можно предположить, что это следствия искажения смысла заданий при переводе на русский язык и/или суще- ствования известных культурных различий.

Для того чтобы выявить, что же именно стоит за данными, получаемыми с по- мощью 16PF, мы использовали факторный анализ. Факторы извлекались методом

Автор выражает свою признательность за участие в этой работе своему бывшему аспиранту Виталию

Духневичу.

172 Глава 3. Психометрические основы психодиагностики: основные этапы...

Таблица3.6

⇐ Назад

Далее ⇒