Диагностический процесс и эмпирический цикл
Четкая модель диагностического процесса есть модель эмпирического исследования. Эмпирический цикл — хорошо известная схема для проведения научного исследования в науках о человеке. Этот цикл разработан Де Гроотом и стал руководством для проведения эмпирических исследований. По сути, первоначально книга планировалась как учебник по научно обоснованной диагностике. Уже в 1950 г. Де Гроот применил цикл при индивидуальном диагностическом обследовании. Связь между научным исследовани-
ем и диагностической деятельностью привела к улучшению профессиональной диагностической деятельности.
Эмпирический цикл считается базовой схемой для логически-методологического изучения исследовательского процесса как такового, осмысления и вынесения суждений в эмпирических науках. Этот цикл содержит пять фаз:
1. Наблюдение, сбор и категоризация эмпирических фактов, оформление гипотезы.
2. Индукция, формулирование конкретных гипотез.
3. Дедукция, выведение конкретных следствий из гипотезы
в форме поддающихся проверке положений.
4. Проверка гипотезы на новом материале.
5. Оценка результатов проверки в свете гипотезы и теорий, которые послужили основой для формулировки гипотезы, наметки дальнейших исследований.
Этот цикл вполне соответствует подходу логического позитивизма к получению научных знаний. В психологии он имел большое влияние. В третьей главе проанализированы некоторые элементы логического позитивизма. Акцент делается на логическое выведение из теории проверяемых гипотез. По словам Чечмана (1973), это и есть метод исследования по Лейбницу. С течением времени произошло смягчение требований к дедуктивному компоненту процесса, по крайней мере фактически. Ван дер Хейден (1995) ссылается на исследование, где клинические психологи признали, что они, несомненно, использовали не только дедукцию при формулировкегипотезы. Многие гипотезы были переформулированы в процессе сбора данных и даже впоследствии. Однако это не разрывало связь с теорией полностью.
Кроме эмпирического цикла, во многих учебниках описан диагностический цикл. Мы приводим описание Вестен-берга и Коули (1993, стр. 348): 1.Вопрос, стоящий перед диагностом. 2.Сбор относительно неструктурированной информации,
получение данных. 3.Формулировка гипотезы.
4.Структурированный (целенаправленный) сбор данных. 5.Проверка гипотез.
Последний этап приводит к диагнозу. Обычно здесь делаются некоторые разъяснения относительно отличий этого диагноза от медицинского. Медицинский диагноз направлен на установление заболевания, т.е. выяснение причины симптомов. У психодиагностов ударение перенесено в большей степени с причины на симптоматику (Westenberg & Koele, 1993, стр. 346). Соотношение между медицинским и психологическим диагнозами уже обсуждалось нами во второй главе (Kirmayer, 1994). В медицинском диагнозе преобладает осмысление проблемы с позиций причинного детерминизма, что позволяет решить многие проблемы. Однако, согласно Кирмайеру, это осмысление и анализ недостаточны при психиатрических нарушениях, а также при некоторых других немногочисленных нарушениях.
Диагностический цикл иногда расширяют за счет включения в него этапов воздействия и оценки результатов. Итак, существует семь этапов (Kievit& Так, 1992, стр. 40— 64):
1.Сообщение о приеме, отсеивание. 2.Совместное обсуждение и получение предварительных
показателей. З.Сбор широкого круга данных и сведений о клиенте. 4.Интеграция информации.
5.Планирование получения необходимых конкретных данных. 6.Воздействие. 7.Оценка результатов.
Последние два этапа больше разрабатываются авторами, которые применяют психодиагностику в сфере решения проблем, преимущественно детских. Психодиагностика имеет большее число функций. Де Брюн (1992, стр. 167) перечисляет девять типов: регистрация, проба, предсказание, профилактика, распознавание, истолкование, объяснение, рекомендации и оценка. Обычно к функциям диагноста относят рекомендации и решение проблемы, определение на должность (работу), отбор и классификацию обследуемых лиц.
Применение эмпирического цикла в научной деятельности, при диагнозе проблем клиента или в какой-либо организации (учреждении), по-видимому, не вызывает
трудностей. Цель применения цикла при постановке психологического диагноза — придание клинической и диагностической деятельности научного характера. Как отмечалось в первой главе, между ними существуют сходство и различие.
7.4.2.Эмпирический и практический циклы
Ван Страйн (1983, 1986), анализируя эмпирический цикл, задался вопросом: полностью ли он подходит для решения диагностических вопросов. Философской основой эмпирического цикла является номологически-дедуктив-ный тип мышления (см. также Brandstadter, 1990, гл.1 и 8). Для практической диагностики это означало, что теоретически выведенные и эмпирически обоснованные закономерности должны применяться при анализе конкретного случая. Это один из путей понять частное на основе общего. Практик должен установить, действию каких законов соответствует данная проблема. Как следствие этого, в психологическом образовании возобладали курсы по методологии исследования и обучение общим законам. Студенты сталкивались с методологией и законами, которые совсем не соответствовали их ожиданиям, поскольку психология была, с их точки зрения, наукой о человеке и его проблемах, способностях и характерных особенностях. Психологическое образование и эпистемологическая основа психологии были толчком, побудившим Ван Страйна заняться диагностическим (регулирующим) циклом. Этот цикл имеет иные акценты.
Первый существенный момент диагностического цикла состоит в признании того, что в совете нуждается конкретный человек. Общие законы не применимы к каждому отдельному человеку. В большинстве случаев закон устанавливается для репрезентативной группы и беспристрастно оценивает тот или иной параметр популяции. Многие индивиды не подпадают под него. Вдобавок не существует эмпирических законов для многих подгрупп. Например, нормы, позволяющие сделать прогноз по показателям тестов достижений, получены на выборке, которая не включает представителей этнических меньшинств. Более того, эта группа не гомогенна. Итак, вопрос в том, применимы ли эмпирические законы. И еще: требуется, по
крайней мере, некоторый период стабильности, в течение которого закон не испытывает адаптационных изменений к резко меняющимся обстоятельствам. Закон может приводить к формированию «консервативной» политики.
Второй существенный момент диагностического цикла обусловлен тем, что конкретный специалист может столкнуться с поведенческими феноменами, которые не подпадают под существующие закономерности. Но клиент ждет ответа. Поэтому специалист строит предположения на основе своего опыта, здравого смысла и профессиональных знаний. Иногда специалисты сталкиваются с одними и теми же проблемами. Они обмениваются положительным опытом и даже формулируют теоретические положения, выведенные из собственной практики. Ван Страйн приводит многие теории обучения, разработанные для использования при различных нарушениях, как пример такого рода практических теорий. Итак, диагност идет обратным путем, пользуясь индуктивно полученными теориями и даже внося свою лепту в построение этих теорий. Создание теории,— это, следовательно, не только гипотетико-дедук-тивная деятельность за письменным столом.
Третий существенный пункт диагностического цикла — интерес к возможным изменениям. Исследователю часто предписывается заниматься анализом, а не изменениями. Между тем необязательно быть привержен цем Маркса, чтобы признать, что диагностическая деятельность — это часть общего плана, который в конечном счете должен привести к изменениям. Рекомендуя активные формы помощи (вмешательство) или предлагая решение, связанное с какими-либо изменениями, он входит в противоречия с нормами и ценностями, собственными полномочиями или нехваткой их. В эмпирическом цикле эти вопросы выведены за рамки рассмотрения.
Диагностический (практический, регулирующий) цикл похож на эмпирический, но имеет свою специфику и включает следующие этапы:
1. Проблема.
2. Диагноз. .
3. План.
4. Воздействие.
5. Оценка.
Некоторые интерпретаторы рассматривают диагностический цикл как альтернативный эмпирическому. По-видимому, первым мысль об альтернативном характере циклов высказал Ван Страйн, но в 1984 году он возражал против этого. В его планы не входило развивать альтернативную методологию, он считал диагностический цикл расширенным вариантом эмпирического цикла. Можно придерживаться такой интерпретации сходства циклов, но ясно, что между ними существуют и различия.
7.4.3. Эмпирический и диагностический циклы
Объединить два цикла пытается Де Брюн. Он считает эмпирический цикл основным для психодиагностики. Вдобавок, с его точки зрения, диагностический вопрос — это вопрос, связанный с принятием решений. Диагност имеет право выбирать, какой критерий для него оптимален. Чтобы не оказаться жертвой предубеждений, диагност может использовать модели принятия решения. Должна быть сформулирована целевая структура. Если конкретные цели не упорядочены в определенной схеме, то неясно, что следует делать в тот или иной момент. Клиенту эта схема полностью не предлагается. Обычно он не логичен в изложении своих проблем.
Диагностическая деятельность имеет повторяющуюся, нормативную сторону, что проявляется в логических этапах и характере принимаемых решений. У нее имеется и эвристическая сторона, которая обнаруживается в фазе формулировки гипотезы.
Диагностический цикл включает описанные выше этапы, что предполагает ясную целевую структуру. Знание методологии и процедуры эмпирического цикла дают возможность диагносту вывести диагностическое заключение.
Знание о процедуре содержит четыре компонента:
1. Анализ жалобы в том виде, как она сформулирована клиентом.
2. Переформулирование проблемы таким образом, чтобы она поддавалась научному анализу.
3. Диагноз.
4. Показания для терапии.
Эмпирический цикл применим к каждому из четырех компонентов, но больше соответствует компоненту диагно-
за.Установление диагноза рассматривается как проверка объяснительных гипотез. Компонент анализа жалобы не столь легко вписывается в цикл. Этот анализ субъективен. Тем не менее такая субъективная интерпретация может быть исследована. То же самое относится к проблеме анализа переформулирования жалобы. Более легкий предмет исследования — показания для терапии. Существуют критерии применения специфической терапии, например, возможности клиента и социальные обстоятельства. Итак, эмпирический цикл применительно к этим компонентам может рассматриваться как интеграция эмпирического и диагностического цикла.
7.4.4. Модель проверки гипотез /МПГ/
МПГ — последнее звено, предшествующее соединению эмпирического исследовательского цикла с диагностическим процессом. Название модели подчеркивает, что она составляет специфическую часть эмпирического цикла, т.е. относится к нему как «часть к целому». МПГ относится и к проверке гипотез на одном испытуемом, и на группе. Вот последняя ее формулировка (Van Aarle, 1990a):
1. Ориентация на жалобу.
2. Идентификация проблемы.
3. Порождение взаимно независимых гипотез, дающих свое объяснение проблемы (для предотвращения преждевременного вывода).
4.Выбор методик и процедур сбора данных для проверки гипотез.
5.Формулирование рекомендаций, предполагающих активные формы помощи (интервенция). В рамках этой модели диагностика понимается как аналог процесса научного исследования. Существует нечто, что нуждается в объяснении, а объяснение должно строиться на основе закономерностей. Предполагается наличие предшествующего фактора и поведенческих психологических феноменов. Закон применяется, если в наличии определенные предпосылки. Например, в объяснении нуждается следующий факт: Джон не обладает необходимыми способностями к обучению, чтобы заниматься в начальной школе. Существует закономерная связь между двумя, по крайней мере, вещами. Каждый ученик седьмой
ступени с коэффициентом интеллекта ниже 75 по Вексле-ровской шкале интеллекта для детей (плюс-минус одно стандартное отклонение) и со скоростью работы, которая явно ниже, чем у сверстников, не обладает способностями для успешного окончания начальной школы. В данном конкретном случае важны следующие обстоятельства: Джону придется остаться в классе в третий раз, его коэффициент интеллекта значительно ниже 75, и скорость его работы по сравнению с одноклассниками также ниже.
Такое объяснение вызывает вопросы. Во-первых, достаточно ли закономерной является связь для такого вывода. Во-вторых, достаточно ли надежны и валидны методики и наблюдения, чтобы гарантировать правильное заключение. В-третьих, разумно ли формулировать вывод в виде указания на детерминацию. Ясно, что закономерностям необходимо эмпирическое обоснование.
В общих чертах МПГ принята как модель одной из фаз диагностической деятельности и сообщения результатов. С этой точки зрения, обсуждение оценки или диагностического процесса получило дальнейшее развитие. Диагностический процесс организован в соответствии с эмпирическим исследованием, что делает для него справедливыми замечания Ван Страйна о трудностях распространения закономерностей на отдельных индивидов, кроме того, диагностический процесс предполагает интервенцию.
Как кратко отмечалось в первой главе, существуют различия между диагностическим и эмпирическим циклами. В эмпирическом цикле, описанном Де Гроотом, при осмыслении ответа на запрос он дедуктивным способом выводится из теорий и корреляций, полученных экспериментальным путем. Эта процедура не может быть перенесена на отдельного человека. Как, например, возможна, проверка гипотезы, когда коэффициент корреляции равен нулю для данной популяциии, или проверка альтернативной гипотезы, когда коэффициент корреляции отличен от нуля (см. Kirk, 1968)? Ван Страйн предлагает более широкое понимание цикла, чем Де Гроот. В социальных науках теории вообще имеют более неопределенный характер (см. MacKav, 1993; Snow, 1937).
В этом разделе речь шла об этапах диагностического процесса. В характеристиках эмпирического и диагности-
ческого циклов использовались описания и предварительные замечания относительно диагностической деятельности. Можно признать интеграцию двух циклов плодотворной для повышения качества оценивания. Но интеграция не устраняет различий, существующих между циклами.
7.4.5. Помощь диагносту в принятии решений
В предыдущих разделах показано, каким образом с помощью методологических правил можно построить диагностический процесс так, чтобы получить новые знания о поведенческих феноменах. Чаше всего исследователи пользуются эмпирическим циклом. Существуют и другие способы получения прочных знаний, но они, по крайней мере в диагностике, не слишком привлекают специалистов. Столь разное отношение может объясняться тем, что диагностический процесс рассматривается как разворачивающаяся во времени история со специфической структурой. В данном случае внимание будет в большей степени уделено согласованности и приемлемости частей структуры и гораздо меньше — выяснению причин проблем клиента и воздействию со стороны диагноста.
Этот раздел рассматривает вопросы помощи диагносту в принятии решения. Она может принимать форму прохождения через определенные, специально организованные этапы или форму нормативных моделей процесса. Последние были заимствованы из теории решений. Подобное использование оправдано, если учитывать возможность предубеждений со стороны диагноста, нерациональность диагноза и тот факт, что человеческое суждение не всегда безупречно.
Первое, что помогает диагносту,— это развертывание процесса решения в цепочку определенных этапов. Так, планирование позволяет не упустить из виду существенных элементов процесса. Вейнстейн и Файнберг (1980) на многочисленных примерах показали пользу такого планирования. Прийти к ясному решению можно, учитывая соответствующие компоненты:
1. Проблема должна быть ясно сформулирована. Невозможно сформулировать ее всю сразу. Первый этап — категоризация проблемы. Нет ли у ребенка дизлексии? Есть ли
конфликт между родителями и детьми? Имеются ли трудности в обучении?
2. Диагност определяет ход процесса. Каков порядок его действий, когда лучше начать работу? Иногда необходимо прямое воздействие, а иногда требуется время, чтобы определить, к какой категории относятся проблемы. Каждое отдельное решение является вкладом в общее дерево решений и содержит оценку определенных исходов.
3. Диагност должен организовать все необходимые этапы стратегии принятия решения. На каждом этапе он определяет, что делать: применять тесты или нет, собирать новые данные или нет, применять воздействие или нет, информировать кого-то или нет, помещать клиента в соответствующий социальный институт или нет. После перечисления и объяснения преимуществ, предоставляемых альтернативными действиями, можно рассчитать, какое из них в наибольшей степени обеспечивает достижение критерия. В конкретных случаях диагност может выбирать между а/ переводом ребенка в другую школу или б/ вторым годом обучения в той же школе по специальной или обычной программе в сочетании с дополнительным обучением родителями или без него. Вопросы, на которые необходимо ответить: какая информация существенна для выработки решения, какое действие способствует повышению шансов в достижении критерия.
4.Диагност должен сделать выбор, прибегнуть к воздействию или нет, и выбрать вид воздействия, обеспечивающий максимальный результат при минимальных затратах для него и клиента. Такая схема весьма близка к оптимальной. Она помогает обратить внимание на наиболее существенные моменты и обдумать наиболее важные шаги. Диагносту требуется время, чтобы взвесить все за и против. Было бы интересно узнать от практиков, хорошо ли действует такой вид помощи в их практической работе. Практики говорят, что МПГ (которая также предписывает этапы, но не требует подсчета возможностей) — громоздкая система, ничего не добавляющая к тому, что они делают и без нее.
Второй формой помощи диагносту является модель полезности ожидаемых последствий (multiattribute utility theory) и правило Байеса. Эти модели используются в теории решений. Некоторые диагносты предпочитают формулировать проблему как решение проблемы. С точки зрения
других психологов, вообще все поведение можно рассматривать как совокупность решений. Эта метафора содержит в себе перспективные возможности для диагностики.
Первая модель требует сформулировать диагностический вопрос как проблему выбора между альтернативами. Модель полезности ожидаемых последствий помогает остановиться на одном из нескольких реальных выборов. Различные выборы можно сравнить по их характерным чертам. Приведем пример использования такой модели (Vlek, 1987, стр. 74—75): у пожилой супружеской пары имеется три варианта выбора: а/ остаться в своем доме;
Ь/ переселиться в квартиру, где им будет предоставлен ежедневный уход;
с/ переселиться в дом для престарелых.
Выбор определяется семью признаками (обстоятельствами, аспектами, чертами), степень важности которых зависит от специфики супружеской четы: 1/ стоимость; 2/ переезд; 3/ легкость ремонта; 4/ повседневная забота;
5/ собственные возможности в отношении транспорта; 6/ личная свобода; 7/ личный комфорт.
Супруги должны оценить в баллах (например, от 1 до 10) три возможных выбора по степени привлекательности (полезности) . Они должны взвесить для себя важность каждого признака, сравнивая и выбирая между ними. Результаты этого «взвешивания» возможных выборов должны суммироваться (до 10). Три выбора оцениваются по семи признакам в баллах от 1 до 10. Веса умножаются на число оценок и суммируются. Выбор, получивший наибольшее число баллов, указывает на реально предпочитаемый вариант. Если же набранное количество баллов по отдельным выборам мало отличается, конечно, трудности выбора остаются. Вторая модель — правило Байеса. Это правило может применяться при индивидуальном диагностическом анализе проблем конкретного клиента. Суть правила в том, что имеется некая априорная гипотеза, которая изменяется в
зависимости от получаемой информации. Правило облекается в различную форму. Вот пример простой формы:
Вероятность, что гипотеза Н (маленький Джон лжет) достоверна, как показывают данные наблюдений (запинается и краснеет) D = [вероятность запинок и покраснения (D) как следствия лжи (Н) + (оценка в 95%) умножается на априорную вероятность, что ребенок обманывает, оцененную в 3% ] = 0,95 х0,03 = 0,0285. Эта величина делится на следующее выражение: |сумма вероятностей , среди которых (а) вероятность последствий из обмана в форме запинок и покраснения (равная 95%) умножается на вероятность лжи (равную 3%) плюс (Ь) вероятность утверждения, что капризный ребенок лгун (Hi 10%), умножается на вероятность, что ребенок не лгун (1,00-0,03 = 97%) ] = 0,1255.
Далее вероятность (0,95x0,03) делится на 0,1255. В итоге получаем результат, равный 0,227. Итак, а-приори вероятность встретить ребенка, который лжет, равна 0,03 и а-постериори (после получения информации о том, что он запинается и краснеет) равна 0,227. Корректировка значительная (от 0,03 до 0,227), но еще не очень высокая, несмотря на то, что признаки имели тесную связь с ложью (95 %).
Для того чтобы применять данное правило, необходимы некоторые сведения и установленные величины. Например, допускается, что 3% детей имеют склонность лгать; что 95% из них могут быть пойманы на обмане и что о 10% несправедливо говорят, что они лгут. Правило показывает, что нечасто встречающиеся феномены при определенных условиях становятся более вероятными, но здравый смысл легко переоценивает их вероятность. Невозможно быть полностью уверенным, что ребенок лжет, если он краснеет или запинается. Правило подкрепляется эмпирическими данными, поэтому применение правила может помочь диагносту.
Для того, чтобы применять обе модели, необходимы эмпирические знания о феноменах. Вдобавок надо упорядочить и структурировать проблему таким образом, чтобы
можно было применять формулы. Специалисты, критикующие эти модели, указывают на возможную слабость именно этих допущений. Эльстер (1989), например, спрашивает, всели последствия выборов реально известны, известны ли возможности каждого выбора, связаны ли возможности с исходами, к которым они могут привести. Не существует простого пути получения хорошей оценки феноменов, особенно феноменов, на которых лежит своего рода табу. И что делать, если диагност предлагает клиенту наиболее подходящее решение в этой ситуации, а клиент говорит, что такой совет сделает его очень несчастным. Диагност оказывается вестником Соломонова решения. Юмористический случай, рассказанный в новелле Кроля (1978), показывает подобную ситуацию. Этот писатель — специалист в области вычислительной техники. В одной своей книге он упоминает об игре, в которую играл во время перерыва. Он просил коллег выбрать в офисе девушку, которой они хотели бы назначить свидание, а затем охарактеризовать женщин (своих коллег) по некоторым признакам (мы не приводим их здесь). В результате рациональная модель полезности ожидаемых последствий соединила его сослуживцев не с теми, кого они выбрали раньше. С точки зрения модели, первый выбор был нерациональным.
Модель должна быть снабжена самыми последними знаниями в конкретных областях. Существует тенденция конструировать экспертные системы. Такая система содержит эмпирические законы и некоторые эвристические правила. Модели подпитываются количественной и качественной информацией. Модели могут дать ответ на вопрос^ например, провести его категоризацию. Экспертная система Блонка (1995) для диагностики трудностей в обучении сравнивалась с суждениями опытных клиницистов. Модель надежна в высшей степени и требует меньше времени. Ожидалось, что за короткий период времени экспертная система будет давать консультация по многим проблемам и вопросам. Этого не произошло. Нелегко разработать совершенную экспертную систему. Вестенбсрг и Коули (1993, стр. 369) утверждают, что в психодиагностике не существует экспертных систем и что будет очень трудно их сконструи-
ровать, поскольку отсутствуют сами строгие причинно-следственные отношения.
В этом разделе показано, что диагностический процесс можно структурировать, выделив его этапы. На каждом этапе может быть получено решение, и оно может быть связано с оценкой вероятностей, при которых положение дел или будет сохраняться, или изменится. Теория решений предлагает нормативные модели, которые называют некоторые условия, позволяющие принять лучшее решение. Применение этих моделей связано с эмпирическим подтверждением оценок и требованием, чтобы заключительная реконструкция проблемы отражала реальную проблему. Модель должна содержать существенные аспекты реальных проблем. Вклад различных моделей в диагностику изучен только частично. Существуют проблемы, чье решение с помощью этих моделей может быть значительно улучшено. Практики не часто работают с этими моделями, а единственный способ показать их возможности и ограничения — использовать их. Как гласит поговорка, «не попробуешь — не узнаешь». Использование экспертных моделей также ограничено.
7.5. Соотношение трех уровней
Четвертый компонент психодиагностики — деятельность, в которой встречаются «выделенные» нами уровни. Противостояние между концепциями здравого смысла и теоретическими концепциями выражается в борьбе за научность практической психологии. Это противостояние частично охватывает противоречия между клиническим и статистическим подходами (см. гл.2). Теоретический анализ предлагает модель самой науки для того, чтобы сделать диагностику научным «предприятием». Несколько психологов пытались интегрировать эмпирический и диагностический (или регулирующий) циклы. У них имеются как сходства, так и различия.
Математический уровень психодиагностики связан с использованием описательных моделей и моделей, предписывающих решения. Они играют роль в структурировании диагностического решения и помогают придерживаться необходимых этапов. Вдобавок они помогают интегрировать
информацию в соответствии с правилами. Эти правила минимизируют некоторые типы погрешностей. Если модели применять в реальности, их использование означает, что типы погрешностей сводятся к минимальным. Если диагност не использует модель в таких обстоятельствах, он действует нерационально. С другой стороны, нелегко найти модели, которые полностью применимы. Между прочим, противоречия между уровнями концептуально-теоретическим и здравого смысла, с одной стороны, и математическим уровнем, с другой, упоминались крайне редко. Теперь мы приведем некоторые дискуссионные точки зрения. Во-первых, диагност был убежден, что его суждение отражает не линейную, а более сложную зависимость. Практик же думал, что он использует более сложные модели, чем линейная. Линейные модели были способны хорошо описывать результаты экспертных оценок. Давис (1979) даже говорил о здоровой красоте «ошибочных» линейных моделей в области принятия решения. Слово «ошибочные» относится к требованиям многих клиницистов. Гольдберг (1968) спрашивал себя, кто был наивным: диагност или модель. Дискуссия по оформлению суждения диагноста представлялась закрытой, поскольку линейная модель описывала результаты достаточно хорошо. Позже, однако, отношение к проблеме изменилось.
Круговое вращение модели «Большой пятерки» показывает, что восприятие личностных прилагательных может быть искажено двумя факторами, а это означает, что смысл прилагательных искажается, смешивается. Во-вторых, эмпирический и диагностический циклы соединены в-МПГ. Необходимо, однако, видеть определенные различия между эмпирическим и регулирующим циклами. Не совсем ясно, нацелены ли они в точности на одно и то же в познании поведенческих феноменов. В-третьих, нормативные модели помогают организовать процесс выведения диагноза как процесс решения. Это переструктурирование должно отражать, по крайней мере, некоторые центральные элементы реальных проблем. Применение модели требует эмпирических знаний для того, чтобы получить достаточно точную оценку поведенческих феноменов. Этих знаний постоянно не хватает. Если элементы выделены и измерена их валид-ность, их следует объединить. Модели минимизируют по-
грешности. Они выполняют то, что от них ждут. При их применении погрешность сводится к минимуму. Обычно люди не приспосабливают свои действия к этим моделям. Это говорит о том, что они действуют нерационально. Приведенный аргумент критиковала, например, Ван Дам.
В противопоставлении трех уровней навязчиво встает интригующий вопрос: почему люди ведут себя иррационально, не желая подчиняться правилам модели полезности возможных последствий и правилу Байеса? Или рациональные действия (если говорить применительно к этим моделям) в конечном счете не адаптивны? Или в них нет необходимости? Или такие действия превышают человеческие возможности по переработке информации? Или, принимая решение, его «автор» легко удовлетворяется результатом? Почему мы не желаем воспользоваться тем, что помогает нам действовать рационально? Симон (цит. по Kleinmuntz, 1990) полагает, что люди отбирают информацию в зависимости от того, устраивает ли она их, а не в соответствии с оптимумом, подсказываемым моделью.
В предписывающих моделях можно сомневаться и в том случае, если рассматривать их с других позиций. Почему люди должны быть рациональны (в том смысле, который заложен в таких моделях) ? Почему люди должны создавать предписывающие модели, требованиям которых они никогда не отвечают? Иногда такие модели напоминают идеологические и религиозные системы, включающие в себя разного рода предписания, которым люди никогда не следуют. «Кто без греха?»— риторический вопрос, полностью приложимый и к модели. Однако это не мешает постоянно фиксировать любые отклонения. Психологи вынесли вопросы двух последних параграфов за скобки. Это справедливо, потому что профессионалам непозволительно предписывать мышлению людей единую модель.
Этот раздел показывает непрекращающееся противостояние трех уровней. И оно плодотворно, т.к. обогащает анализ диагностического процесса. Расхождение между тремя уровнями проявляется и в диагностическом процессе.
.
ТРИНАДЦАТЬ ИТОГОВЫХ ТЕЗИСОВ
1. Изучение диагностического процесса включает также и диагностику самого диагноста: это исследование его человеческих особенностей.
2. «Модель линзы» Брунсвика достаточно хорошо предсказывает результаты диагностической деятельности. Хоф-фман, который изучал этот процесс, не претендует на то, чтобы «посмотреть», что делается в голове диагноста.
3. Процессы «житейской диагностики» не поддаются расшифровке с помощью «прямого» анализа. Возможно, более успешным путем было бы сравнение непрофессионального диагностирования с нормативными моделями и подсчет ошибок и расхождений.
4. Как уже отмечалось, диагност убежден, что он организует информацию не только линейно, но и конфигура-тивно. Исследования не располагают эмпирическим подкреплением этого утверждения. Определенный ответ пока не дан.
5. Профессиональных диагностов часто сравнивают с непрофессионалами. Легко предположить, что и те и другие — жертвы предубеждений, вызванных ограниченностью человеческих возможностей в переработке информации (Hogarth, 1987) и слабостью интуитивных способностей к статистическому анализу (Nissbett & Ross, 1980).
6. На исследования, выявившие предубеждения диагноста, наука отреагировала следующим образом: тренингами для диагностов, уменьшающими вероятность предвзятых, необъективных суждений; защитой достоинств диагноста и опровержением претензий к моделям; методологическими рекомендациями по применению эмпирического цикла, диагностического цикла и помощью в принятии решений.
7. Между эмпирическим и диагностическим циклами существуют как черты сходства, так и различия. Имеются попытки интегрировать эти два цикла, поскольку их различия невелики.
8. Де Брюн предлагает интегрировать эмпирический цикл, диагностический цикл и модели принятия решений.
9. Использование нормативной модели принятия решений оправдывается указанием на предубеждения диагноста
и существенные недочеты в категоризации и интеграции диагностических данных.
10. Такая форма как дерево решений помогает структурировать диагностический процесс в целом и выбор каждого решения в отдельности. Этот способ предполагает теоретическое и эмпирическое знание проблемы, которая изображается в виде дерева решений.
11. В психодиагностике существует лишь несколько экспертных систем. Проектировать такие системы сложно. Это требует знаний, оформленных в стабильные эмпирические законы.
12. Нормативная модель принятия решений минимизирует погрешности в соответствии с каким-либо правилом, например, методом наименьших квадратов в линейной регрессии. Если люди отклоняются от таких правил, они действуют не лучшим образом, т.е. нерационально. Модели не описывают и не объясняют порядок действий диагноста и не претендуют на это.
13. Необходимость принятия решений делает профессию психодиагноста тяжелой и жесткой.
Глава 8
Качество психодиагностики и использование тестов: оценка, критика и альтернативы
При определении качества диагностики следует учитывать выделяемые нами три ее уровня и четыре компонента. Качество зависит, помимо других причин, от соответствия требованиям этих компонентов и от попыток организовать три уровня, вопреки их фактической «нестыковке». Итак, существует необходимость в обсуждении качества теории тестов (классической и современной), теории различий между индивидами с точки зрения их предельных возможностей и типичного уровня функционирования, теории сре-довых условий и теории развития, в обсуждении адекватности методик и процедур, особенно тестов, и, наконец, адекватности диагностического процесса. Другими словами, анализ качества требует обсуждения существенной части как содержания, так и методов психодиагностики. Это, конечно, большая задача, но в известной степени ее невозможно избежать, поскольку согласно нашему определению психодиагностика не имеет собственного материала и собственного, только ей «принадлежащего», объекта и должна, таким образом, заимствовать их у психологии и, в частности, у ее методов. До сих пор качество психодиагностики определяется главным образом на основе одного ее компонента, наиболее очевидного и конкретного,— тестов и опросников. Жаль,что сейчас отсутствует интерес к качеству других компонентов.
В ряде стран тесты документально оформляются и оцениваются. Например, в США «Ежегодник измерения умственных способностей» Буроса дает информацию обо всех опубликованных тестах и опросниках, для которых разработан метод получения объективных показателей. С их помощью оцениваются межиндивидуальные различия, и уже имеются исследования их надежности и валидности.
Сколько существуют тесты и опросники, столько их и критикуют. Первая линия критики, не сходящая с повестки дня, связана с вопросом о том, отражают ли в достаточной
мере тесты, задания и задачи психологические процессы. Тесты часто конструировались в ответ на практические запросы общества или некоторых влиятельных общественных институтов. Практические средства диагностики служили вполне определенной цели — достичь значимой предсказательной валидности, но они не предлагали никакого существенного продвижения в понимании психологических процессов. Конструктная валидность намечала новые перспективы, но терстоуновская разработка простой структуры не была удовлетворительной. Поиски привели к подходу, изучающему процессы переработки информации (см. гл.4). Второе, за что критикуют существующие методики, связано с использованием тестов. Часто тесты исполь-зуются для принятия решений, имеющих для людей огромное значение. Объективны ли, справедливы ли такие решения в отношении любого человека и любой группы? Особое внимание вызывает в этом отношении тестирование групп меньшинств.
8.1. Качество компонентов психодиагностики
Центральное место при обсуждении качества психодиагностики занимает первый компонент. Тесты и опросники являются конкретными продуктами диагностики. Разработана система для оценки тестов и опросников, затрагивающая и два других компонента. Во-первых, особое значение придается надежности и валидности. Это относится в большинстве случаев к классической концепции надежности и дихотомии прогностической и конструктной валидности.Обычно эти вопросы обсуждаются как относящиеся к надежности. Современная теория тестов пока играет скромную роль. В последнем по времени издании «Стандартов» психологических тестов (1987) современная теория тестов едва ли играет хоть какую-либо роль. Можно ожидать, однако, что новые «Стандарты» будут включать требования, исходящие из современной теории тестов. В голландской версии «Стандартов» (1989) современная теория тестов рассматривается как набор моделей измерения, описывающих ответы на задания.
Теория преимущественно занимается той частью, которая связана с конструктной валидностью и анализирует
внутреннюю структуру теста.Предполагается,что внутренняя структура отражает исследуемое (латентное) одномерное свойство.Неверно думать, что это чисто технический вопрос. Известный психометрист Лорд (1980,стр.20) писал: «Представляется достоверным,что такие тесты, как тесты на словарный запас, понимание прочитанного, арифметические операции, словесные аналогии, числовые ряды, и различные типы пространственных тестов в большей или меньшей степени близки к одномерным».Однако совсем нетрудно понять, что решение задачи требует не одной, а нескольких способностей.Мы можем легко представить себе тесты, которые не одномерны.Тесты достижений в химии предполагают частичную натренированность в математике, а частично требуют знания нематематических фактов. Последнее замечание,возможно, соответствует действительности. Бсжар (1983, стр.18), исследователь в области педагогики, доказывает, что одномерность нехарактерна для заданий или тестов,но при определенных условиях она может быть присуща ответам в заданиях. Возьмем следующий пример: допустим, что имеется одномерный тест на произнесение слов по буквам. Этот тест проведен в группе детей, страдающих дизлексией, и здесь он проявил себя не как одномерный. В данном случае многомерный характер теста может объясняться особым типом обучения, которое получают дети с дизлексией (Bejar, 1983). Итак, вопрос об одномерности — это вопрос эмпирический. Помимо знания внутренней структуры тестовых заданий необходимы знания о взаимосвязи тестов друг с другом. Статья Кэмпбелла и Фиске (1959) повлияла на введение конвергентной и ди-скриминативной валидности.Вдобавок не надо забывать о прагматическом источнике тестов: тест должен прогнозировать значимый критерий (прогностическая валидность). Классическая и современная теории тестов дают возможность конструирования тестов и исследования надежности и валидности, которые не используются во всей полноте в практическом тестировании и в диагностике.Новые так же, как и старые модели не исключают возможности неправильного понимания. Что делать, если модель предполагает одномерность ответов, а тест в какой-либо группе (как в вышеприведенном примере у детей с дизлексией)
дает не одномерные результаты, расходясь с исходной версией? Можно ли тогда делать заключение о том, что тест не имеет конструктной валидности?
Во-вторых, при обсуждении тестов и опросников принимают в расчет теоретические источники конструкта, особенности его использования, описание, категоризацию, прогностические возможности. Теоретические источники в большинстве случаев сводятся к психометрическим теориям о межиндивидуальных различиях в случае предельно возможного, а также типичного функционирования. Теории, описывающие различия средовых условий, и теории развития едва ли играют существенную роль. Вопрос о качестве диагностического процесса прямо не рассматривается, т.е. в оценке теста вопросы относительно качества процесса диагностики не учитываются. Однако из седьмой главы ясно, что процесс считается отвечающим научным требованиям, если он строится в соответствии с правилами проверки гипотезы.
В данном разделе показано, что качество диагностики должно соответствовать характеристикам описанных в этой книге компонентов и уровней, фактически до сих подчеркивается только роль тестов. Разработана определенная система оценки. Система основана главным образом на правилах классической теории тестов. Современная теория тестов играет весьма скромную роль в измерении максимальных возможностей индивида или типичного уровня функционирования. Исключение составляют тесты школьных достижений, по крайней мере, в Нидерландах.
8.2. Система оценки качества тестов и опросников
Тесты и опросники должны удовлетворять определенным требованиям. В пятидесятые годы была опубликована первая книга Американской психологической ассоциации, содержавшая Стандарты для тестирования в образовании и психологии (1954). В 1950 Гулликсен опубликовал книгу по теории тестов. В результате переработки классической теории тестов он сформулировал повышенные требования к «хорошим» тестовым методам. Последняя ревизия «Стан-
дартов» была осуществлена в 1985 г. Стандарты значительно пополнили перечень критериев для оценки тестов, практики тестирования и эффективности применения. Ожидалось, что в ревизии 1985 г. будет присутствовать современная теория тестов. Но этого не произошло. В числе критиков (Hambleton,1986) оказались удивленные психо-метристы: новые «Стандарты» были только что подготовлены, и можно было ожидать,что в этой ревизии будут представлены ориентиры, задаваемые современной теорией тестов.
«Стандарты» в ревизии 1985 г. содержали классические разделы надежности, измерения погрешностей (в классической теоретической ориентации), нормы, шкалы и требования к руководству по проведению тестов. Обновление по отношению к предшествующему опыту выразилось в дифференциации части «Стандартов» для различных практических сфер деятельности. Профессиональные сферы деятельности оказались настолько отличными друг от друга, что стало правомерным введение разных «Стандартов». Возможно также, что руководили этим разделением сами представители профессиональных сфер. «Стандарты» с небольшими различиями были приведены для клинической, педагогической психологии и психологии управления.
«Стандарты» 1974 г. использовались в Нидерландах для разработки системы оценки тестов и опросников. Эти стандарты были переведены на язык характеристик теста, наличие или отсутствие которых можно было оценивать. Имелось пять категорий, каждая из которых включала определенный круг вопросов. Качество ответа на каждый вопрос могло быть хорошим, удовлетворительным и неудовлетворительным. Анализ системы по категориям позволил каждую из них квалифицировать как хорошую, удовлетворительную и неудовлетворительную. Вот эти категории:
1. Цели конструирования теста.Данная категория охватывает вопросы, связанные с применением теста, теоретическими источниками конструкта и релевантностью содержания теста. Эта категория должна включать положение об основном предназначении теста.
2. Структура теста, качество его материалов и руководства.
Данная категория связана с системой подсчета, эффек
тивностью теста и его материалов (брошюра к тесту, клю
чи, время тестирования), со стандартизацией, четкостью
инструкции и интерпретацией результатов.
3. Нормы. Эта категория связана с качеством норм. Пред
ставительны ли нормы для данной популяции? Нормы,
полученные на представительных выборках, используют
ся для интерпретации показателей. В классическом вари
анте тестов репрезентативность норм опирается на до
вольно широкие, общие группы. Новые «Стандарты»
(1985) более прагматичны и рекомендуют получение
норм для специфических групп.
4. Надежность. Эта категория требует наличия результатов исследования с помощью параллельных тестов (Гуллик-сеновское определение надежности), внутренней согласованности, тест-ретестовой надежности, сравнения экспертных оценок. Подчеркивается чувствительность коэффициентов к разнообразию выборок.
5. Валидность. Эта категория ориентирована на корреляции показателей теста и конструктную валидность. В отношении последней допускается, что конструкт является элементом номологической сетки, так что его внешняя и внутренняя структура эксплицируемы и, следовательно, поддаются эмпирической проверке.
Как отмечалось выше, каждая категория включает определенный набор вопросов, в соответствии с которыми система квалифицирует эту категорию как «хорошую, удовлетворительную и неудовлетворительную». Систему оценки можно продемонстрировать лишь на примере использования ее в конкретном тесте. Результаты исследования теста должны быть доступными.
В следующем разделе в качестве примера использования такой системы приводится разработка новой голландской версии WISC-R (Векслеровской шкалы интеллекта для детей).
8.2.1. Оценка качества WISC-R Ниже приводится оценка WISC-R по пяти приведенным выше категориям. Этот тест используется часто. В 1981 г.в Нидерландах группа голландских и фламандских психологов приступила к новой адаптации теста. Руководство к
I ] Я. тер Лаак
нему было опубликовано в 1986/1991 гг. Оценка тестов обсуждается в голландском руководстве — «Документация по тестам и исследованиям тестов» (Evers, Van Vliet-Mulder, Ter Laak, 1992). Адаптация WISC-R обеспокоила практических психологов отчасти более высокими нормами. Новые показатели привели к распределению детей по школам разного уровня сложности обучения.
Оценки, приведенные ниже, согласуются с оценками «Документации» (1992). Результаты одинаковые. С помощью приводимых н иже примеров нам хотелось бы продемонстрировать применение системы и высказать некоторые предложения по ее использованию.
Категория 1: теоретическая основа векслеровской шкалы интеллекта для детей. Авторы руководства опирались на публикации Векслера, представляя теоретическое обоснование теста. И тест, и его направленность настолько хорошо известны, что нет необходимости описывать ни цели его использования, ни историю создания. Вдобавок тест разрабатывался для удовлетворения практической потребности в простом тесте, пригодном для широкого применения. Однако в 1955 г. Векслер высказал некоторые дополнительные соображения относительно применения теста.
Согласно его наблюдениям интеллект обнаруживает себя в нескольких различных формах поведения. В достиже-ниях по тестам интеллекта играют роль как интеллектуальные, так и неинтеллектуальные факторы (например, произвольный контроль и эмоциональная уравновешенность). Векслер работал клиническим психологом в большом госпитале Белльвью в Нью-Йорке и был убежден, что личностные характеристики (мотивация, эмоциональность, любознательность, депрессивность и т.д.) влияют на показатель IQ.
Он предпочел не ограничивать измерение интеллекта одним его важным аспектом, например, абстрактным мышлением. По мнению Векслера, интеллект предполагает наличие нескольких различных факторов, находящихся в иерархических отношениях. Интеллект рассматривается как способность наиболее высокого порядка. Интеллект проявляется в целенаправленном действии. По словам Векслера, в операциональном плане интеллект определяется
как совокупная или глобальная способность индивида целенаправленно действовать, мыслить рационально и справляться с проблемами в собственном окружении. Исходя из этого, Векслер отбирал задачи, которые коррелируют с проявлениями интеллекта, например, со школьными достижениями и профессиональным образованием.Он задался вопросом, какие интеллектуальные и неинтеллектуальные виды способностей приводят к этим достижениям. Задачи должны быть разными, привлекать легкостью подсчета ответов и надежностью оценки. Были добавлены «хорошие» (правильные) ответы, и полученные показатели позволили создать картину сильных и слабых сторон личности. Самое первое (по времени возникновения) разделение общего показателя IQ касалось показателя вербального интеллекта и показателя «интеллекта действия» (невербального интеллекта). Их корреляция составляла около 0,70. Конечно, независимых ортогональных факторов не существует и их невозможно интерпретировать как таковые. Второй часто используемой классификацией являются факторы, предложенные Кауфманом: вербальные способности, перцептивная организация, сосредоточенность и общий интеллект (см. Kaufman, 1976). В пятой главе мы останавливались на недостатках интерпретации профилей. В данной голландской версии WISC—R на первой странице нет результатов субтестов, на основе которых строится графический профиль. Это сделано для предотвращения интерпретации сильных и слабых сторон интеллекта. Субтесты не обладают факторной валидностью /см.гл.5/.
У Векслера интеллект толкуется как глобальная способность.Общий показатель признается хорошим индикатором интеллекта. По этому показателю можно предсказать адаптацию в ограниченном, но важном круге ситуаций — школьном и профессиональном образовании, на работе. Составление профиля не поощряется, но и не возбраняется.
Разработка теоретической основы теста включает три вопроса. Четко определен вопрос о назначении теста. Тест используется для прогноза, и конструкт его более или менее разработан. Однако он включен в номологическую сеть не настолько четко, чтобы можно было эту сеть валидизиро-ватъ. Подтверждена релевантность содержания теста. По-
и*
ражает, что многие задания заимствованы из шкалы Бине-Симона. Голландская и фламандская редакции особое значение придают конструктной валидности. Однако тест будет неизбежно использоваться и для прогноза. В целом тест можно оценить на «хорошо».
Категория 2: качество материалов и руководства. В упомянутых ревизиях тестов были тщательно проверены все задания. Система подсчета отличается достаточной ясностью. Стимульные материалы хорошие.Таблицы норм для голландской и фламандской выборок являются общими. Проведение теста занимает значительное время.Несмотря на справедливость некоторой критики, категория должна быть квалифицирована как соответствующая оценке хорошо.
Категория 3: нормы. Нормы получены на выборке от 6 до 16 лет с возрастным интервалом в один год.Выборка репрезентативна.В каждую возрастную группу входит около ста семидесяти мальчиков и девочек.Имеются нормы для общего показателя IQ и отдельно для показателей вербального интеллекта и невербального интеллекта. Данные собраны в 1981 г. Ответы по девяти вопросам этой категории приводят в результате к оценке теста хорошо.
Категория 4: надежность. Внутренняя согласованность определялась с помощью различных методов. В большинстве случаев использовался коэффициент альфа Кронбаха. Вдобавок использовалась (2 (лямбда). Все коэффициенты высокие. Один субтест является тестом на скорость, для него вычислен коэффициент ретестовой надежности. Ни одно из значений не опускается ниже 0,85. Результаты оценки внутренней согласованности хорошие.Поражает, что почти ни одно руководство к тесту не дает необходимых показателей. Наннелли и Бернштейн (1994, стр. 264—265) являются исключением, и они сформулировали следующее эмпирическое правило. При коэффициенте 0,70 надежность признается умеренной, для исследований требуется коэффициент надежности 0,80, а для целей отбора едва достаточным минимумом надежности считается 0,90. Поразительно, что в характеристиках теста отсутствуют коэффициенты стабильности. Хотя можно понять, что повторный сбор данных — большая работа, необходимо
иметь соответствующие коэффициенты ретестовой надежности. Выводы здесь опираются на семь вопросов, и существует компромисс между хорошей внутренней согласованностью и недостаточной стабильностью, поэтому оценку теста по этой категории можно определить как «удовлетворительную».
Категория 5: валидность. Названные ревизии теста сделали упор на конструктной валидности. Векслер не разработал номологическую сеть полностью, но с течением времени при анализе заданий интеллектуальных тестов накапливался соответствующий опыт. В редакциях теста использовались разные факторно-аналитические модели. Результаты анализа немного отличались, и авторы рекомендовали факторы Кауфмана. Это представляется разумным, потому что многие практики используют эти факторы.
Конструктная валидность проанализирована в соответствии с принятыми правилами. Отсутствуют коэффициенты прогностической валидности. Имеются корреляции с другими интеллектуальными тестами. Эти коэффициенты приведены в новом разделе по валидности, но могут рассматриваться как данные по конструктной валидности. Как незначимые приводятся корреляции теста с чтением и арифметикой на первой и второй ступенях обучения. Квалификация теста по сумме тринадцати вопросов может быть только неудовлетворительной, поскольку первоначально тест использовался как прогностический. Требуется немного времени, чтобы получить соответствующие коэффициенты прогностической валидности. Тогда может быть дана другая квалификация.
Как упоминалось выше относительно коэффициентов надежности, в нескольких (немногочисленных) руководствах используются эмпирические правила ранжирования коэффициента прогностической корреляции. Можно было бы остановиться на том, что целью является достижение значимых корреляций. Однако у исследователя обычно более высокие запросы. Он стремится объяснить большую часть дисперсии. Что это такое — «большая» часть? Наннелли и Бернштейн (1994, стр. 99—100) замечают, что эмпирически найденные корреляции редко бывают выше, чем 0,30—0,40. В какой-то степени это разочаровывает, но
авторы находят некоторое утешение в сравнении с достижениями других наук: Например, тест способности к школьному обучению не менее прогностичен для ступеней колледжа, чем метеорологический прогноз погоды на ближайшие десять дней (стр. 100).
Этот раздел посвящен системе оценки тестов. Категории и пункты такой оценки соответствуют «Стандартам» 1974 г. Данная система привлекалась для работы с голландским вариантом WISC-R. Результаты применения этой системы согласуются с оценкой теста по голландской системе «Документации тестов и исследований тестов» (Evers, et al.1992, 539—562).
8.3. Качество диагностики: совершенствование «Стандартов»
Не существует окончательного заключения о качестве психодиагностических средств. За последней по времени редакцией «Стандартов» (1985) вскоре последует шестая редакция. Чтобы дать представление о «Стандартах», ниже приводятся некоторые примеры, заимствованные из голландской редакции американской версии (1985).
Для раздела «Валидность» существует 26 стандартов. Например, правило 1.12: Все критерии измерения и основания выбора этих критериев должны быть описаны детально, тщательно. Надежность и погрешности измерения содержат двенадцать стандартов. Например, правило 2.10: Коэффициенты надежности могут быть различными для разных популяций. Тест должен иметь коэффициенты надежности применительно к каждой популяции, для которой он рекомендован.
В разделе «Усовершенствование теста» приводятся 23 стандарта. Например /3.23/: Когда при подсчете результатов по тесту играют роль субъективные оценки диагноста, должна быть полностью описана основа системы оценивания, а также тренировка, которая необходима для достижения достаточной степени согласованности разных мнений.
«Шкалирование, нормы, и сравнение тестовых показателей» включает семь стандартов. Например/4.5/: Если можно ожидать,что тест будет использоваться для интерпретации результатов групп, а не отдельных лиц, то
и нормы должны быть соответствующими, основанными на групповых данных.
Категория «Руководство» содержит одиннадцать стандартов^ 5.7 заключается в следующем: «Рекламный материал для теста должен содержать правдивую и валидную информацию. Издателям тестов следует избегать преувеличения возможностей теста.» За «Стандартами» 1985 г. скоро последуют новые, в которых, возможно, найдут свое место открытия и достижения современной теории тестов. Хамблтон (редактор обзорных комментариев издания 1985 г.) — сделал несколько критических замечаний, например, о количестве правил и уместности некоторых стандартов, отсутствии стандартов,соответствующих современной теории тестов, о разделении стандартов на уровни (существенный, первоначальный, высоко желательный, отвечающий стандарту, второстепенный) и много других, указывающих на невалидность шкалы суждений, несколько замечаний по тестам достижений, высказал предостережение против небрежного применения «Стандартов», а также невозможности удовлетворить все требования категорий надежности и валидности, упомянул об избытке профессиональной лексики. Эти комментарии могут помочь создателям шестой редакции «Стандартов».
В этом разделе показано совершенствование «Стандартов» для тестов. Это логическое следствие разработки компонентов и уровней диагностики. Критика последней (1985) редакции «Стандартов для психологических и образовательных тестов» вскоре будет учтена новым, шестым, изданием «Стандартов».
8.4. Критика: сопоставление тестов
с содержанием психических процессов
в реальном контексте
Тесты и опросники направлены на измерение «продуктов», а не процессов. Это мнение о тестах интеллекта послужило Пиаже поводом для отказа от предложения адаптировать шкалу Бине-Симона для Швейцарии. С того времени это критическое замечание повторяется в той или иной форме. Сегодня можно видеть два варианта этой линии критики и два типа ответов на нее.
1. В ответ на упрек в пренебрежении процессами их пытаются исследовать в рамках эмпирически-аналитической методологии. Примером может служить исследование информационных процессов. Некоторые их примеры приводились в четвертой главе.
2. Другая критическая точка зрения отвергает эмпирически-аналитический подход, считая его невалидным для получения информации о реальных процессах. С таких позиций высказывает критику Инглби (1994). Он отвергает претензии на объективность информации о человеке, если она получена с помощью тестовых показателей. Человек рассматривается как существо, неразрывно связанное с окружающей средой. Инглби называет тестовые показатели «обманчивыми и ограниченными, поскольку не существует объективного или независящего от от теоретических положений наблюдения и каждый индивид "впаян" в социальный контекст» (стр. 117). Психология тестов основывается на «вере» и существует как «наука» в силу того, что «имеет общественный статус и власть». Эти замечания носят преувеличенный характер и рассматривают работу диагноста как бессодержательную. Положение сводится к тому (на языке теории тестов," не приемлемой для Инглби), что существует столько достоверных показателей индивида, сколько существует контекстов, в которых ему случается проявлять себя" Неправильно искать у индивида один истинный показатель, который может быть оценен количественно.
Диагност не согласится с такой точкой зрения. В достижениях и характеристиках индивида существует некоторая стабильность, а назначение применения тестов — не в получении власти. Назначение теста — в сборе информации, которая может помочь в принятии решения. Индивид не рассматривается как некая монолитная констелляция. Он также не рассматривается обособленно от ситуации и контекста, но вместе с тем не следует думать, что индивид целиком и полностью зависит от контекста. Исследование должно обретать удвоенную силу благодаря знаниям индивидуальных характеристик в зависимости от контекста и вне его.
Инглби высказал три фундаментальных положения, заставляющих сомневаться в результатах теста. Во-первых, результаты отражают субъективное мнение испытуемого о
ситуации тестирования. Если представление испытуемого отличается от замысла тестирующего, результат может быть невалидным. В таком случае тестирующий будет стараться прояснить испытуемому цель тестирования. Вдобавок, если это случается с тестом или батареей тестов регулярно, данная процедура будет приводить к невалидным результатам, в том числе отсутствию прогностической и конструктной валидности. Психолог, занимающийся тестами, признает, что число как продукт теста является результатом многих процессов, некоторые из которых ему известны, а многие нет. Более того, он умышленно заключает некоторые факторы в скобки. Избежать этой процедуры ученый, ограниченный рамками существования «здесь» и «теперь» (кантовские синтетические априорные суждения) , не может. Вопрос в том, как далеко заходит это ограничение, насколько значима такая редукция, поскольку важно не потерять целое. В-третьих, поведение — это те или иные проявления индивида в естественной ситуации. Число баллов не может служить показателем «внутренней» способности индивида, что не будет отрицать ни один диагност.
Приведенные выше аргументы подчеркивают чувствительность показателей теста к влиянию различных факторов. Стандартизация теста означает, что среда берется как более или менее одинаковая для всех индивидов. Различия, выявленные в условиях стандартизации, рассматривались как выражение реальных индивидуальных различий. Итак, влияние условий не отрицается, но оно вынесено за скобки. Можно, конечно, попытаться сделать темой эмпирического изучения контекст и его различия. Но и при таком типе изучения тесты необходимы для демонстрации влияния контекста.
Если есть заинтересованность в изучении воздействия контекста на поведение, следует разрабатывать процедуры, которые расширяют возможности выявления влияний контекста. Ингбли утверждает, что эти процедуры в то же время более адекватно покажут психологические процессы. Процедуры характеризуются изучением с помощью наблюдения экологической ниши индивида — плотным наблюдением и отсутствием спешки в теоретическом обосновании.
Это напоминает старое изречение представителей феноменологии: «То, что являет себя так, как оно являет, само позволяет себя являть». Качественный подход должен быть разработан для некоторых вопросов и проблем точно так же, как совершенствовались тесты. Какова структура процедуры, как должны быть описаны результаты?