Распознавание и категоризация объектов

Недостаточно просто заметить что-либо. Образы восприятия представляют человеку мир как систему объектов, имеющих определенные устойчивые предметные характеристики (социальные значения), на основе чего и становится возможной человеческая деятельность. Предметность восприятия обеспечивается механизмами категоризации ощущений. В настоящее время существует две основных гипотезы, объясняющих, как нам удается соотнести образ с содержащимися в памяти значениями. Представители первого подхода считают, что процесс восприятия направлен снизу вверх: сначала происходит анализ компонентов образа, а затем – их интеграция в целостный объект. Воплощением данной идеи является гипотеза черт. Противоположный подход заключается в понимании процесса восприятия как направленного сверху вниз: от формирования гипотезы ("Что бы это могло быть?") к анализу отдельных деталей образа для подтверждения или опровержения исходной гипотезы. В данном случае речь идет о гипотезе прототипа.

Гипотеза черт (Сэлфридж, 1955) предполагает, что каждый видимый объект кодируется с помощью комбинации простейших деталей – эталонов и ключевых связей между ними. Например, буква А – это три отрезка, два из которых расположены под углом 30 градусов, а третий – горизонтальный – пересекает их посередине. Согласно гипотезе черт должны существовать схемы-эталоны первичных элементов сложных объектов, составляющие своеобразный умственный алфавит.

Данные в пользу гипотезы черт были получены Г. Кинни, М. Марсеттой и Д. Шоуменом (G. Kinney, М. Marsetta, D. Showman, 1966). Они предъявляли испытуемым на короткое время букву G и просили опознать ее. Естественно, что испытуемые часто ошибались. Однако их ошибки носили регулярный характер: 72% ошибок составило ложное опознавание буквы G как С, в 21 % случаев испытуемые путали G и О, и только 3% случаев ошибок приходилось на В или цифру 9. Других ошибок не наблюдалось вовсе. Следовательно, для ответов испытуемые выбирали объекты со сходным набором деталей. Ошибки же, по мнению авторов, происходили потому, что испытуемые не успевали проанализировать все черты стимула. Таким образом, гипотеза черт объясняет, как из изолированных ощущений с помощью элементарных схем – черт формируются образы сложных объектов.

Поскольку буквы – эго создание человеческих рук, выделить черты для них довольно легко. Но что можно рассматривать в качестве черт для сложных природных объектов? А. Бидерман (I. Biederman, 1987) предложил теорию распознавания по компонентам, включающую в себя три последовательных этапа:

1) объект сегментируется на набор простейших субобъектов;

2) проводится категоризация субобъектов;

3) субобъекты интегрируются в целостный образ.

Бидерман описал 36 категорий субобъектов и назвал их геонами (геометрическими ионами). Примерами геонов являются цилиндр, куб, пирамида и т.д. Геоны формируют некоторый "алфавит", из которого можно схематически построить практически любые визуальные объекты (рис. 7.15). Обоснованность гипотезы Бидермсна становится очевидной, если посмотреть на детские рисунки. Маленькие дети рисуют окружающий мир по принципу "палка, палка, огуречик – вот и вышел человечек", т.е. действуют так, как будто воспринимают объекты в форме совокупности геонов.

Рис. 7.15. Сегментация объектов на основе геонов – цилиндров (по Андерсон, 2002)

Для доказательства гипотезы об опосредствовании распознавания визуальных стимулов сегментацией целостной картины на элементарные геоны был проведен эксперимент. Бидерман предъявлял своим испытуемым изображения, у части которых были удалены целые компоненты, а у другой было создано значительное визуальное "обеднение" рисунка при сохранении всех компонентов (рис. 7.16). Результаты его исследования показали, что при коротких предъявлениях лучше распознаются те изображения, на которых присутствуют все компоненты, пусть и в обедненной форме. Другими словами, испытуемые совершают меньше ошибок при распознавании, например, гладильной доски, когда видят ее прерывистый контур, а не четкий контур без ножки, или, например, отчетливо изображенный самолет без кабины распознается хуже, чем "пунктирный" самолет, снабженный всеми необходимыми частями.

Рис. 7.16. Стимулъный материал, использованный в эксперименте Бидермана (по Андерсон, 2002)

Однако в реальности мы имеем дело не с отдельными буквами или символами, а с осмысленными высказываниями и сложными многофигурными композициями. Здесь большую роль играют схемы более высокого порядка. С ними, например, связано явление "схватывания" слов, которые часто встречаются в языке, или ошибки корректоров, пропускающих опечатки из-за того, что они "видят" буквы, которые должны быть в том или ином месте слова, исходя из контекста. Я. Стюарт-Гамильтон приводит исторический пример печальных последствий такого рода ошибок предвосхищения. В 1632 г. в Англии вышла в свет Библия, которая тут же получила прозвище "нечестивой". В тексте этого издания в седьмой заповеди был допущен пропуск частицы "не", так что она звучала, как "Прелюбодействуй!". Человек, считывавший верстку, просто не мог себе представить подобного кощунства и поэтому не заметил его. Другими словами, одна и та же черта может восприниматься по-разному (или вообще игнорироваться) в зависимости от контекста. Поэтому важны не черты сами по себе, а их устойчивая конфигурация, которая называется прототипом (см. рис. 7.17).

Рис. 7.17. А. Черты лица. Б. Прототип лица (по D. Norman, D. Bobrow, 1976)