Сеть на рис. 5.13 говорит нам, что буква K состоит из правой диагонали, левой диагонали и вертикальной линии; буква R состоит из левой диагонали, вертикальной линии и кривой, выгнутой вправо; а буква P состоит из вертикальной линии и кривой, выгнутой вправо. (Для простоты мы здесь опускаем взаимосвязи признаков.) Чтобы понять, как при помощи этой сети можно распознать (или подобрать) букву, посмотрим, что происходит при предъявлении буквы K. Она будет активировать правую диагональ, левую диагональ и вертикальную линию. Все эти три признака будут активировать узел буквы K; два признака — левая диагональ и вертикальная линия — будут активировать узел буквы R и один признак — вертикальная линия — будет активировать узел буквы P. Только в узле буквы K активированы все признаки, и следовательно, она будет выбрана как наиболее подходящая.
Эта модель слишком проста для объяснения многих аспектов распознавания. Чтобы понять, чего в этой модели не хватает, посмотрим, что происходит, когда предъявляется буква R (рис. 5.14). Она активирует левую диагональ, вертикальную линию и кривую, выгнутую вправо. Теперь в обоих узлах букв R и P активированными оказываются все признаки этих букв, и в этой модели никак нельзя решить, какую букву следует выбрать. Чтобы остановиться на одном определенном варианте, эта модель должна знать: наличие левой диагонали означает, что на входе не может быть буквы P. Подобная отрицательная информация учтена в усложненной сети, показанной на рис. 5.14.
Рис. 5.14. Усложненная сеть. Помимо активирующих связей эта сеть содержит тормозящие соединения между признаками и теми буквами, которые этих признаков не содержат.
В этой сети есть все то же, что и в предыдущей, плюс тормозные связи (они показаны с точками на концах) между признаками и теми буквами, которые не содержат этих признаков. Когда признак соединен с буквой тормозной связью, активация этого признака уменьшает активацию буквы. Если буква R предъявляется сети, показанной на рис. 5.14, левая диагональ вызывает торможение в узле буквы Р, снижая тем самым ее общий уровень активации; теперь наибольшая активация будет в узле буквы R и, следовательно, она будет выбрана как наилучшее соответствие.
Сети с обратной связью. Основную идею модели, которую мы только что рассмотрели, а именно что описание буквы должно содержать как те признаки, которые она имеет, так и те, которые в ней отсутствуют, — первоначально предложили исследователи искусственного интеллекта, которые разрабатывали компьютерные программы, моделирующие восприятие букв человеком. Хотя в то время такие идеи пользовались относительным успехом, в конце концов оказалось, что они неспособны адекватно объяснить данные о влиянии контекста на способность воспринимать буквы. В частности, оставалось непонятным, почему буква легче воспринимается, когда она предъявляется в составе слова, чем когда она предъявляется сама по себе. Так, если испытуемым на короткое время предъявляют изображение либо только буквы K, либо слова «WORK» (работа), а затем спрашивают, была ли последняя буква K или D, они отвечают точнее, если было предъявлено целое слово, а не одна буква (рис. 5.15).
Рис. 5.15. Восприятие букв и слов. Этот рисунок иллюстрирует последовательность событий в эксперименте, в котором сравнивалось восприятие букв, предъявлявшихся отдельно или в составе слова. Сначала испытуемые видели точку фиксации, за ней следовало слово или отдельная буква, которые предъявлялись всего на несколько миллисекунд. Затем предъявлялся стимул, содержащий маскирующие знаки на том месте, где находились буквы, и два варианта ответа. Испытуемым надо было решить, какой из двух вариантов слова или буквы предъявлялся ранее (по: Reicher, 1969).
Чтобы объяснить этот результат, в вышеописанную сеть со связями между признаками и буквами надо внести несколько изменений. Во-первых, в нее надо добавить уровень слов и помимо этого добавить возбуждающие и тормозные связи от букв к словам (рис. 5.16).
Рис. 5.16. Сеть с активацией «сверху вниз». В этой сети между буквами и словами, а также между признаками и буквами имеются возбуждающие и тормозные связи, и некоторые возбуждающие связи идут от слов к буквам.
Кроме того, надо добавить возбуждающие связи, идущие от слов обратно к буквам; эти последние будут обеспечивать обратную связь «сверху вниз», и тогда можно будет объяснить, почему при кратковременном предъявлении буква легче воспринимается в составе слова, чем когда она предъявляется отдельно. Если, например, буква R предъявляется отдельно, активируются ее признаки — вертикальная линия, левая диагональ и кривая, выгнутая вправо, — и эта активация распространяется к узлу буквы R. Поскольку буква предъявлялась на очень короткое время, не все признаки могли успеть активироваться и результирующая активация узла буквы R могла оказаться недостаточной для опознания. Если же буква R предъявляется в составе слова «RED» (красный), то помимо активации, идущей от признаков R к буквенному узлу R, имеет место активация от признаков Е и D к буквенным узлам; все эти частично активированные буквы частично активируют узел слова RED, который в свою очередь по обратным связям активирует свои буквы, используя соединения «сверху вниз».
Все это приводит к тому, что когда буква R предъявляется в составе слова, у нее возникает дополнительный источник активации, а именно сигнал, поступающий вниз от слова; вот почему букву, предъявленную в составе слова, распознать легче, чем предъявленную отдельно. На материале слов и букв были получены и многие другие результаты, согласующиеся с многосвязной моделью (McClelland & Rumelhart, 1981).
Такие модели также успешно используются в устройствах для чтения рукописного текста и распознавания речи (Coren, Ward & Enns, 1999).
Распознавание естественных объектов и обработка по принципу «сверху вниз»
Мы кое-что узнали о распознавании букв и слов, а как насчет естественных объектов — животных, растений, людей, одежды и мебели?
Признаки естественных объектов. Форма естественных объектов состоит из более сложных признаков, чем линии и кривые, и скорее напоминает простые геометрические фигуры. Эти признаки таковы, что их комбинация позволяет создать форму любого узнаваемого объекта (так же как сочетанием линий и кривых можно получить любую букву). Кроме того, надо, чтобы признаки объектов были составлены из более простых признаков — линий и кривых, поскольку простые признаки — это единственная информация, изначально имеющаяся у перцептивной системы. Такие соображения направляли поиски возможного набора признаков предметной среды.
Одно из предположений заключалось в том, что в состав признаков объектов входят некоторые геометрические фигуры, например цилиндры, конусы, параллелепипеды и клиновидные фигуры, как показано на рис. 5.17а. Такие признаки называют геонами (неологизм от «геометрические ионы»); их разработал Бидерман (Biederman, 1987). Бидерман считает, что набора из 36 геонов, аналогичных показанным на рис. 5.17а, в сочетании с небольшим набором пространственных отношений будет достаточно для описания формы всех объектов, которые человек способен опознать. Чтобы оценить этот момент, заметьте, что всего из двух геонов можно составить 36x36 различных объектов (сформировать объект можно из любых двух геонов — см. рис. 5.17б), а из трех геонов — 36x36x36 объектов. Эти два числа дают в сумме уже около 30 000, а еще надо учесть возможные объекты из четырех и более геонов. Кроме того, геоны, показанные на рис. 5.17а, различаются только своими простейшими признаками. Например, геон 2 на рис. 5.17а, куб, отличается от геона 3, цилиндра, тем, что у куба прямые края, а у цилиндра — изогнутые; прямые и изогнутые линии являются простыми признаками.
Рис. 5.17. Возможный набор признаков (геонов) естественных объектов. а) Клин, куб, цилиндр и конус могут быть признаками сложных объектов. б) Из комбинации признаков (геонов) получаются естественные объекты. Заметьте, что если дугу (геон 5) присоединить к цилиндру (геон 3), получается чашка; если же дугу присоединить к верху цилиндра, получится ведро (по: Biederman, 1990).
То, что геоны являются признаками объектов, подтвердилось в экспериментах, в которых испытуемым предлагалось распознать нарисованные объекты, предъявляемые на короткое время. Общий результат был таков, что объект распознается настолько хорошо, насколько хорошо воспринимаются его геоны. В одном эксперименте стиралась часть формы объекта; в одном случае стирание мешало восстановлению геонов (правая колонка на рис. 5.18), в другом — не мешало (средняя колонка на рис. 5.18). Объекты распознавались намного лучше, когда стирание не интерферировало с геонами.
Рис. 5.18. Распознавание объектов и восстановление геонов. Элементы, использовавшиеся в эксперименте по распознаванию объектов. В левой колонке показаны исходные интактные варианты объектов. В средней колонке показаны варианты объектов, у которых некоторые участки стерты, но восстановить геоны все же можно. В правой колонке — варианты объектов, где участки стерты так, что геоны невосстановимы. Варианты объектов из средней колонки распознавались лучше, чем из правой (по: Biederman, 1987).
Обычно в описание объекта входят не только его признаки, но и отношения между ними. Это хорошо видно из рис. 5.17б. Если дуга присоединена сбоку цилиндра, получается чашка; если же она подсоединена сверху цилиндра, получается ведро. После того как описание формы объекта составлено, оно сравнивается с массивом геонных описаний, хранящихся в памяти, с тем чтобы найти наилучшее соответствие. Такое сопоставление описаний формы объектов с описаниями, хранящимися в памяти, похоже на ранее упоминавшийся процесс распознавания букв и слов (Hummel & Biederman, 1992).