При таком подходе решающее значение имеет форма подачи подкрепления. В основном, Б. Скиннер заимствовал методы работы с подкреплением И.П. Павлова, хотя и модифицировал их формы. Например, награждением по постоянному соотношению называется подкрепление голубя при каждом третьем клевании ключа. Вариаций форм подкрепления Б. Скиннер ввел очень много, что позволило ему добиться выработки очень сложного оперантного поведения. Он считал, что у его методики подачи подкрепления вообще нет пределов влияния на поведение животных, а их оперантным действиям можно придавать любую форму. Впоследствии это не подтвердилось. Многих животных не удается научить даже простым действиям, поскольку оперантная задача вступает в конфликт с инстинктивным поведением (3).
8. Методика выработки оперантного условного рефлекса
Процедура инструментального научения состоит в том, что положительное или отрицательное подкрепление подается при определенной реакции животного - “правильной” или “неправильной” с точки зрения экспериментатора.
Инструментальное научение классифицируется в зависимости от применяемых методик.
а) “Пробы и ошибки” по-Торндайку. Методика разработана в 1898 году. Проблемная клетка (проблемный ящик) Торндайка представляет собой клетку, которую можно открыть изнутри, нажав на рычаг. Заключенные в клетке животное первоначально пытается убежать, хаотично и безостановочно двигаясь по клетке, но через некоторое время случайно нажимает на рычаг и открывает дверцу. Животное вновь возвращают в клетку. Вторая и третья попытки животного выйти из клетки могут быть случайным повторением, но постепенно животное сосредотачивает свое поведение около рычага. После ряда проб животное, как его только запирают в клетке, нажимает на рычаг и освобождается. Животное учится исключать из своего поведения все, что не ведет к подкреплению и увеличивает число двигательных реакций, которые при предыдущих попытках приводили к подкреплению. Но в начале опыта в поведении животного нет определенной системы - первое подкрепление животное получает случайно.
“Закон эффекта” Торндайка гласит: “Для реакции, за которой следует вознаграждение или состояние удовлетворения, вероятность повторения возрастает, а для реакции, вызывающей вредное или неприятное последствие, вероятность повторения снижается”.
Большинство современных психологов соглашаются с тем, что для объяснения поведения взрослого человека “закон эффекта” имеет ограниченную сферу применения.
б) Свободно-оперантная методика по Скиннеру. Это вариация методики, примененной Торндайком. Отличие от методики “проб и ошибок” в том, что животное подвергается не отдельным пробам, а может совершать любую реакцию в любое время. Обычно в инструментальной установке находится приспособление, например, рычаг, на которое животное должно воздействовать. В опытах, проведенных Скиннером в 1938 году, лабораторная крыса нажимает на рычаг и получает пищу. В начале опыта животное не совершает требуемую реакцию, но за поведение, приближающееся к реакции, которую хотят сформировать, подкрепление получит. Вначале подкрепляется нахождение крысы в той части клетки, где расположен рычаг. Затем подкрепляют поднимание лапы по направлению к рычагу. Постепенно требования к реакции, заслуживающей подкрепления, повышаются. В конечном итоге подкрепляют уже само нажатие на рычаг.
Интересные исследования по выработке оперантных реакций у дельфинов были проведены американской исследовательницей Прайер. В каждой серии проб подкреплялись различные реакции. После того, как какая-либо реакция подкреплялась, в последующих сериях эта реакция уже не позволяла животному получить подкрепление. Когда был исчерпан весь репертуар реакций, на которые способны дельфины, животные стали вырабатывать множество новых, “творческих” реакций.
в) Методики с отрицательным подкреплением. Животное должно вести себя так, как установлено экспериментатором, чтобы избежать болевых стимулов. В наиболее распространенном варианте этой методики используется челночная камера. Она состоит из двух отделений, окрашенных в разные цвета. Отделения сообщаются между собой проемом. Процедура начинается с ряда проб, сопровождающихся сигналом, например, зуммером. Животному дается несколько секунд, чтобы покинуть стартовую камеру и перейти в другую часть установки. Если животное этого не сделает, оно получит удар электротоком через электроды на полу камеры. По мере повторения ряда проб процент успешных избеганий растет. Было показано, что даже среди близкородственных видов животных успешнее обучаются те животные, которые в природе ведут более активный образ жизни.
г) Выработка дифференцировки. В этих опытах животному предлагают два или несколько стимулов и предоставляют возможность как-нибудь реагировать. Реакции на один из стимулов подкрепляются, на другие - нет. Научение состоит в повышении процента реакций на “правильный” стимул. Например, обезьяна будет всегда получать банан, если будет из двух предъявляемых стимулов выбирать стимул красного цвета. Существует очень много вариантов выработки дифференцировки. Некоторые задачи способны решить только животные с достаточно развитым интеллектом.
· Одновременная дифференцировка. Все стимулы предъявляются в одно и тоже время. Задача животного - выбрать правильный стимул.
· Последовательная дифференцировка. Стимулы предъявляются по одному. Животное должно тормозить реакцию в присутствии неправильного стимула.
· Переделка дифференцировки. Значение положительного стимула меняется от одной задачи к другой. Например, животное должно выбирать между красным и зеленым стимулом, причем красный - положительный. Через некоторое время, не информируя животное, начинают подкреплять зеленый стимул. Многие виды животных обнаруживают способность улучшать решение таких задач при их повторении, то есть вырабатывают установку на научение.
· Отсроченные реакции дифференцировки. Приманку на глазах у животного помещают под один из двух предметов. Через длительный промежуток времени животное должно выбрать стимул, который подкрепляется.
д) Научение в лабиринте. Это одна из форм дифференцировок. Первый лабиринт для крыс построил Уильям Смолл в 1900 году. Простейший лабиринт напоминает по форме буквы У или Т. Животное должно идти прямо до точки выбора. Сложные лабиринты имеют много точек выбора. Путь через лабиринт представляет чаще всего дорогу в гнездо крысы или, реже, дорогу к корму. Иногда нахождение “правильного” пути подкрепляется возможностью крысы убить мышь.
В опытах с лабиринтами фиксируются время решения задачи и число ошибок, то есть число тупиков, в которые заходила крыса. Была обнаружена интереснейшая закономерность - число ошибок начинает падать вначале обучения вблизи конца пути, у цели, и лишь затем - в начале лабиринта. Постепенно крысы научаются выбирать кратчайший путь к цели.
е) Научение решению задач на абстрактные понятия. Опыты проводятся на приматах. Под абстрактным понимается частичное свойство воспринимаемого, общее по крайней мере для двух объектов, различных по другим своим характеристикам. Абстрактное понятие люди обозначают словом, например: “больший” или “черный” или “квадрат”. У животных нет описательного языка, следовательно, у них нет понятий, тем не менее, многие приматы способны решать задачи на дифференцировку стимулов, отличающихся абстрактным признаком. Например, из серии предъявляемых стимулов, чтобы получить подкрепление, обезьяна должна выбирать стимул, больший по размеру, причем относительно больший.
Обезьян также научали выбирать стимул по признаку отличия. Животному предъявляли три стимул-объекта, два из которых одинаковы. Чтобы получить подкрепление, обезьяна должна была выбрать “третий лишний”. Ставились задачи на выбор по образцу. Наконец, давались задачи на чередование. Животное должно по очереди выбирать то один, то другой объект (например, то правый, то левый). Более сложными задачами, с которыми приматы все же справлялись, были задачи на двойное и тройное чередование, а также задачи чередования отсроченных реакций.
9. Режимы подкрепления
В контексте учения о высшей нервной деятельности подкреплением называется сочетание безусловного раздражителя, вызывающего биологически значимую реакцию, с предваряющим ее индифферентным стимулом, что приводит к формированию классического условного рефлекса. В качестве подкрепляющего рассматривают любой стимул, увеличивающий вероятность определенной реакции или формы поведения.
Ряд видов научения требует подкрепления. При инструментальном научении подкреплением служат награда или наказание. В отдельных видах научения человека подкреплением является просто информация о том, правильны или нет его действия.
Вторичное подкрепление. В ходе ассоциативного научения некоторые сигналы, которые изначально не имели никакой ценности или не говорили об опасности, соединяются в сознании с событиями, обладающими ценностью или связанными с опасностью. Если это происходит, сигналы или события, ранее носившие нейтральный характер, начинают сами действовать как поощрение или наказание; такой процесс носит название вторичного подкрепления. Классический пример вторичного подкрепления — деньги. Животные в ящике Скиннера готовы нажимать на рычаг, чтобы завладеть специальными жетонами, обмениваемыми на пищу, или добиться того, что начнет звонить звонок, со звуком которого они приучены отождествлять появление еды. Научение, приводящее к избеганию, иллюстрирует вариант вторичного подкрепления через наказание. Животное выполняет определенные действия при появлении сигнала, который, хотя сам и не является неприятным, постоянно сопровождает какое-то неприятное событие. Например, собака, которую часто бьют, съеживается и обращается в бегство, стоит ее хозяину поднять руку, хотя в самой по себе поднятой руке ничего опасного нет. При использовании для контроля за поведением положительного и отрицательного вторичного подкрепления нет необходимости в частом фактическом поощрении или наказании. Так, когда животных дрессируют по методу последовательных приближений, подкреплением при каждой попытке обычно служит лишь щелкающий звук, который до этого регулярно сопровождал появление пищи.