Классический УР — сокращение мигательной перепонки при действии тактильного или звукового УС — обычно изучают на кроликах. При действии на роговицу глаза безусловного раздражителя — воздушной струи (или слабого удара тока) — мигательная перепонка сокращается. Это сокращение можно регистрировать специальным прибором и оценивать его интенсивность. Если безусловное раздражение сочетать с каким-либо нейтральным стимулом, например звуком, то после нескольких сочетаний мигательная перепонка будет сокращаться уже при изолированном действии этого звука, который становится условным сигналом (см. рис. 2).
Рис. 3. Схема, показывающая избирательность ассоциаций между УС и подкреплением при формировании классических УР.
Стимулы | Последствия | |
рвота | боль | |
Сладкий вкус | формирование УР вкусового отвращения | УР не формируется |
Щелчок | УР не формируется | Формирование оборонительного УР |
2.2.3. Инструментальные условные рефлексы (или обучение методом проб и ошибок)
Начало исследований инструментальных УР связано с именем Э. Торндайка (см. 4.1), хотя их анализ проводился и в лаборатории И. П. Павлова.
В лаборатории И. П. Павлова «классические» УР носили название условных рефлексов 1-го рода, а инструментальные — условных рефлексов 2-го рода. В монографии Ю. Конорски (1969) на большом экспериментальном материале дается анализ сходства и различия между ними.
В опытах с «проблемными ящиками» Торндайк наблюдал, как посаженная в ящик кошка ищет выход, пытаясь открыть дверцу разными способами (рис. 3.4А) (для этого нужно было нажать на задвижку или потянуть за пружину). Кошка сначала совершает много разных действий (проб), которые в своем большинстве бывают неверными (ошибки), пока случайно не откроет яшик. При повторении опытов она выходит из ящика все быстрее и быстрее. Идея эксперимента была подсказана Торндайку К. Ллойдом-Морганом, наблюдавшим, как его собака манипулирует с задвижкой калитки, чтобы «улизнуть» из дома (рис. 3.5). Такое обучение Торндайк и назвал «методом проб и ошибок». В дальнейшем обучение животного подобным действиям получило название инструментальных (или оперантных) УР.
Торндайк первым предложил количественную оценку динамики обучения животного инструментальному навыку. Для этого он ввел так называемые «кривые научения», примеры которых приведены на рис. 4Б.
Между классическими и инструментальными УР существуют определенные различия.
Рис. 4. Инструментальные УР.
А — один из вариантов «проблемного ящика», предложенный Э. Торндайком для исследования способности животного к решению.задачи методом «проб и ошибок»; Б — примеры кривых научения при использовании этого метода. По оси ординат — время, затраченное на решение задачи, по оси абсцисс — последовательные предъявления теста.
При классических УР временная связь между условным сигналом и безусловной реакцией возникает непроизвольно при действии безусловного раздражителя (подкрепления).
При инструментальных УР подкрепление, например пища, дается только после того, как животное совершает определенное действие, которое не имеет прямой связи с безусловным раздражителем.
В классическом УР выделение слюны происходит в ответ на контакт пищи с рецепторами полости рта, и эта реакция может стать услов-норефлекторной. В отличие от этого при выработке инструментального УР пищевое подкрепление изначально никак не связано ни с протягиванием лапы, ни с побежкой в лабиринте. Однако мы можем давать животному пищу сразу после того, как оно сделало такое движение, и вскоре животное будет его совершать, чтобы получить подкрепление.
К категории инструментальных УР относится формирование навыка нажатия на рычаг (или клевания кнопки, как на рис. 3.6) для получения порции пищи. После работ Б.Скиннера этот УР стал основным в исследованиях бихевиористов (анализ связей «стимул-реакция»). К инструментальным УР относится также обучение подопытного животного находить путь к пище или избегать неприятных стимулов в лабиринте. Инструментальным УР является и реакция избегания — навык переходить в тот отсек экспериментальной камеры, где отсутствует болевое подкрепление (рис. 7).
Рис. 5. Рисунок, сделанный по фотографии «исторического» эпизода. Собака К. Л. Моргана научилась открывать задвижку калитки, получая тем самым возможность «обрести свободу». Эта ситуация считается прототипом торндайковского «проблемного ящика».
Рис. 6. Камера Б. Скиннера для обучения голубей.
В верхней части левой стенки камеры размещены 3 диска-«ключа». Они различаются не только по положению, но и по цвету лампочки, которая загорается за каждым из них. В кормушку (ниже) подают подкрепление. Клевание ключа (или, например, каждое 5-е клевание) автоматически подает зерно в кормушку.
Рис. 7. Челночные камеры для исследования у лабораторных крыс и мышей реакции активного избегания.
А — современная установка для изучения условной реакции активного избегания, которая обычно состоит из 4 челночных камер с автоматизированным управлением и выводом результатов на экран монитора; Б — отдельная челночная камера.
Включению тока предшествует включение УС — звука или света. Чтобы избежать болевого воздействия, животное перебегает в другую половину камеры. По прошествии небольшого периода времени (как правило, его длину варьируют, чтобы не вырабатывать у животного УР на время) ток включают в той половине камеры, куда оно перед этим перебежало. УР считается выполненным, если животное перебегает в безопасную половину камеры во время действия УС и до включения тока.
Обширные исследования, выполненные сторонниками идей бихевиоризма, привели к появлению целого ряда новых терминов и понятий и созданию специфического языка для описания закономерностей процесса обучения, обнаруженных только благодаря примененным ими подходам. Многие термины сначала использовались как чисто технические — для объективного описания данных (знакомство с ними может помочь при чтении научных статей бихевиористов). К таким терминам, в частности, относятся:
оперантное поведение — спонтанные действия, не вызванные каким-либо очевидным стимулом;
реактивное поведение — всякое поведение, которое совершается в ответ на определенный стимул;
режим подкрепления (reinforcement schedule): соотношение числа реакций (например, нажатий на рычаг) и вознаграждений (например, кусочков пищи; подробнее см. ниже);
постоянный (или переменный) интервал (fixed or variable interval) —
вознаграждение дается через определенные интервалы времени, в период которых животное может осуществлять двигательные реакции (эти интервалы могут быть постоянными или варьировать по длительности), но по истечении этого интервата подкрепляется только первая реакция;
фиксированное (или переменное) соотношение (fixed ratio or variable ratio) — подкрепление дается животному только после того, как оно произведет какое-то количество реакций (нажатий или клеваний. Можно давать подкрепление только после определенного числа реакций (фиксированное соотношение) или это число может каким-то образом варьировать (переменное соотношение);
смежность (contiguity) — этим термином обозначают постулируемое возникновение связей между стимулами и возникающими на их основе реакциями, а также совпадение УС с реакцией животного или УС с подкреплением, которое необходимо для возникновения УР;
ключ (сие) — обычно это либо рычаг, на который нажимает крыса, либо освещенный кружок, по которому наносит удар клювом голубь (этот термин, обычный для работ бихевиористов, не следует путать с термином «ключевой стимул», принятым в этологии для обозначения видоспецифических стимулов, вызывающих инстинктивные реакции (см. 2.11).
На рис. 6 схематически изображена камера для выработки инструментальных УР у голубей. Скиннер считал, что любое поведение, относящееся к категории «оперантное», можно модифицировать, если при его выполнении давать животному подкрепление. Именно такой подход он предложил как эффективный способ анализа поведения. Если для выработки классических УР необходимы сочетания условных сигналов и подкрепления, то при методике свободного оперантно-го поведения, предложенной Скиннером, экспериментатор сопровождает подкреплением выполнение животным только определенного, намеченного им действия.
Например, крысу можно обучить нажимать на рычаг, если сначала сопровождать подкреплением любые ее действия в той части камеры, где он находится. Постепенно крыса обучается держаться вблизи рычага, и тогда подкрепление дают только, если она касается рычага мордой или лапой (для этого иногда на рычаг даже кладут пишу). Через некоторое время подкрепление дается только после выполнения четких движений — нажатий (одного или нескольких) лапой на рычаг.