Рис. 7.8. Типичные схемы реакций на четыре основные режима подкрепления. Каждая кривая отображает совокупное число реакций животного в зависимости от времени; наклон кривой отражает частоту его реакций. Кривые слева относятся к пропорциональному режиму. Обратите внимание на горизонтальные участки кривой для режима с ФП: они соответствуют паузам (нет роста совокупного числа реакций). Кривые справа отображают условия интервального режима. Кривая для режима с фиксированным интервалом (ФИ) опять содержит горизонтальные участки, соответствующие паузам (по: Schwartz, 1989). ФП — фиксированная пропорция; ПП — переменная пропорция, ФИ — фиксированный интервал; ПИ — переменный интервал.
При режиме с переменной пропорцией (ПП) подкрепление также дается после совершения определенного количества реакций, но их число варьируется непредсказуемо. Так, при режиме ПП 5 количество реакций, требуемых для подкрепления, иногда составляет 1, иногда 10, а в среднем 5. В отличие от поведения при режиме с ФП, при режиме с ПП не наблюдается пауз в росте реакций (см. левую часть рис. 7.8), предположительно потому, что у организма нет возможности определить, что подкрепление появится нескоро. Хороший пример режима с ПП в повседневной жизни — работа игрового автомата. Количество реакций (игр), необходимое для выдачи подкрепления (выигрыша), все время меняется, и у игрока нет способа предсказать, когда последует подкрепление. Режим ПП может порождать очень высокую частоту реакций (как, видимо, и рассчитали владельцы казино).
Помимо пропорциональных существуют интервальные режимы, в которых подкрепление выдается только по прошествии определенного времени. Такие режимы тоже бывают фиксированными и переменными. При фиксированном интервале (ФИ) организм получает подкрепление за первую реакцию по прошествии определенного времени с момента ее последнего подкрепления. Например, при режиме ФИ 2 (2 минуты) подкрепление дается только по истечении 2 минут после последней подкрепленной реакции; реакции в течение этого двухминутного интервала проходят без последствий. Особенность реагирования при режиме ФИ — пауза, возникающая сразу после подкрепления (она может быть даже длиннее, чем пауза при режиме ФП). Еще одна особенность реагирования при режиме ФИ — это возрастание частоты реакций по мере приближения окончания периода (см. правую часть рис. 7.8). Хороший пример режима ФИ в повседневной жизни — доставка почты, которая приходит только раз в день (ФИ 24 часа) или, в некоторых местах, дважды в день (ФИ 12 часов). Так, сразу после доставки почты вы не будете ее проверять снова (у вас пауза), но по мере приближения окончания интервала доставки почты вы снова начинаете ее проверять.
При режиме с переменным интервалом (ПИ) вознаграждение все еще зависит от прошествия определенного интервала, но его длительность колеблется непредсказуемо. При расписании ПИ 10 (10 минут), например, критический интервал иногда может быть 2 минуты, иногда 20 и т. д. при средней величине 10 минут. Если при режиме ФИ частота реакций меняется, то при режиме ПИ 1 организмы реагируют с одинаково высокой частотой (см. правую часть рис. 7.8). В качестве примера режима ПИ в повседневной жизни можно привести дозванивание по занятому номеру. Чтобы получить подкрепление (дозвониться), надо подождать какое-то время после последней реакции (набора номера); сколько придется ждать в целом — непредсказуемо (см. табл. 7.4).
Таблица 7.4. Режимы подкрепления
Пропорциональные режимы | |
Режим с фиксированной пропорцией | Подкрепление дается после определенного количества реакций |
Режим с переменной пропорцией | Подкрепление дается после определенного количества реакций, количество которых непредсказуемо варьируется |
Интервальные режимы | |
Режим с фиксированным интервалом | Подкрепление дается через определенное время, прошедшее после предыдущего подкрепления |
Режим с переменным интервалом | Подкрепление дается через определенное время, прошедшее после предыдущего подкрепления, при этом продолжительность интервалов непредсказуемо варьируется |
Обусловливание неприятными стимулами
Мы говорили о подкреплении так, будто оно всегда положительное (пища, например). Но отрицательные или неприятные события, например удар током или невыносимый шум, тоже часто используются для обусловливания. Существуют различные виды обусловливания неприятными стимулами, в зависимости от того, применяются ли они для ослабления имеющейся реакции или для заучивания новой. [Стоит обратить внимание на соотношение терминов вознаграждение и наказание, с одной стороны, и положительное и отрицательное подкрепление, с другой. Вознаграждение может использоваться как синоним положительного подкрепления — события, появление которого вслед за реакцией повышает вероятность этой реакции. Но наказание — это не то же самое, что отрицательное подкрепление. Последнее означает прекращение неприятного события вслед за реакцией. Наказание имеет противоположный эффект: оно уменьшает вероятность реакции. — Прим. автора.]
Наказание. При тренировках с наказанием за реакцией следует неприятный стимул или событие, что ведет к ослаблению реакции или подавлению последующих ее проявлений. Предположим, маленький ребенок, который учится пользоваться цветными карандашами, начинает рисовать на стене (это нежелательная реакция); если его шлепают по руке, когда он это делает (наказание), он научается так не делать. Сходным образом, если крыса, которая учится проходить лабиринт, получает удар током каждый раз, когда она идет не туда, она скоро научится избегать прошлых ошибок. В обоих случаях наказание используется для снижения вероятности нежелательного поведения. [Другими словами, происходит угасание ориентировочной реакции на безусловный стимул. — Прим. ред.]
Наказание может подавить нежелательную реакцию, но у него есть несколько недостатков. Во-первых, его эффект не столь предсказуем, как эффект вознаграждения. Вознаграждение, по сути, говорит: «Повтори то, что ты уже сделал»; наказание говорит «Перестань!» и не может предложить альтернативу. В результате организм может заменить наказываемую реакцию еще менее желательной. Во-вторых, побочные результаты наказания могут оказаться вредными. Наказание часто ведет к антипатии или страху перед наказывающим человеком (родителем, учителем или нанимателем) и перед самой ситуацией (домом, школой или офисом), где происходило наказание. Наконец, крайне суровое или болезненное наказание может вызвать агрессивное поведение, более серьезное, чем первоначальное нежелательное.
Эти предостережения не означают, что наказание никогда не должно применяться. Оно может эффективно снимать нежелательную реакцию, если другая реакция вознаграждается. Крысы, которые научились находить более короткий из двух путей в лабиринте, чтобы добраться до пищи, быстро переключаются на более длинный, если в коротком пути их бьет током. Временное подавление, вызываемое наказанием, дает крысе возможность научиться идти длинным путем. В этом случае наказание служит эффективным средством переориентировать поведение, поскольку оно информативно, а это и есть ключ к гуманному и эффективному применению наказания. Ребенок, который получил удар током от электроприбора, может научиться тому, какие соединения безопасны, а какие — нет.
<Рис. Угроза наказания — эффективное средство мотивации. Надпись на дорожном знаке: НЕ СИГНАЛИТЬ. Штраф 50$.>
Избегание и предотвращение. Неприятные события могут также использоваться при научении новым реакциям. Организм может научиться реагировать так, чтобы прекратить неприятное событие, например, когда ребенок научается закрывать кран, чтобы горячая вода не лилась в его ванну. Это называется научением избеганию событий. Организм может реагировать и так, чтобы предотвратить неприятное событие до его начала, например, когда мы научаемся останавливаться на красный свет, чтобы предотвратить несчастные случаи (и получение штрафных квитанций). Это называется научением предотвращению событий.
Научение избеганию часто предшествует научению предотвращать события. Это иллюстрирует следующий эксперимент. Крысу помещают в ящик, состоящий из двух отделений, разделенных барьером. В каждой пробе животное помещают в одно из отделений. В некоторый момент звучит предупреждающий звук, а пять секунд спустя к полу этого отделения подается ток; чтобы уйти от удара током, животное должно перепрыгнуть через барьер в другое отделение. Первоначально животное делает это, когда ток уже включен, — здесь имеет место научение избеганию. Но по мере тренировки животное научается прыгать, услышав предупредительный звук, и тем самым целиком избегает удара током — это научение предотвращению.