Если крысы научаются ассоциировать вкус с болезненными ощущениями потому, что это согласуется с их естественными способами выбора пищи, то, может быть, другим видам с иными способами выбора пищи будет трудно научиться ассоциировать вкус с болезненными ощущениями? Именно это и происходит. В естественных условиях птицы выбирают пищу по внешнему виду, а не по вкусу, и они легко научаются ассоциировать свет с болезнью, но не вкус с болезнью (Wilcoxin, Dragoin & Kral, 1971). Таким образом, здесь мы видим прекрасный пример того, как разные виды научаются одному и тому же (причине заболевания) различными способами. Короче, если мы хотим знать, что и чем можно обусловливать, нельзя брать УС и БУС порознь; мы должны рассмотреть их в сочетании и выяснить, насколько хорошо оно соответствует встроенным взаимосвязям. Такой вывод значительно отличается от того, что законы научения одинаковы для всех видов и ситуаций.
Оперантное обусловливание
В классическом обусловливании условная реакция часто напоминает обычную реакцию на безусловный стимул. Слюноотделение, например, — нормальная реакция собаки на пищу. Но если вы хотите научить организм чему-то новому, например научить собаку новому трюку, классическое обусловливание вам не поможет. Какой безусловный стимул заставит собаку сидеть или перекатываться? Чтобы обучить собаку, вам придется сначала убедить ее проделать нужный трюк, а потом вознаградить ее похвалой или пищей. Если продолжать так делать, собака со временем научится этому трюку.
Многое из поведения в реальной жизни похоже на это: реакциям научаются потому, что они действуют, или воздействуют на окружение. Такой тип научения, называемый оперантным обусловливанием, свойствен и человеку, и животным. Оставленный один в кроватке, ребенок может спонтанно брыкаться, вертеться или лопотать. Собака, оставшись одна в комнате, может метаться взад-вперед, что-то вынюхивать, может подобрать мячик, уронить его или поиграть с ним. Ни один организм не реагирует на появление или исчезновение конкретного внешнего стимула. Все они воздействуют на свое окружение. Но если организм уже осуществляет определенное поведение, вероятность того, что он повторит это действие, зависит от того, что следует за последним. Ребенок будет чаще лопотать, если за каждым таким действием следует родительское внимание, и собака будет чаще поднимать мячик, если за этим следует ласка или вознаграждение пищей. Если считать, что у ребенка есть цель вызвать родительское внимание, а у собаки цель — пища, то оперантное обусловливание сводится к научению тому, что определенное поведение ведет к достижению определенной цели (Rescorla, 1987).
Закон эффекта
Изучение оперантного обусловливания началось на рубеже нашего века с ряда экспериментов Торндайка (Е. L. Thorndike, 1898). Торндайк, на которого сильно повлияла дарвиновская теория эволюции, стремился показать, что научение у животных неотрывно от научения у человека. Типичный эксперимент проходил так. Голодного кота сажали в клетку, дверца которой была закрыта на простую задвижку, а совсем рядом с клеткой клали кусочек рыбы. Поначалу кот пытался добраться до рыбы, протягивая лапы между прутьев. Когда это не получалось, кот перемещался по клетке, предпринимая самые разные действия. В какой-то момент он случайно задевал задвижку, выходил на свободу и съедал рыбу. Затем кота сажали обратно в клетку и бросали снаружи новый кусочек рыбы. Кот совершал примерно ту же последовательность действий, пока ему опять не удавалось открыть задвижку. Эта процедура повторялась снова и снова. Продолжая пробы, кот отбрасывал многие бесполезные действия, постепенно достигая удачного открывания задвижки и выхода на свободу, как только его помещали в клетку. Этот кот научился открывать задвижку, чтобы получить пищу.
Все это выглядит так, как будто кот действует разумно, но Торндайк утверждал, что здесь присутствует мало «интеллекта». За все время не было такого момента, чтобы у кота появилась догадка о решении этой задачи. Вместо этого достижения кота постепенно улучшались с продолжением проб. Кот не догадывается, а просто ведет себя по типу проб и ошибок, и когда после совершения какого-то действия немедленно следует вознаграждение, научение этому действию закрепляется. Это закрепление Торндайк называл законом эффекта. Он утверждал, что при оперантном научении в силу закона эффекта из набора случайных реакций выбирается та, за которой идут положительные последствия. Этот процесс сходен с эволюцией, в которой закон выживания самого приспособленного выбирает из набора случайных вариаций вида именно те изменения, которые способствуют выживанию этого вида. Закон эффекта, таким образом, провозглашает выживание самых приспособленных реакций (Schwartz, 1989).
Эксперименты Скиннера
Б. Ф. Скиннер — виновник целого ряда изменений в представлениях о том, что такое оперантное обусловливание и как его изучать. Его метод исследования оперантного обусловливания был проще, чем у Торндайка (например, использовалась только одна реакция), и стал широко принятым.
<Рис. Б. Ф. Скиннер явился основоположником изучения оперантного обуславливания.>
Вариации эксперимента. В эксперименте Скиннера голодное животное (обычно крысу или голубя) помещают в ящик, подобный изображенному на рис. 7.6, с популярным названием «ящик Скиннера».
Рис. 7.6. Устройство для оперантного обусловливания. На фото показан ящик Скиннера с кассетой для подачи пищевых шариков. Компьютер используется для управления экспериментом и регистрации реакций крысы.
Ящик внутри пуст, если не считать выступающего рычага, под которым стоит тарелка для еды. Небольшая лампочка над рычагом может включаться по усмотрению экспериментатора. Оставленная одна в ящике, крыса передвигается и исследует его. Случайно она обнаруживает рычаг и нажимает на него. Частота, с которой крыса вначале нажимает на рычаг, — фоновый уровень. После установления фонового уровня экспериментатор запускает в действие кассету с пищей, расположенную снаружи ящика. Теперь каждый раз, когда крыса нажимает на рычаг, небольшой шарик пищи выпадает в тарелку. Крыса съедает его и вскоре снова нажимает на рычаг; пища подкрепляет нажатие на рычаг, и частота нажатий стремительно растет. Если кассету с пищей отсоединить, так что при нажатии на рычаг пища больше не подается, частота нажатий будет уменьшаться. Следовательно, оперантно обусловленная реакция (или просто операнта) при неподкреплении угасает точно так же, как и классически обусловленная реакция. Экспериментатор может установить критерий дифференцировки, подавая пищу только тогда, когда крыса нажимает на рычаг при горящей лампочке, и тем самым вырабатывая условную реакцию у крысы путем избирательного подкрепления. В этом примере свет служит дифференцировочным стимулом, который контролирует реакцию.
Итак, оперантное обусловливание повышает вероятность некоторой реакции, когда определенное поведение сопровождается подкреплением (обычно в виде пищи или воды). Поскольку в ящике Скиннера рычаг присутствует всегда, крыса может нажимать на него так часто или не часто, как сама выберет. Таким образом, частота реакции служит удобной мерой силы операнты: чем чаще совершается реакция за данный временной интервал, тем больше ее сила.
Следует указать на отношение между терминами «вознаграждение» и «наказание», с одной стороны, и «положительное» и «отрицательное подкрепление», с другой. Термин «вознаграждение» может использоваться синонимично с термином «положительный подкрепляющий фактор» — событие, которое увеличивает вероятность той или иной формы поведения, если оно следует за данной формой поведения. Однако наказание — это не то же самое, что отрицательный подкрепляющий фактор. Термин «отрицательное подкрепление» означает прекращение наступления нежелательных событий, следующих за той или иной формой поведения; как и положительное подкрепление, оно увеличивает вероятность соответствующей формы поведения. Наказание же имеет противоположный эффект: оно уменьшает вероятность наказуемого поведения. Наказание также может быть как положительным (воздействие неприятного стимула), так и отрицательным (лишение положительного стимула) (см. табл. 7.3).
Таблица 7.3. Типы подкрепления и наказания
Тип | Определение | Эффект | Пример |
Положительное подкрепление | Приятный стимул, следующий за желательной формой поведения | Увеличивает вероятность желательной формы поведения | Высокая оценка на экзамене |
Отрицательное подкрепление | Прекращение воздействия неприятного стимула вслед за желательной формой поведения | Увеличивает вероятность желательной формы поведения | Разрешение ребенку пойти погулять после того, как он прекратил истерику |
Положительное наказание | Воздействие неприятного стимула вслед за нежелательной формой поведения | Уменьшает вероятность нежелательной формы поведения | Низкая оценка на экзамене |
Отрицательное наказание | Прекращение воздействия приятного стимула вслед за нежелательной формой поведения | Уменьшает вероятность нежелательной формы поведения | Запрещение смотреть телевизор ребенку, который плохо себя ведет |
Применение к воспитанию детей. Хотя в оперантном обусловливании любимыми экспериментальными животными были крысы и голуби, оно применимо ко многим биологическим видам, включая нас самих. Действительно, оно может многое сказать нам о воспитании детей. Особенно ярким примером этому служит такой случай. У маленького мальчика были вспышки гневного раздражения, если он не получал достаточно внимания от родителей, особенно перед сном. Поскольку родители рано или поздно откликались, проявляемое ими внимание подкрепляло гнев ребенка. Чтобы снять эту гневную раздражительность, родителям посоветовали выполнять обычный ритуал укладывания спать, а затем игнорировать протесты ребенка, хотя это и может быть болезненно. При воздержании от подкрепления (уделения внимания) вспышки гнева должны угасать; именно это и произошло. Всего за 7 дней время, в течение которого этот ребенок плакал в постели, сократилось с 45 минут до нуля (Williams, 1959).