Instrumentelle und operante Konditionierung

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
Konsequenzen
positive und negative Verstärkung
positive und negative Bestrafung
SR-Modell
SOR-Modell
SORKC-Modell
Methoden
klassische Konditionierung
Gegenkonditionierung
operante Konditionierung
Extinktion
Shaping
Chaining
Fading
Time-out-Technik
Response-Cost
Token-System
Premack-Prinzip
Diskriminationslernen
Stimuluskontrolle
Kontingenzmanagement
Theorien
Verstärker-Verlust-Theorie
Zwei-Faktoren-Theorie
Zwangsprozess

Instrumentelle und operante Konditionierung, auch Lernen am Erfolg genannt,[1] sind Paradigmen der behavioristischen Lernpsychologie und betreffen das Erlernen von Reiz-Reaktions-Mustern (Stimulus-Response) aus ursprünglich spontanem Verhalten. Die Häufigkeit eines Verhaltens wird durch seine angenehmen (appetitiven) oder unangenehmen (aversiven) Konsequenzen dauerhaft verändert. Das bedeutet, dass erwünschtes Verhalten durch Belohnung verstärkt und unerwünschtes Verhalten durch Bestrafung unterdrückt wird.

Man unterscheidet diese Art des Lernens von der klassischen Konditionierung, die ausgelöstes Verhalten betrifft (der lernende Organismus hat keine Kontrolle über den Reiz oder seine Reaktion).

Thorndikes Modell

[Bearbeiten | Quelltext bearbeiten]

Die Erforschung der instrumentellen Konditionierung begann mit den Tierversuchen, die Edward Lee Thorndike im Rahmen seiner 1898 publizierten Dissertation an der Columbia University durchführte. Er setzte Hühner, Katzen und Hunde in von ihm gebaute Rätselkäfige (puzzle boxes) verschiedener Schwierigkeitsgrade und maß die Zeit, die die Versuchstiere zu ihrer Befreiung benötigten. Als Anreiz legte er Futter neben den Käfig, das für die Tiere sichtbar war. Nachdem das Tier erfolgreich gewesen und mit Futter belohnt worden war, setzte er es wieder in den Käfig und maß erneut die Zeit bis zu dessen Öffnung (sog. discrete trial procedure). Eine Katze benötigte bei einer einfachen puzzle box im Durchschnitt anfangs 160 Sekunden, wurde immer schneller und schaffte es nach 24 Versuchen, den Käfig innerhalb von nur noch 7 Sekunden zu öffnen. Die Ergebnisse seiner Versuche fasste Thorndike in seinem „Gesetz der Wirkung“ (law of effect) zusammen:

“Of several responses made to the same situation, those which are accompanied or closely followed by satisfaction to the animal will, other things being equal, be more firmly connected with the situation, so that, when it recurs, they will be more likely to recur; those which are accompanied or closely followed by discomfort to the animal will, other things being equal, have their connections with that situation weakened, so that, when it recurs, they will be less likely to occur.”

„Von mehreren Reaktionen auf dieselbe Situation werden unter im übrigen gleichen Umständen jene Reaktionen, die von einer Befriedigung des Tieres begleitet sind oder denen eine solche rasch folgt, stärker mit der Situation verbunden, sodass sie, wenn die Situation erneut eintritt, mit größerer Wahrscheinlichkeit wiederkehren; diejenigen Reaktionen, die von einem Unbehagen des Tieres begleitet sind oder denen ein solches rasch folgt, erfahren unter im übrigen gleichen Umständen eine Abschwächung ihrer Verbindung mit dieser Situation, sodass sie, wenn die Situation erneut auftritt, mit geringerer Wahrscheinlichkeit wiederkehren.“

Edward Lee Thorndike: „Gesetz der Wirkung“ (Law of Effect), Diss., 1898

Thorndikes Reiz-Reaktions-Modell bildete zusammen mit Pawlows Experimenten zur Klassischen Konditionierung die Grundlage für den von John B. Watson begründeten Behaviorismus, welcher jahrzehntelang die psychologische Forschung beherrschen sollte.

Geprägt wurde die behavioristische Forschung von niemandem so sehr wie von Burrhus Frederic Skinner, der Thorndikes und Watsons Arbeit fortsetzte und weiterentwickelte. Seine Käfige, die Skinner-Boxen, bieten die Möglichkeit, das Zielverhalten (z. B. das Drücken eines Hebels) jederzeit auszuführen (sog. free operant procedure). Nach einem festgelegten Verstärkerplan hat dieses Verhalten für das Tier bestimmte Konsequenzen.

Unterschied zwischen instrumenteller und operanter Konditionierung

[Bearbeiten | Quelltext bearbeiten]

Die Bezeichnung instrumentelle Konditionierung wird meistens mit operanter Konditionierung gleichgesetzt, was jedoch nicht korrekt ist:[2][3]

  • Bei der instrumentellen Konditionierung wird die Verstärkung oder Abschwächung von instrumentellem Verhalten betrachtet. Das Verhalten wird also als Instrument (= Mittel, Werkzeug) eingesetzt, um etwas herbeizuführen. Damit bezweckt dann ein Lebewesen, ein bestimmtes Ziel zu erreichen, und hat entweder Erfolg oder nicht. Je nach dem Resultat (outcome) wird es beim nächsten Mal wieder dasselbe oder eher ein anderes Verhalten zeigen.
  • Bei der operanten Konditionierung wird beliebiges spontanes Verhalten betrachtet, das von einem Lebewesen auch unbeabsichtigt oder rein zufällig gezeigt werden kann und ohne weitere Bedingungen (wie z. B. das Vorhandensein eines Problems) wiederholt werden kann.

Da Behavioristen sich auf Beobachtbares beschränken (vgl. Empirismus), fassen sie alle inneren Zustände – zum Beispiel Wahrnehmungen, Emotionen und Gedanken – in einer sogenannten Black Box zusammen. Auf diese Black Box wirken der behavioristischen Theorie zufolge Umweltreize („Stimuli“) dergestalt ein, dass sie ein Verhalten (Response) hervorrufen. Das Verhalten wird demnach als eine Antwort auf Reize aufgefasst, und diese Antwort hat eine Konsequenz. Wenn in einem bestimmten Kontext (Stimulus) ein beliebiges Verhalten gezeigt wird, dann ist es möglich, dass dieses Verhalten künftig (unter gleichen Umständen) häufiger ausgeführt wird (was darauf schließen lässt, dass die Konsequenz „angenehm“ war), oder es wird seltener (was darauf schließen lässt, dass die Konsequenz „unangenehm“ war). Im ersten Fall spricht man von „Verstärkung“, im zweiten Fall von „Bestrafung“.

Die Zuordnungen „angenehm/unangenehm“ bzw. „appetitiv/aversiv“ sind nicht als subjektiv erlebte Zustände zu verstehen – als solche hätten sie in einer behavioristischen Theorie keinen Platz –, sondern als Ausdruck dafür, ob diese Zustände gesucht oder gemieden werden. Thorndike definierte wie folgt: „Mit einem angenehmen Zustand ist ein solcher gemeint, den das Tier nicht meidet, oft sogar aufsucht und aufrechterhält. Mit einem unangenehmen Zustand ist ein solcher gemeint, den das Tier für gewöhnlich meidet oder verlässt.“[4]

Verstärkung besteht darin, dass die Konsequenz des Verhaltens das Auftreten eines angenehmen Reizes („positive Verstärkung“) oder das Verschwinden eines unangenehmen Reizes ist („negative Verstärkung“). Umgekehrt besteht Bestrafung darin, dass die Konsequenz das Auftreten eines unangenehmen Reizes („positive Bestrafung“) oder das Verschwinden eines angenehmen Reizes ist („negative Bestrafung“, omission training oder „DRO“ = differential reinforcement of other behavior).

Diskriminative Hinweisreize (Signalreize) sind Reize, die bestimmte Verhaltenskonsequenzen signalisieren. Beispiel: Eine Ratte erhält nur dann eine Belohnung (Futter), wenn zuvor eine Lampe aufgeleuchtet hat.

Kontingenzschema

[Bearbeiten | Quelltext bearbeiten]
Vier Fälle des operanten Konditionierens: positive Verstärkung, negative Verstärkung, Bestrafung Typ I und Bestrafung Typ II

In der Lerntheorie, anders als etwa in der Philosophie und der Soziologie, bezeichnet Kontingenz (spätlat. contingentia „Möglichkeit“) die unmittelbare und regelmäßige Konsequenz (lat. consequi „folgen, erreichen“), d. h. Folge von Verhalten. Hinsichtlich der operanten Konditionierung unterscheidet man die vier klassischen Grundformen der Kontingenz:

  1. Positive Verstärkung ist die Erhöhung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten eine angenehme (appetitive) unmittelbare Konsequenz bewirkt (z. B. Anerkennung, Achtung, Nahrung, Geld).
  2. Negative Verstärkung ist die Erhöhung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten eine unangenehme (aversive) unmittelbare Konsequenz verhindert oder beendet (z. B. jeweils das Entfernen von Lärm, grellem Licht, Hitze oder Kälte).
  3. Positive Bestrafung ist die Senkung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten eine unangenehme (aversive) unmittelbare Konsequenz bewirkt (z. B. Lärm, grelles Licht, Hitze oder Kälte, Stromschlag).
  4. Negative Bestrafung ist die Senkung der Auftretenswahrscheinlichkeit eines Verhaltens, wenn das Verhalten eine angenehme (appetitive) unmittelbare Konsequenz verhindert oder beendet (z. B. die Entziehung von Futter, Wärme, Zuneigung, Weihnachtsgeld). Negative Verstärkung und Bestrafung werden häufig miteinander verwechselt. Das Wort negativ bezeichnet nur die Entfernung einer Konsequenz, nicht deren Beschaffenheit.
Kontingenzschema der instrumentellen & operanten Konditionierung
Konsequenz dargeboten Konsequenz fällt weg
Angenehme Konsequenz positive Verstärkung negative Bestrafung

(Entzugsbestrafung)

Unangenehme Konsequenz positive Bestrafung

(Präsentationsbestrafung)

negative Verstärkung

Negative Verstärkung hat klinisch die größte Bedeutung, da sie zur Aufrechterhaltung von Vermeidungsverhalten z. B. bei phobischen Störungen und Zwangsstörungen in höchstem Maße beiträgt: Die Patienten unternehmen alles, um einen als aversiv empfundenen Zustand (enge Räume, ungewaschene Hände o. Ä.) zu meiden und können deshalb nicht die Erfahrung machen, ob sie den Zustand inzwischen auszuhalten bzw. die Situation zu meistern vermögen.

Wenn weder positiv noch negativ verstärkt wird, kommt es zu einer Löschung des Verhaltens. Die Löschung ist nicht mit dem Entzug eines positiven Verstärkers (negativer Bestrafung) zu verwechseln.[5][6]

Primäre und sekundäre Verstärker

[Bearbeiten | Quelltext bearbeiten]

Verstärker bewirken beim operanten Konditionieren, dass das Auftreten einer bestimmten Reaktion (sog. instrumentelle oder operante Reaktion) begünstigt oder erschwert wird. Sie können recht Unterschiedliches sein, z. B. ein wenig Schokolade oder Geld, ein Lächeln, ein Schulterklopfen oder ein Kopfnicken (soziale Verstärker). Was letztlich als Verstärker fungieren kann, hängt von dem Organismus ab, bei dem eine bestimmte Verhaltensweise verstärkt wird bzw. verstärkt werden soll. Relevant ist, ob die Verstärker kontingent (also unmittelbar, erkennbar, regelhaft) und motivationsadäquat sind und ob sie Bedürfnisse (z. B. das nach Nahrung oder das nach Aktivität) befriedigen. Im Fall eines Verstärkers, der erst Stunden oder gar Monate nach der gewünschten Reaktion eintritt, ist unter Umständen nicht mehr erkennbar, wofür er vergeben wurde, und er hat deshalb oft keine Wirkung (vgl. indes: jährlich ausgezahlte Bonuszahlungen). Auch wird beispielsweise eine satte Ratte nichts mehr unternehmen, um eine Futterpille zu bekommen, weil die sogenannte Bedürfnisspannung fehlt. Um einer Verfettung von Laborratten vorzubeugen, benutzt man in der Forschung Erkenntnisse der Klassischen Konditionierung: Der Reiz „Verstärker“ (hier: Futter) wird mit einem anfangs neutralen Reiz (z. B. einem Pfiff) gekoppelt, wodurch der Pfiff durch klassische Konditionierung zum bedingten Reiz wird, der dann – wie Futter – ebenfalls die Wirkung einer Belohnung hat (diskriminativer Hinweisreiz). Man unterscheidet verschiedene Arten von Verstärkern. Zwei klassische Arten sind: primäre Verstärker und sekundäre Verstärker.

Primäre Verstärker sind jene Verstärker, die bereits von Geburt an wirken. Laut Miller und Dollard wirkt jede Reduktion eines allzu intensiven Reizes als primäre Verstärkung. Primäre Verstärker sind beispielsweise Essen und Trinken, da sie Hunger und Durst reduzieren, aber auch Körperkontakt ist ein primärer Verstärker.

Sekundäre Verstärker (siehe auch: Token-System) dagegen sind gelernte Verstärker. Sie sind also zunächst neutrale Reize, die durch die wiederholte Kopplung mit primären Verstärkern die Qualität von sekundären Verstärkern erhalten. Ein Beispiel für ein sekundären Verstärker ist Geld, denn damit dieses verstärkend wirken kann, muss seine Funktion erst durch Erfahrung gelernt werden. Zunächst ist Geld ein völlig neutraler Reiz, bis gelernt wird, dass es der Befriedigung von Bedürfnissen dienen kann.

Token-Konditionierung

[Bearbeiten | Quelltext bearbeiten]

Ähnlich wie bei sekundären Verstärkern gibt es das Prinzip, für eine Verstärkung sogenannte Token zu vergeben. Diese können dann später – nach ausreichender Akkumulation von Token – gegen andere Dinge, Handlungen, Dienstleistungen usw. eingetauscht werden. Häufig findet das Prinzip bei der Verhaltensformung Anwendung, wenn in therapeutischen Einrichtungen das Verhalten der Patienten in einer bestimmten Art und Weise geformt werden soll.

Premack-Prinzip

[Bearbeiten | Quelltext bearbeiten]

„Die Gelegenheit zu wahrscheinlicherem Verhalten kann weniger wahrscheinliches Verhalten verstärken.“ (David Premack, 1962[7]) Verhalten, das gerne und häufig gezeigt wird, hat eine verstärkende Wirkung auf Verhalten, das weniger gern und häufig gezeigt wird. Man denke sich zum Beispiel ein Kind mit einem Nachmittag zur freien Verfügung. Wenn man es vor die freie Wahl zwischen „Fernsehen“, „Hausaufgaben machen“ und „Zimmer aufräumen“ stellt, wird es mutmaßlich die meiste Zeit mit Fernsehen verbringen, etwas Hausaufgaben machen und das Zimmer unaufgeräumt lassen. Nun kann das Verhalten mit der jeweils höheren Auftretenswahrscheinlichkeit als Verstärker benutzt werden: Das Kind wird mehr Zeit mit Hausaufgaben verbringen, wenn es erst danach fernsehen darf, und es wird mehr Zeit mit Aufräumen verbringen, wenn es erst danach Hausaufgaben machen darf.

In Ergänzung zum Premack-Prinzip konnte in Tierversuchen mit Ratten nachgewiesen werden, dass auch ein Verhalten, das eine niedrigere Auftretenswahrscheinlichkeit hat, als Verstärker dienen kann: Angenommen, eine Ratte, die eine Stunde lang in einem Käfig sitzt, verbringt ohne äußere Zwänge 50 Minuten damit, an einem Wasserspender zu lecken, und zehn Minuten damit, in einem Laufrad zu rennen. Man kann nun nach dem Premack-Prinzip ohne Schwierigkeiten das längere Rennen im Laufrad durch das Lecken verstärken. Es geht jedoch auch umgekehrt. Wenn die Ratte zwei Minuten lecken muss, um danach eine Minute im Laufrad rennen zu dürfen, wird dies nicht als Verstärker wirken, da die Ratte nach diesem Verstärkerplan leicht auf ihre anfängliche Verhaltenshäufigkeit von 10 Minuten Rennen in der Stunde kommt. Wenn die Ratte aber fünfzehn Minuten lecken muss, um eine Minute rennen zu dürfen, wirkt dieses Verhalten als Verstärkung für das Lecken. Somit kann auch ein Verhalten mit einer niedrigeren Auftretenshäufigkeit als Verstärker wirken.

Kontinuierliche Verstärkung

[Bearbeiten | Quelltext bearbeiten]

Hier erfolgt bei jeder gewünschten Reaktion eine Verstärkung. Dies führt zu einem starken Anstieg der Lernkurve. Die Versuchsperson lernt also schnell, vergisst aber auch ebenso schnell wieder, wenn nicht mehr verstärkt wird. Dieser Verstärkerplan ist optimal in der Akquisitionsphase, also beim ersten Erlernen des Zielverhaltens.

Um eine Extinktion zu verhindern, muss die Kopplung gelegentlich wiederholt werden. Dabei haben sich die folgenden, unterschiedlich erfolgreichen Verstärkerpläne herauskristallisiert.

Quotenverstärkung

[Bearbeiten | Quelltext bearbeiten]

Die Quotenpläne sind in fixierte (fixed-ratio) und variable (variable-ratio) Quotenpläne unterteilt. Bei den fixierten Quotenplänen wird der Verstärker nach einer bestimmten Anzahl der gewünschten Reaktionen gegeben, bei den variablen Quotenplänen nach einer durchschnittlichen Anzahl der gewünschten Reaktionen. Beispiel: Bei jedem fünften (FR-5-Plan) oder durchschnittlich jedem fünften (VR-5-Plan) Auftreten des Zielverhaltens erfolgt eine Verstärkung.[8]

Die meisten Reaktionen erfolgen auf variable Quotenpläne (variable ratio), da die Verstärkergabe nicht vorauszusehen ist. Gleichzeitig sind die hierbei erlernten Reaktionen auch am resistentesten gegenüber einer Löschung.

Siehe auch intermittierende Verstärkung.

Intervallverstärkung

[Bearbeiten | Quelltext bearbeiten]

Bei dieser Methode wird nach dem letzten verstärkten Verhalten frühestens wieder nach einem konstanten oder variablen Zeitintervall verstärkt, sobald das erwünschte Verhalten auftritt. Beispiel: Für die Dauer von 20 Sekunden (fixed interval) oder durchschnittlich 20 Sekunden (variable interval) wird kein Verhalten verstärkt.

Ratenverstärkung

[Bearbeiten | Quelltext bearbeiten]

Verstärkt wird, wenn das Zielverhalten mit hoher Frequenz oder niedriger Frequenz gezeigt wird. Die Verstärkung hoher Frequenzen führt zum selben Ergebnis wie Verhältnispläne, die Verstärkung niedriger Frequenzen führt zum selben Ergebnis wie Intervallpläne.

Neues Verhalten: Shaping, Chaining und die Skinner-Box

[Bearbeiten | Quelltext bearbeiten]

Durch positive oder negative Verstärkung und Methoden wie Shaping und Chaining können auch komplexe Abfolgen von Verhaltensweisen gefördert werden. Eine elegante Methode, auf gleichermaßen anschauliche wie reproduzierbare Weise einem Versuchstier neue Verhaltensweisen beizubringen, stellt das Lernen mit Hilfe einer sogenannten Skinner-Box dar.

Beim Shaping (auch Approximation genannt) wird nicht erst die vollständige Abfolge der erwünschten Verhaltensweisen verstärkt, sondern bereits jede Annäherung an die gewünschten Verhaltensweisen. Soll eine Taube etwa auf einen roten Punkt auf einer Scheibe picken, so wird bereits verstärkt, wenn die Taube den Kopf zur Scheibe bewegt; dann, wenn sie zur Scheibe schaut; dann, wenn sie sich der Scheibe nähert; dann, wenn sie auf die Scheibe pickt und schließlich, wenn sie den roten Punkt auf der Scheibe trifft. Insbesondere dient diese Technik dem Erlernen komplexerer Verhaltensweisen. Sie ermöglicht selbst die Konditionierung von recht unnatürlichen Bewegungsabfolgen bei Tieren, wie sie etwa im Zirkus zu sehen sind.

Die Erforschung des Lernens durch Konditionierung beschränkt sich rigoros auf beobachtbares Verhalten und spekuliert nicht über Konstrukte, die dem Verhalten möglicherweise zugrunde liegen. Daher erklärt sie nicht, wie Lernen durch intrinsische Motivation (z. B. Neugier) funktioniert. Erst theoretische Modelle – z. B. Albert Banduras sozialkognitive Lerntheorie, welche insbesondere das Lernen am Modell zum Gegenstand hat – lieferten Hypothesen bzw. spekulative Aussagen zu diesen Verhaltensmustern. Diese können jedoch beispielsweise den Mechanismus, auf dem die Wirkung der Klingelmatte gegen Enuresis beruht, nicht hinreichend erklären.

Auch aus ethischen Gründen ist die Konditionierung nicht gegen Kritik gefeit: Dass der Einsatz der instrumentellen und der operanten Konditionierung beim Menschen allzu leicht zu Dressur und Gehirnwäsche tendiert, macht die pädagogischen Implikationen des Behaviorismus problematisch. Als eine Voraussetzung der ethischen Vertretbarkeit der Konditionierung gilt gemeinhin, dass deren Prozess hinreichend ausführlich erklärt wird, damit diejenigen, die ihn durchlaufen sollen, sich bewusst dafür oder dagegen entscheiden können. Das schließt ein, dass sie die Lernziele selbst bestimmen. Kinder, geistig Behinderte und Alte sind hierzu mitunter nicht imstande. Eine absichtliche Umgehung dieser Selbstbestimmtheit liegt vor, wenn die Konditionierung bestimmter Empfindungen als Reaktion auf die Darbietung bestimmter Produkte eingesetzt wird – sie bildet das Kerngeschäft der Werbung.

  1. Wilhelm F. Angermeier: Kontrolle des Verhaltens. Das Lernen am Erfolg. 2., neubearb. Auflage. Springer, Berlin, Heidelberg, New York 1976, ISBN 3-540-07575-5.
  2. Philip G. Zimbardo: Psychologie. Springer, 2013, ISBN 978-3-662-22364-2, S. 275 (eingeschränkte Vorschau in der Google-Buchsuche).
  3. Martin Wiegand: Prozesse Organisationalen Lernens. Springer, 2013, ISBN 978-3-322-89128-0, S. 343 (eingeschränkte Vorschau in der Google-Buchsuche).
  4. Im Original: „By a satisfying state of affairs is meant one which the animal does nothing to avoid, often doing such things as attain and preserve it. By a discomforting or annoying state of affairs is meant one which the animal commonly avoids and abandons.“
  5. Carsten Vollmer: Mediengestütztes Lernen: Status und Potentiale in der betrieblichen Bildungsarbeit. diplom.de, 2014, ISBN 978-3-8324-4687-1, S. 10 (eingeschränkte Vorschau in der Google-Buchsuche).
  6. Franz Petermann, Andreas Maercker, Wolfgang Lutz, Ulrich Stangier: Klinische Psychologie – Grundlagen. Hogrefe Verlag, 2017, ISBN 978-3-8409-2160-5, S. 45 (eingeschränkte Vorschau in der Google-Buchsuche).
  7. Im Original: „An opportunity to engage in more probable responses will reinforce a less probable response.“
  8. Richard J. Gerrig: Psychologie. Hrsg.: Tobias Dörfler, Jeanette Roos. 21. Auflage. Pearson, Hallbergmoos 2018, ISBN 978-3-86894-323-8.