renforcements positifs et négatifs combinés

Pourquoi cet article

J’utilise au cours de mes entraînements  le renforcement positif (nourriture, jeu) principalement, mais j’ajoute dans certains cas un désagrément, un inconfort, en tant que renforcement négatif, appliqué lorsque le chien n’exécute pas (lorsqu’il commence à exécuter, le désagrément disparaît). Notez bien que je ne parle pas de punition, destinée à faire disparaître un comportement, mais bien de renforcement négatif (l’apparition du comportement souhaité entraîne la fin du désagrément, comme lorsque vous bouclez votre ceinture de sécurité et que le bip strident s’arrête)
Mais cela est-il judicieux ? La désagrément ne va-t-il pas polluer l’effet de la récompense ? Les études scientifiques sur le sujet sont rares.
Mais en cherchant bien, je suis tombé sur une thèse récente (2007) qui traite justement de ce sujet, qui plus est pour l’éducation de chiens (voir référence en fin d’article).
Voici mon analyse de cette étude.

Les conditions expérimentales

Les expériences ont été menée avec un caniche nain, qui avait 6 ans au début des expériences, et 9 à la fin.
Les expériences se déroulent dans une salle, type salle de classe dont on aurait enlevé les tables et les chaises, avec un sol quadrillé afin de suivre le déplacement du chien. Les séances ont été filmées, mais je n’ai malheureusement pas pu voir le moindre bout de ces vidéos (si vous les trouvez sur internet, passez-moi le lien !).
Au cours des séances, sont notés les déplacements du chien, mais aussi la position de la queue, les aboiements, grognements, pleurnichements (afin d’en déduire son état émotionnel).
Les actions demandées au chien sont de trois types en fonction des expériences :

– Revenir vers le maître
– Aller toucher une cible
– Se rendre dans un coin de la pièce

Renforcement

Positif : clicker + récompense alimentaire, classique
Négatif : tractions sur la laisse qui tirent le chien à l’endroit désiré (« leash tug that pulled the dog to the correct location »)

Déjà, là, ça part mal. Ce n’est pas du tout un renforcement négatif. Où est le libre arbitre du chien, sa décision pour faire cesser l’inconfort, base du conditionnement opérant ? Que comprend il de cette traction sur la laisse ? quelle conclusion va-t-il en tirer ?

Conclusions :

Bien que les conditions de tests soient biaisées (renforcement négatif qui n’en est pas un), les conclusions sont quand même intéressantes, à conditions d’être remises dans ce contexte de renforcement négatif raté. Contrairement à l’auteur, je n’emploierais d’ailleurs plus le terme de renforcement négatif, mais celui de contrainte, qui me semble plus approprié.

1. L’utilisation combinée de la contrainte et du renforcement positif annule complètement l’effet du renforcement positif. Le chien se comporte exactement comme lorsque la contrainte seule est utilisée (comportement hésitant, faible vitesse d’exécution, forte réaction à un changement d’environnement, perte rapide du conditionnement)

2. La contrainte modifie l’état émotionnel du chien (queue basse, chouinement), et va le «marquer émotionnellement», en dehors de toute réflexion. On est davantage sur du conditionnement Pavlovien comme sur de l’opérant.

3. Cet état va être associé à l’équipement utilisé (la laisse), qui va devenir un objet aversif en lui-même. L’auteur remarque toutefois que quelques semaines après l’arrêt des expériences, la laisse retrouve son attrait originel (laisse = plaisir de la sortie au parc).

4. Le signal acoustique utilisé pour initier le comportement devient lui aussi chargé émotionnellement, et va devenir ambigu. Le chien n’arrive pas à comprendre la conséquence de son acte (récompense ou contrainte ?). il va devenir hésitant, lent, pas fiable dans son exécution. Je développe cette idée dans le chapitre suivant.

Bref, cet article m’a déçu, car une fois de plus, l’auteur confond renforcement négatif avec contrainte et punition.

Mais j’en tire tout de même quelque chose, c’est l’aspect émotionnel et Pavlovien lié à la contrainte qui est confirmé. On le réservera à l’utilisation dans le cas d’une punition pour faire disparaître un comportement inacceptable ou dangereux, tel que courir après une voiture, en tant que traitement d’urgence pour sauvegarder l’intégrité physique du chien à court terme. L’associer à du renforcement positif ne présente aucun intérêt.
Mais en aucun cas on l’utilisera en apprentissage ou en éducation.

Empoisonnement du signal

Je voudrais revenir sur un point abordé dans cet article : la notion d’empoisonnement du signal, tel que décrit initialement par Karen PRIOR, et sur lequel l’auteur de cette étude revient à plusieurs reprise.

Je vais commencer par un exemple simple.

Vous avez un ami, qui vous appelle régulièrement au téléphone, et avec qui vous avez plaisir à converser. Si bien que dés que vous voyez son numéro s’afficher sur votre téléphone, cela vous met en joie. Vous vous dépêchez de décrocher.

Mais un jour, cet ami se met à changer complètement de comportement. Certaines de ses conversations téléphoniques restent très agréables, mais d’autres deviennent  très désagréables, il se met parfois à  à vous insulter , vous crier dessus. Et vous n’arrivez pas à comprendre ce qui fait que parfois il est agréable, et d’autres fois désagréable. Dorénavant, lorsque vous verrez son numéro s’afficher sur votre téléphone, vous hésiterez à décrocher, vous tarderez à prendre le téléphone, ne sachant pas à quoi vous attendre.

Transposez cela à votre attitude envers votre chien.

Pendant des semaines, vous lui avez appris à se coucher, et vous le récompensez chaque fois qu’il exécute cette position Il sera heureux de se coucher dés qu’il entendra votre signal  demandant cette position.

Et puis un jour, vous décrétez que son couché n’est pas assez rapide, et qu’il faut accélérer tout ça. Vous commencez à le réprimander s’il se couche trop lentement, et à le récompenser si par hasard il se couche suffisamment vite selon vos critères du moment. Votre chien va être complètement perdu, va vous trouver incohérent, et va se coucher de plus en plus lentement, voire pas du tout. Votre signal ne sera plus  associé à quelque chose d’agréable, mais à quelque chose de très confus. Vous l’aurez empoisonné.

Référence

THE EFFECTS OF COMBINING POSITIVE AND NEGATIVE REINFORCEMENT DURING TRAINING
http://reachingtheanimalmind.com/pdfs/ch_09/ch_09_pdf_05.pdf

CC BY-NC-ND 4.0 renforcements positifs et négatifs combinés par Didier ESCALLIER est sous Licence Creative Commons Internationale Attribution-Pas d'utilisation Commerciale-Pas de Modification 4.0 .

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *