renforcement positif et négatif

Renforcement positif et négatif

Quelques rappels

Dans le conditionnement opérant une action (A) est suivie d’une conséquence (C). Si la conséquence a pour effet d’augmenter la probabilité de réalisation de l’action, alors la conséquence C est appelé le renforçateur.

Si C est l’ajout de quelque chose, généralement agréable, on parle de renforcement positif.
Si C est la disparition de quelque chose, généralement désagréable, on parle de renforcement négatif.

Alors, Renforcement positif ou négatif dans notre dressage ?

Faut-il utiliser du renforcement positif, négatif, les 2 séparément, les deux simultanément ?
La grande mode est « l’éducation positive », abus de langage pour désigner le renforcement positif. Est-ce à dire que le renforcement négatif est inefficace ? Ou bien est uniquement un argument marketing, voire une preuve de compétence limitée ?
Il est vrai que volontairement faire subir à notre chien quelque chose de désagréable, afin de lui faire réaliser quelque chose pour faire disparaître ce désagrément peut mettre mal à l’aise certaine personnes. Mais notez bien que je parle de désagrément, pas de douleur. Par exemple, arroser son chien avec une poire à eau pour le faire changer d’endroit , c’est du renforcement négatif (le chien se déplace pour éviter le désagrément de la projection d’eau).
Pour me faire ma propre opinion, j’ai recherché des études scientifiques sur le sujet, et une en particulier a retenu mon attention car elle fait la synthèse  de plusieurs autres (voir référence en fin d’article).
La suite de cet article est basé sur cette étude, et de mes observations personnelles.

Analyse de l’article

Il faut d’abord préciser que cet article se base sur des expériences ou le renforçateur est distribué sous forme de « temps aléatoire », c’est-à-dire que le renforçateur va apparaître (ou disparaître pour le négatif) dans une fenêtre de temps programmée, avec une variation aléatoire dans cette fenêtre de temps. Les auteurs notent bien que cela ne facilite pas la contingence entre l’action A et sa conséquence C. C’est pourquoi dans le dressage canin, on préfère le mode de « récompense aléatoire », c’est-à-dire que le chien n’est pas récompensé à chaque réussite, mais lorsqu’il est récompensé, c’est toujours immédiatement après son action. La contingence entre action et conséquence est ainsi toujours respectée.

Les auteurs concluent dans leur analyse théorique, que le taux de renforcement est parfaitement symétrique entre positif et négatif.
Mais j’ajouterai que cela suppose qu’on parle d’un même niveau d’impact entre la conséquence positive et négative. Quelques études ont été faites sur les humains, avec de l’argent comme conséquence. Il est ainsi évident de calculer l’impact de la conséquence positive et négative, puisque basées sur le même référence, à savoir la quantité d’argent (soit on la rajoute, soit on l’enlève).
Avec nos chiens, c’est un peu plus compliqué. Comment juger du niveau d’impact de la nourriture, du jeu, qui en plus peut varier d’un jour à l’autre, voire au cours de la même séance d’entrainement ? Et comment comparer cela au désagrément d’un jet d’eau, ou d’une impulsion électrique ?
Autre point très important : avec le renforcement positif, on peut avoir un niveau d’impact de récompense très élevé (chien dingue de sa balle, chien affamé). Avec les conséquences désagréables, c’est plus délicat. Si on augmente trop, on arrive à la douleur, génératrice de stress, et on n’est plus en condition d’apprentissage efficace d’une compétence (ce serait différent si on parle de punition pour faire cesser un comportement dangereux par exemple).

L’article n’aborde pas l’utilisation simultanée de conséquences positives et négatives. Mais si on regarde les formules mises en œuvre, on voit qu’elles peuvent parfaitement s’ajouter. L’utilisation simultanée d’une conséquence positive et négative permettrai donc un apprentissage plus rapide. Je le laisse au conditionnel pour l’instant tant que je n’ai pas analysé de données expérimentales le démontrant. J’y reviens dessus dans le chapitre suivant.

L’article aborde aussi la notion de « coût ». Cela rejoint ce que j’appelle « le chien est un animal opportuniste ». Il va donc chercher la solution « à moindre coût ». Le concept est simple : chaque action coûte, et chaque confort ou inconfort à une valeur. Si l’action à réaliser « coûte » moins que la valeur de la récompense, ou de l’inconfort à supprimer, alors l’animal ne fera rien. Agirions nous vraiment différemment en tant qu’humain ?

On retrouve donc toujours cette notion de « valeur » de la conséquence. Ici, elle doit être de valeur égale ou supérieure au « coût » de l’action à réaliser, mais si vous avez lu mes articles précédents, vous savez qu’au plus cette valeur est grande, au plus l’action aura de probabilité d’apparition.

Pour compliquer un peu les choses

L’article étudié cite Skinner sur la difficulté à séparer le positif du négatif :

Skinner himself noted that “the cessation of a positive reinforcement acts as a negative, the cessation of a negative acts as a positive” (Skinner, 1938<http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3494319/#jeab-98-03-08-Skinner1>, p 66). This interpretation would suggest that positive and negative reinforcement are just two components of a one-dimensional spectrum, with every appetitive state corresponding to the removal of an aversive state (Baron & Galizo, 2005<http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3494319/#jeab-98-03-08-Baron1>

Que je traduis par :
Skinner lui-même a noté : l’arrêt d’un renforcement positif agit en négatif, l’arrêt d’un négatif agit en positif ». Cette interprétation tendrait à dire que les renforcements positif et négatif ne sont que les deux composantes d’un spectre unidimensionnel, avec chaque état attirant correspondant à la suppression d’un état aversif.

Pour prendre un exemple concret, donner de la nourriture à un chien affamé, c’est à la fois du positif (on donne de la nourriture), et du négatif (on retire la faim).
Les auteurs citent plusieurs autres études qui démontrent que parler de positif ou négatif est une erreur, car c’est la même chose (pour ajouter, il faut au préalable avoir enlevé, et réciproquement).

Il est donc tout à fait cohérent d’utiliser simultanément du «positif» et du «négatif» lors d’un apprentissage puisque c’est la même chose.

Conclusions :

Parler de renforcement positif ou négatif n’a pas de sens, car c’est en fait la même chose (exemple de la récompense alimentaire qui enlève la faim).
Les opposer est donc au mieux une preuve d’incompétence, au pire, une tromperie.
Les utiliser simultanément est parfaitement acceptable, voire profitable. Ce point demande à être approfondi par des bases scientifiques, peut être dans un prochain article.
Étant donné que j’ai déjà démontré que la forte valeur de la conséquence est une condition indispensable (mais non suffisante) pour optimiser le renforcement, et étant donné qu’il est plus facile d’utiliser quelque chose à forte valeur agréable que désagréable, c’est évidement cela qu’il faudra privilégier. Mais je le répète, sans rejeter l’utilisation du renforcement par «suppression d’inconfort» dont l’efficacité est une fois de plus prouvée.

Référence

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3494319/

Optimisation du renforcement

Optimisation du renforcement

Résumé

La carrière d’un chien de sport est courte, et le nombre de choses à lui apprendre est élevé. Il est donc indispensable d’aller au plus efficace. J’ai fait des recherches bibliographiques sur les expériences menées par les scientifiques afin de découvrir quelles étaient les conditions optimales pour renforcer un comportement. Les grands dresseurs le savent d’instinct (mais pas toujours, et surtout ont du mal à l’expliquer), l’intérêt de ces expériences est de chiffrer précisément quel est l’impact de tel ou tel paramètre.  Dans cet article, je vais faire une analyse de ce que j’ai trouvé, et comment l’appliquer à une séance d’entraînement afin quelle soit la plus efficace possible..

Conclusion et impact sur notre dressage

Une fois n’est pas coutume, je mets directement la conclusion de mes recherches. Je vous ferai gré de toute l’analyse des articles qui m’ont amené à cette conclusion.

Je met en fin de ce billet les références bibliographiques et publications scientifiques que j’ai analysées.

Pour qu’un entraînement soit le plus efficace possible, il faut réunir les conditions suivantes :

  • Il faut assurer la contingence entre le comportement à renforcer et le comportement renforçateur (proximité temporelle, utilisation d’un marqueur sonore ou d’un clicker) afin que le chien fasse clairement le lien entre les deux comportements (celui à renforcer, et le renforçant).
  • Il faut que le chien ai une envie « naturelle » très importante de réaliser le comportement renforçateur (chien capable de jouer à la balle de façon intense et longtemps, chien gourmand ..). Sans cela, le rapport coût/ bénéfice ne sera pas suffisamment favorable. Cela se travaille en dehors de tout entraînement (jeux pour créer la passion de la balle)
  • On rajoute un phénomène qui va augmenter encore cette envie de réaliser le comportement renforçateur juste avant l’entraînement (frustration sur la balle avec une longe, aboiement sur la balle, on affame le chien …)
  • Durant l’entraînement, on donne accès à ce comportement récompensant avec parcimonie (on crée une restriction). En compensation, le chien va fortement augmenter le comportement à récompenser (c’est bien le but recherché).
  • On fait attention à ne pas trop réduire cet accès au comportement récompensant afin d’éviter l’apparition de comportements parasites (aboiements, chien qui tourne sur lui-même, chien qui broute l’herbe). Attention aussi à ce qu’il ne trouve pas de lui-même une autre activité récompensante pour compenser la réduction de la 1ère (aller voler la balle du copain ..)…
  • L’arrivée de la récompense doit apparaître au bout d’un temps aléatoire (créer de l’espoir, mais attention à la création de superstitions) afin d’augmenter la tenue dans le temps du renforcement (résistance à l’extinction).
  • On arrête l’entraînement avant que l’intérêt pour le comportement récompensant ne décroisse (phénomène de satiété)

Une séquence d’apprentissage peut se résumer en 4 phases :

  1. – Augmentation de la valeur de comportement récompensant (exemple : frustration sur la balle)
  2. – Signal vocal (assis, au pied ..)
  3. – Réaction du chien (comportement souhaité)
  4. – Accès bref à la récompense

Si on respecte ces conditions, l’apprentissage sera rapide, et durable dans le temps (résistance à l’extinction).

Références

The Behavioral Regulation Approach

Schedules and Theories of Reinforcement

The Role of the Establishing Operation in Performance Management: Changing the Value of Consequences

The Premack Principle, Response Deprivation, and Establishing Operations

Operant Conditioning Theories of Reinforcement

RESPONSE DEPRIVATION : AN EMPIRICAL APPROACH TO INSTRUMENTAL PERFORMANCE

From Pavlov to Skinner Box

L’émotionnel dans le dressage

L’émotionnel dans le dressage

J’entends souvent cette phrase « mon chien m’obéit parce qu’il m’aime », ou une variante « il m’obéit parce que nous avons un fort relationnel ».

Ce ne sont que des foutaises. Un chien est un animal opportuniste, il fait ce qui lui apporte du confort. Mais là n’est pas le fond du problème, et de toute façon, je n’arriverai pas à convaincre ceux qui pense que le relationnel est une condition indispensable dans le dressage qu’ils ont tord.

Raisonnons par l’absurde : votre chien vous obéit pour vous faire plaisir, OK. C’est-à-dire qu’il ressent votre joie lorsqu’il a réalisé le bon comportement, ce qui lui sert de renforçateur, jusque là, OK.  A l’entraînement, ça peut faire illusion. Mais que se passe-t-il le jour du concours ? Votre état émotionnel est complètement chamboulé, et même si vous êtes un conducteur aguerri, lorsque l’enjeu augmente (finale ..), vous n’êtes plus la même personne, émotionnellement parlant. Et si vous avez basé votre dressage là-dessus, votre chien est complètement déstabilisé, et vos espoirs de performances s’envolent. Vous avez bossé pour rien, et vous avez fait douter votre chien.

Un autre cas très fréquent, cette fois venant d’un coach, professionnel ou pas. « Si le chien ne fait pas bien, c’est parce que vous n’avez pas un bon relationnel avec lui « (ou alors une variante « vous êtes en conflit »). Ce n’est qu’une façon de transformer l’ignorance du coach à diagnostiquer le problème, en culpabilisant le conducteur.Si le conducteur insiste pour avoir une piste de solution, on lui répond « la solution est en toi ».

Et au passage, si le coach est professionnel, il en profite pour proposer une formation de maîtrise de soi, ou de travail sur le relationnel (payante évidement). Et comme le vrai problème n’est pas traité, il n’y a pas de progrès en concours, même si cela peut apporter beaucoup au stagiaire dans sa vie privée, et ça devient vite une rente pour le formateur.

Donc, si un jour quelqu’un vous dis ça, bouchez-vous les oreilles. Cette personne n’est pas forcément un mauvais dresseur, mais elle ne sait pas comment elle obtient ses résultats, et est donc complètement incapable d’expliquer.

Par contre, si on vous dit « vous ne savez pas communiquer avec votre chien », il faut ouvrir grand vos oreilles car cette personne a sûrement des choses intéressantes à vous apprendre …

 

La méthode illustrée

Suite à la demande de lecteurs, une illustration de l’article sur la synthèse de la méthode, avec Jessy dans le rôle principal.

La séquence a été improvisée à la fin d’un entraînement. J’ai pris comme exemple la position de base.

Click to Watch Video

Le leurre

Je montre à Jessy le mouvement à effectuer. Vous remarquerez qu’elle pousse sur la main pour venir chercher la nourriture, ce n’est pas moi qui lui met en gueule.

Le shaping

Jessy connaissant parfaitement l’exercice, ce n’est pas vraiment du shaping. Vous remarquerez toutefois à la fin de la séquence, lorsqu’elle est distraite, j’attends quelle me propose un joli levé de tête pour valider avec un marqueur sonore, puis récompenser. Vous remarquerez aussi que Jessy ne travaille pas pour la récompense, mais bien pour que je lui donne accès à la récompense.

Le renforcement

Dans cette phase, on devient plus exigeant. Je rajoute des distractions, dont le dosage est parfaitement contrôlé. Si Jessy ne propose pas le bon comportement, elle en assume les conséquence (petit rappel à l’ordre via le collier). Il serait en effet illusoire de penser que Jessy va gentiment préférer me regarder, au lieu de regarder les balles qui s’agitent sous son nez …. Et toujours l’attente du marqueur vocal pour accéder à la récompense.