renforcement positif et négatif

Renforcement positif et négatif

Quelques rappels

Dans le conditionnement opérant une action (A) est suivie d’une conséquence (C). Si la conséquence a pour effet d’augmenter la probabilité de réalisation de l’action, alors la conséquence C est appelé le renforçateur.

Si C est l’ajout de quelque chose, généralement agréable, on parle de renforcement positif.
Si C est la disparition de quelque chose, généralement désagréable, on parle de renforcement négatif.

Alors, Renforcement positif ou négatif dans notre dressage ?

Faut-il utiliser du renforcement positif, négatif, les 2 séparément, les deux simultanément ?
La grande mode est « l’éducation positive », abus de langage pour désigner le renforcement positif. Est-ce à dire que le renforcement négatif est inefficace ? Ou bien est uniquement un argument marketing, voire une preuve de compétence limitée ?
Il est vrai que volontairement faire subir à notre chien quelque chose de désagréable, afin de lui faire réaliser quelque chose pour faire disparaître ce désagrément peut mettre mal à l’aise certaine personnes. Mais notez bien que je parle de désagrément, pas de douleur. Par exemple, arroser son chien avec une poire à eau pour le faire changer d’endroit , c’est du renforcement négatif (le chien se déplace pour éviter le désagrément de la projection d’eau).
Pour me faire ma propre opinion, j’ai recherché des études scientifiques sur le sujet, et une en particulier a retenu mon attention car elle fait la synthèse  de plusieurs autres (voir référence en fin d’article).
La suite de cet article est basé sur cette étude, et de mes observations personnelles.

Analyse de l’article

Il faut d’abord préciser que cet article se base sur des expériences ou le renforçateur est distribué sous forme de « temps aléatoire », c’est-à-dire que le renforçateur va apparaître (ou disparaître pour le négatif) dans une fenêtre de temps programmée, avec une variation aléatoire dans cette fenêtre de temps. Les auteurs notent bien que cela ne facilite pas la contingence entre l’action A et sa conséquence C. C’est pourquoi dans le dressage canin, on préfère le mode de « récompense aléatoire », c’est-à-dire que le chien n’est pas récompensé à chaque réussite, mais lorsqu’il est récompensé, c’est toujours immédiatement après son action. La contingence entre action et conséquence est ainsi toujours respectée.

Les auteurs concluent dans leur analyse théorique, que le taux de renforcement est parfaitement symétrique entre positif et négatif.
Mais j’ajouterai que cela suppose qu’on parle d’un même niveau d’impact entre la conséquence positive et négative. Quelques études ont été faites sur les humains, avec de l’argent comme conséquence. Il est ainsi évident de calculer l’impact de la conséquence positive et négative, puisque basées sur le même référence, à savoir la quantité d’argent (soit on la rajoute, soit on l’enlève).
Avec nos chiens, c’est un peu plus compliqué. Comment juger du niveau d’impact de la nourriture, du jeu, qui en plus peut varier d’un jour à l’autre, voire au cours de la même séance d’entrainement ? Et comment comparer cela au désagrément d’un jet d’eau, ou d’une impulsion électrique ?
Autre point très important : avec le renforcement positif, on peut avoir un niveau d’impact de récompense très élevé (chien dingue de sa balle, chien affamé). Avec les conséquences désagréables, c’est plus délicat. Si on augmente trop, on arrive à la douleur, génératrice de stress, et on n’est plus en condition d’apprentissage efficace d’une compétence (ce serait différent si on parle de punition pour faire cesser un comportement dangereux par exemple).

L’article n’aborde pas l’utilisation simultanée de conséquences positives et négatives. Mais si on regarde les formules mises en œuvre, on voit qu’elles peuvent parfaitement s’ajouter. L’utilisation simultanée d’une conséquence positive et négative permettrai donc un apprentissage plus rapide. Je le laisse au conditionnel pour l’instant tant que je n’ai pas analysé de données expérimentales le démontrant. J’y reviens dessus dans le chapitre suivant.

L’article aborde aussi la notion de « coût ». Cela rejoint ce que j’appelle « le chien est un animal opportuniste ». Il va donc chercher la solution « à moindre coût ». Le concept est simple : chaque action coûte, et chaque confort ou inconfort à une valeur. Si l’action à réaliser « coûte » moins que la valeur de la récompense, ou de l’inconfort à supprimer, alors l’animal ne fera rien. Agirions nous vraiment différemment en tant qu’humain ?

On retrouve donc toujours cette notion de « valeur » de la conséquence. Ici, elle doit être de valeur égale ou supérieure au « coût » de l’action à réaliser, mais si vous avez lu mes articles précédents, vous savez qu’au plus cette valeur est grande, au plus l’action aura de probabilité d’apparition.

Pour compliquer un peu les choses

L’article étudié cite Skinner sur la difficulté à séparer le positif du négatif :

Skinner himself noted that “the cessation of a positive reinforcement acts as a negative, the cessation of a negative acts as a positive” (Skinner, 1938<http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3494319/#jeab-98-03-08-Skinner1>, p 66). This interpretation would suggest that positive and negative reinforcement are just two components of a one-dimensional spectrum, with every appetitive state corresponding to the removal of an aversive state (Baron & Galizo, 2005<http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3494319/#jeab-98-03-08-Baron1>

Que je traduis par :
Skinner lui-même a noté : l’arrêt d’un renforcement positif agit en négatif, l’arrêt d’un négatif agit en positif ». Cette interprétation tendrait à dire que les renforcements positif et négatif ne sont que les deux composantes d’un spectre unidimensionnel, avec chaque état attirant correspondant à la suppression d’un état aversif.

Pour prendre un exemple concret, donner de la nourriture à un chien affamé, c’est à la fois du positif (on donne de la nourriture), et du négatif (on retire la faim).
Les auteurs citent plusieurs autres études qui démontrent que parler de positif ou négatif est une erreur, car c’est la même chose (pour ajouter, il faut au préalable avoir enlevé, et réciproquement).

Il est donc tout à fait cohérent d’utiliser simultanément du «positif» et du «négatif» lors d’un apprentissage puisque c’est la même chose.

Conclusions :

Parler de renforcement positif ou négatif n’a pas de sens, car c’est en fait la même chose (exemple de la récompense alimentaire qui enlève la faim).
Les opposer est donc au mieux une preuve d’incompétence, au pire, une tromperie.
Les utiliser simultanément est parfaitement acceptable, voire profitable. Ce point demande à être approfondi par des bases scientifiques, peut être dans un prochain article.
Étant donné que j’ai déjà démontré que la forte valeur de la conséquence est une condition indispensable (mais non suffisante) pour optimiser le renforcement, et étant donné qu’il est plus facile d’utiliser quelque chose à forte valeur agréable que désagréable, c’est évidement cela qu’il faudra privilégier. Mais je le répète, sans rejeter l’utilisation du renforcement par «suppression d’inconfort» dont l’efficacité est une fois de plus prouvée.

Référence

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3494319/

CC BY-NC-ND 4.0 renforcement positif et négatif par Didier ESCALLIER est sous Licence Creative Commons Internationale Attribution-Pas d'utilisation Commerciale-Pas de Modification 4.0 .

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *