R-, ou P+, R+ ?

R-, ou P+, R+ ?

Pourquoi cet article

La notion de R- est souvent mal comprise, voire confondue avec celle de P+.
Commençons par rappeler de quoi il s’agit :

R – : renforcement par suppression de quelque chose. Renforcement, cela signifie qu’on veut favoriser l’apparition d’un comportement, on veut faire en sorte que le chien le reproduise. Cela doit donc résulter en l’amélioration de son confort, ou plus précisément dans le cas du R -, dans la réduction de son inconfort.

P+ : punition par ajout de quelque chose. Punition, c’est pour réduire, voire faire cesser un comportement. Pour cela on ajoute de l’inconfort.

Illustration par l’exemple

Vous montez dans un véhicule d’un modèle qui vous est inconnu, et vous vous asseyez sur le siège du conducteur. Un bip bip désagréable retentit. Ce son n’est pas suffisamment désagréable pour vous faire quitter le véhicule, mais suffisamment gênant pour que vous cherchiez à le faire cesser. Vous bouclez votre ceinture, et le bip-bip disparaît.
Vous êtes donc récompensé par suppression d’un inconfort, c’est du R -.
Imaginez maintenant qu’au lieu d’un bip-bip désagréable, ce soit une alarme antivol stridente qui vous fait mal aux oreilles. Vous quittez immédiatement le véhicule tellement c’est désagréable, et vous vous en éloignez. Cette sirène a fait cesser l’intrusion dans le véhicule en créant un bruit désagréable, voire douloureux pour vos tympans, c’est donc du P+.

Maintenant, imaginez que lorsque vous vous asseyez sur le siège, rien ne se passe. Et si par le plus grand des hasard l’envie vous prends de boucler votre ceinture, la boite à gants s’ouvre sur un paquet de vos gâteaux préférés. Le comportement est récompensé par ajout de quelque chose d’agréable, c’est du R+.

Discussion

Vous constatez que ce qui différencie le R- du P+, c’est l’intensité de l’inconfort, mais surtout, la conséquence.
Le R- fait appel à la réflexion, vous agissez pour trouver la solution. Alors qu’en P+, vous êtes dans la réaction à un stimuli fortement désagréable, vous ne réfléchissez quasiment pas, vous réagissez.
Utiliser le R- en dressage est délicat, car il faut bien doser le niveau d’inconfort. Soit il n’est pas assez intense, et il ne se passe rien. Soit il est trop intense, et cela se transforme en P+, et le comportement souhaité cesse au lieu de se renforcer. L’intensité doit être ajustée quasiment en temps réel en fonction de la réaction observée.

Autre point délicat, la difficulté à trouver la solution pour faire cesser l’inconfort. Si pour faire taire le bip-bip vous devez appuyer sur 8 boutons dans un ordre précis, selon votre tempérament, au bout d’un temps variable, vous allez :

  • Soit laisser tomber et passer à autre chose, voire sortir de la voiture, et le résultat sera du P+
  • Soit vous énerver, et commencer à tout casser dans l’habitacle pour défouler votre frustration et faire cesser ce bip-bip par un moyen expéditif, et pas franchement réfléchi

Notez qu’avec le R+, ce n’est pas mieux. Si vous ne trouvez pas la solution pour ouvrir la boite à gants que vous savez contenir vos gâteaux préférés, vous finirez par adopter un des deux comportement ci-dessus. Avec deux subtilités :

  • Si vous partez, ce sera du P-, car on aura enlevé les gâteaux.
  • Si vous arrivez à atteindre les gâteaux en cassant la boite à gants, vous ne ferez plus l’effort de chercher la combinaison lors des prochaines tentatives, vous irez au plus rapide : tout casser. Et si on tente de vous en empêcher, vous pourrez même mordre.

Renforcements : Points forts, points faibles

De nombreuses études ont été menées sur les points forts et points faibles du R+ et du R-.
Je vous en ai décortiqué quelques-unes sur ce blog, en voici un résumé:

Points forts Points faibles
R+ Donne de la vitesse, de la joie

En cas d’erreur (mauvais timing), c’est facile de rattraper la situation

 

Mauvaise résistance à l’extinction (le comportement disparaît rapidement lorsqu’il n’y a plus de friandise)

Sensible à la satiété, on ne peut pas faire de longue séances

R- Apporte de la précision, et parfois de la vitesse

Très bonne résistance à l’extinction

Apporte de la fiabilité (comportement ancré de façon fiable)

Délicat à mettre en œuvre, en cas d’erreur (timing, intensité), ça peut se transformer en P+, et c’est galère à récupérer

Ne donne pas de joie, de motivation

 

 

Vous noterez que le contenu de la case R- : points forts, est ce qu’on appelle souvent « le devoir ».

Conclusion

Ceux qui confondent encore R- et P+ se privent d’un outil d’apprentissage puissant. Et ils sont nombreux, je vois très peu de dresseurs l’utiliser. Leur ignorance du R- les rend souvent virulents contre cette approche, et ils répandent leur incompétences sur les réseaux sociaux ….. C’est vrai aussi que son utilisation requiert une bonne maîtrise de la technique, une bonne analyse en temps réel de la séance. Une erreur est difficile à rattraper. Cela demande aussi un très bon matériel afin de doser très précisément l’intensité et la durée de l’inconfort, et surtout de savoir s’en servir ….

Les curieux parmi vous sont en train de penser : et si on utilise les deux simultanément,  séquentiellement ou en alternance, est-ce que les avantages se cumulent ?
Patience, je suis en train d’accumuler les preuves scientifiques sur cette approche, mais ce n’est pas évident car les articles sur le sujet sont peu nombreux.
Et il va falloir, vous comme moi, encore clarifier quelques notions au préalable afin d’analyser tout ça le plus objectivement possible …

Et comme je l’ai déjà fait remarquer dans l’article renforcement-positif-et-negatif, la différence entre ajout et suppression dépend fortement du point de vue où on se place. Donner une friandise à son chien, est-ce améliorer son confort (R+), ou réduire l’inconfort lié à la faim (R-). Est-ce qu’on utiliserait donc la combinaison des deux sans le savoir ? Vaste débat.
N’oubliez jamais que tout ceci ne sont que des modélisations de phénomènes complexes, et que dans quelques années ils seront peut être complètement obsolètes. Mais en attendant, depuis Skinner, ces modèles n’ont cessé de s’améliorer, et chaque nouvelle étude les affine de plus en plus.

CC BY-NC-ND 4.0 R-, ou P+, R+ ? par Didier ESCALLIER est sous Licence Creative Commons Internationale Attribution-Pas d'utilisation Commerciale-Pas de Modification 4.0 .

2 réflexions sur « R-, ou P+, R+ ? »

  1. Bonjour.

    Beaucoup de vos articles sont très intéressants.

    Je suis de prêt les articles sur le conditionnement opérant (R+, R-, P+ et P-) avec parfois, effectivement, du mal à comprendre, mais maintenant ça commence à aller. Même si malheureusement, je pense que je fais parfois parti des personnes pour qui le R- c’est transformé en P+ (mais j’espère que ça passera avec l’expérience).

    Bref, si je peux me permettre, il faut m’arrêter si je me trompe, mais pour le Bip-Bip, il sonne seulement quand on démarre sans ceinture, donc il y a aussi de la P+quand même : on veut faire disparaitre « démarrer sans ceinture » alors on ajoute le Bip-Bip, non ? c’est en fait une association de P+ / R- et pas seulement du R-, enfin je trouve.

    1. Bonjour,
      et merci de vous intéresser à mon travail.
      Il est en effet très complexe de dissocier le P+ du R- dans le cadre d’un apprentissage formel. C’est pour cela qu’il est difficile de trouver un exemple simple et sans ambiguïté. Je dirai que l’apparition du bip-bip ne fait pas vraiment disparaître le comportement « démarrer sans ceinture », mais stimule la recherche du comportement qui va faire disparaître le désagrément. Si c’était du P+, le conducteur couperait le contact à l’apparition du BIP-BIP, car c’est ce comportement qui en est la cause.
      Pour aller plus loin:
      Pour qu’il y ai suppression d’un désagrément, il faut bien qu’a un moment ou à un autre ce désagrément soit apparu.
      Si ce désagrément appairait très progressivement (exemple: chien couché à l’ombre d’un arbre, et le soleil tourne), il ne sera pas associé à un comportement précis, on ne peut pas parler de punition.
      Si ce désagrément apparaît subitement, il ne sera du P+ que si l’action qui l’a précédé tends à disparaître (définition de la punition). Si l’apparition de ce désagrément n’entraîne pas la disparition d’un comportement, alors c’est juste un désagrément.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *