L’intérêt d’être cohérent

Être cohérent

Être cohérent dans son dressage, comme dans l’éducation de base, est une évidence lorsqu’on a un petit peu d’expérience. On ne va pas autoriser un jour l’accès au canapé, et le punir sévèrement le lendemain !

Même pour des choses aussi évidentes, les scientifiques veulent vérifier.
Je suis tombé sur une étude qui se penche sur ce qui se passe si des rats sont face à une situation incohérente (voir article en référence). C’était en 1960, mais toujours d’actualité.

Principe de l’expérience.

Des rats sont mis dans une cage, en présence de 2 leviers, A et B. La récompense est concrétisée par la distribution de liquide sucré, la punition par un léger choc électrique au niveau des pattes.
Le dispositif peut aussi produire 2 clicks sonore différents qui seront utilisés comme stimuli. Afin de garantir une parfaite répétabilité dans les timings, l’ensemble est commandé par un dispositif électrique à base de relais électromagnétique (en 1960, on ne parlait pas encore d’ordinateurs …).

Phase 1

Durant cette phase préliminaire, les rats sont récompensés si ils appuient sur le levier A après apparition du signal A, et jamais récompensé après apparition du stimuli B..
Le levier B n’était pas installé dans la cage durant cette phase.
Je vous passe les détails sur les variantes utilisées suivant les groupes de rats (type de stimuli sonore, fréquence de la récompense …).
Après 75-100 heures de cette phase, tous les rats avaient compris qu’il fallait appuyer sur le levier A dés apparition du stimuli A. Ils réagissait systématiquement et rapidement au stimuli.

Phase 2

Durant cette phase, 8 rats sur les 10 sont soumis à un protocole différent. Lorsqu’ils appuient sur le levier A, il reçoivent de façon aléatoire du liquide sucré, ou une décharge électrique.
Le levier B est introduit dans la cage. Si le rat appui sur le levier B, le stimuli sonore A se transforme en stimuli sonore B. Tant que le stimuli sonore B est actif, le levier A est inopérant (pas de liquide sucré, pas de choc électrique). Ces 8 rats sont répartis en plusieurs groupes pour lesquels les timing d’application des stimuli sont différents.
Un des 2 rats restant est soumis à des conditions légèrement différentes. Si il appuie sur le levier B, il n’y a pas apparition du stimuli sonore B, mais le levier A devient inopérant pendant un certain temps (idem groupe des 8 rats).
Le 10 eme et dernier rat continu à être soumis aux mêmes conditions que durant la phase 1,

Résultats

Sur les 8 rats soumis de façon aléatoire a une récompense ou une punition après appui sur le levier A suite au stimuli A, 4 ont choisi une « stratégie de fuite », avec parfois des « temps morts » (ils ne bougent plus).
Pour les 4 autres, la fréquence d’appui sur le levier A décroît fortement.

Afin de mieux comprendre ce qui provoque la stratégie de fuite et les temps morts, les chercheurs ont alors fait varier différents paramètres (suppression de la récompense ou de la punition).
Lorsque seule la punition ou la récompense est utilisée, les rats adoptent beaucoup moins la stratégie de « temps morts ». Ce phénomène est réversible, c’est-à-dire que si on réintroduit récompense et punition, les rats reprennent leur stratégie de fuite, ou font de longs temps morts. Lorsque seule la punition ou la récompense sont rétablie, les rats ne tentent plus de fuir, et n’ont plus de temps morts.En conclusion, ce qui est vraiment perturbant pour ces rats, c’est le mélange incohérent de récompense et de punition.
Les chercheurs ont ensuite multipliés les variations des autres paramètres (durée de la récompense ou des chocs, fréquence des stimuli, ..) afin de déterminer quel était le ratio optimal entre récompense et punition qui permettrait d’augmenter la fréquence d’appui sur le levier A. Les résultats ne furent pas concluant.

Phase 3

Durant cette phase, si le rat appuie sur le levier B à l’apparition du stimuli A, alors la punition est inhibée pendant un certain temps. Le rat apprends très vite à appuyer sur le le levier B. Il ne reçoit ainsi plus de récompense, mais évite surtout la punition.

Conclusion

La première conclusion, commune a beaucoup d’études de cette époque, c’est que le dressage par évitement de la punition, ça fonctionne, à condition d’être très cohérent. Ce n’est évidemment pas ce type de dressage qui est recommandé (surtout pas sur ce blog !), mais il faut arrêter de dire que ça ne fonctionne pas. Je préfère dire qu’il y a d’autres méthodes qui fonctionnent mieux.

L’autre conclusion est sans surprise : si nous sommes incohérent dans la distribution de punition ou de récompense, le chien n’apprends rien, et au pire risque d’adopter une stratégie de fuite ou d’immobilité.

Application au dressage canin

Je vois 2 applications pratiques aux conclusions de cette étude.

Application n°1 : Si on n’est pas un dresseur expérimenté et compétent, il ne faut pas utiliser la punition. Il est préférable de n’utiliser que la récompense. En cas d’erreur de timing, ou d’incohérence, on fera moins de dégâts. Au pire, si on récompense trop et n’importe comment, on aura un chien obèse, mais joyeux et content d’être nourri à tout moment !

Application n°2 : dans le cas d’un comportement auto-récompensant (courir après les chats par exemple) il est risqué d’utiliser la punition. En effet, on ne pourra jamais contrôler à 100% que le chien ne se récompensera pas de temps en temps, et sera puni le reste du temps. Face à cette situation confuse, Il va développer soit une réduction du nombre de comportement (mais il ne va pas complètement arrêter), soit une stratégie de d’évitement , ou d’immobilité. Mais dans tous les cas, le problème de fond ne sera pas réglé. Dans la pratique , l’utilisation de la punition pourra toutefois être une solution d’urgence qui pourra éviter la mise en danger du chien (cas du chien qui court après les voitures), ou lui éviter l’abandon voire l’euthanasie (propriétaire débordé ou excédé), mais ce ne sera toujours qu’une solution temporaire et ransitoire.

Référence :

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1404056/pdf/jeabehav00196-0068.pdf

CC BY-NC-ND 4.0 L’intérêt d’être cohérent par Didier ESCALLIER est sous Licence Creative Commons Internationale Attribution-Pas d'utilisation Commerciale-Pas de Modification 4.0 .

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *