L’intérêt d’être cohérent

Être cohérent

Être cohérent dans son dressage, comme dans l’éducation de base, est une évidence lorsqu’on a un petit peu d’expérience. On ne va pas autoriser un jour l’accès au canapé, et le punir sévèrement le lendemain !

Même pour des choses aussi évidentes, les scientifiques veulent vérifier.
Je suis tombé sur une étude qui se penche sur ce qui se passe si des rats sont face à une situation incohérente (voir article en référence). C’était en 1960, mais toujours d’actualité.

Principe de l’expérience.

Des rats sont mis dans une cage, en présence de 2 leviers, A et B. La récompense est concrétisée par la distribution de liquide sucré, la punition par un léger choc électrique au niveau des pattes.
Le dispositif peut aussi produire 2 clicks sonore différents qui seront utilisés comme stimuli. Afin de garantir une parfaite répétabilité dans les timings, l’ensemble est commandé par un dispositif électrique à base de relais électromagnétique (en 1960, on ne parlait pas encore d’ordinateurs …).

Phase 1

Durant cette phase préliminaire, les rats sont récompensés si ils appuient sur le levier A après apparition du signal A, et jamais récompensé après apparition du stimuli B..
Le levier B n’était pas installé dans la cage durant cette phase.
Je vous passe les détails sur les variantes utilisées suivant les groupes de rats (type de stimuli sonore, fréquence de la récompense …).
Après 75-100 heures de cette phase, tous les rats avaient compris qu’il fallait appuyer sur le levier A dés apparition du stimuli A. Ils réagissait systématiquement et rapidement au stimuli.

Phase 2

Durant cette phase, 8 rats sur les 10 sont soumis à un protocole différent. Lorsqu’ils appuient sur le levier A, il reçoivent de façon aléatoire du liquide sucré, ou une décharge électrique.
Le levier B est introduit dans la cage. Si le rat appui sur le levier B, le stimuli sonore A se transforme en stimuli sonore B. Tant que le stimuli sonore B est actif, le levier A est inopérant (pas de liquide sucré, pas de choc électrique). Ces 8 rats sont répartis en plusieurs groupes pour lesquels les timing d’application des stimuli sont différents.
Un des 2 rats restant est soumis à des conditions légèrement différentes. Si il appuie sur le levier B, il n’y a pas apparition du stimuli sonore B, mais le levier A devient inopérant pendant un certain temps (idem groupe des 8 rats).
Le 10 eme et dernier rat continu à être soumis aux mêmes conditions que durant la phase 1,

Résultats

Sur les 8 rats soumis de façon aléatoire a une récompense ou une punition après appui sur le levier A suite au stimuli A, 4 ont choisi une « stratégie de fuite », avec parfois des « temps morts » (ils ne bougent plus).
Pour les 4 autres, la fréquence d’appui sur le levier A décroît fortement.

Afin de mieux comprendre ce qui provoque la stratégie de fuite et les temps morts, les chercheurs ont alors fait varier différents paramètres (suppression de la récompense ou de la punition).
Lorsque seule la punition ou la récompense est utilisée, les rats adoptent beaucoup moins la stratégie de « temps morts ». Ce phénomène est réversible, c’est-à-dire que si on réintroduit récompense et punition, les rats reprennent leur stratégie de fuite, ou font de longs temps morts. Lorsque seule la punition ou la récompense sont rétablie, les rats ne tentent plus de fuir, et n’ont plus de temps morts.En conclusion, ce qui est vraiment perturbant pour ces rats, c’est le mélange incohérent de récompense et de punition.
Les chercheurs ont ensuite multipliés les variations des autres paramètres (durée de la récompense ou des chocs, fréquence des stimuli, ..) afin de déterminer quel était le ratio optimal entre récompense et punition qui permettrait d’augmenter la fréquence d’appui sur le levier A. Les résultats ne furent pas concluant.

Phase 3

Durant cette phase, si le rat appuie sur le levier B à l’apparition du stimuli A, alors la punition est inhibée pendant un certain temps. Le rat apprends très vite à appuyer sur le le levier B. Il ne reçoit ainsi plus de récompense, mais évite surtout la punition.

Conclusion

La première conclusion, commune a beaucoup d’études de cette époque, c’est que le dressage par évitement de la punition, ça fonctionne, à condition d’être très cohérent. Ce n’est évidemment pas ce type de dressage qui est recommandé (surtout pas sur ce blog !), mais il faut arrêter de dire que ça ne fonctionne pas. Je préfère dire qu’il y a d’autres méthodes qui fonctionnent mieux.

L’autre conclusion est sans surprise : si nous sommes incohérent dans la distribution de punition ou de récompense, le chien n’apprends rien, et au pire risque d’adopter une stratégie de fuite ou d’immobilité.

Application au dressage canin

Je vois 2 applications pratiques aux conclusions de cette étude.

Application n°1 : Si on n’est pas un dresseur expérimenté et compétent, il ne faut pas utiliser la punition. Il est préférable de n’utiliser que la récompense. En cas d’erreur de timing, ou d’incohérence, on fera moins de dégâts. Au pire, si on récompense trop et n’importe comment, on aura un chien obèse, mais joyeux et content d’être nourri à tout moment !

Application n°2 : dans le cas d’un comportement auto-récompensant (courir après les chats par exemple) il est risqué d’utiliser la punition. En effet, on ne pourra jamais contrôler à 100% que le chien ne se récompensera pas de temps en temps, et sera puni le reste du temps. Face à cette situation confuse, Il va développer soit une réduction du nombre de comportement (mais il ne va pas complètement arrêter), soit une stratégie de d’évitement , ou d’immobilité. Mais dans tous les cas, le problème de fond ne sera pas réglé. Dans la pratique , l’utilisation de la punition pourra toutefois être une solution d’urgence qui pourra éviter la mise en danger du chien (cas du chien qui court après les voitures), ou lui éviter l’abandon voire l’euthanasie (propriétaire débordé ou excédé), mais ce ne sera toujours qu’une solution temporaire et ransitoire.

Référence :

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1404056/pdf/jeabehav00196-0068.pdf

Le devoir

Le devoir

Cette notion de devoir dans le dressage canin est souvent floue, ou mal comprise. Je vais expliquer ma façon d’aborder cette notion.

Ma définition

Le devoir, c’est lorsque le chien aurait un intérêt à faire autre chose que ce que son dresseur lui demande, mais fait quand même ce qui est demandé.

On peut voir ces notions d’intérêt et de devoir suivant 2 modèles :

– En confort/inconfort : ce que demande le conducteur amène moins de confort que l’autre choix, mais le chien choisi de faire quand même ce que demande le conducteur

– En coût : ce que demande le conducteur conduit à faire plus d’effort, à dépenser plus d’énergie, que l’autre choix, mais le chien choisi de faire quand même ce que demande le conducteur

Notez que j’insiste sur la notion de décision du chien.

Comment arriver à ce résultat ?

Je vais me baser sur une situation simple : le chien est à côté de son conducteur et doit  le regarder fixement et intensément. Une distraction apparaît qui aura tendance  à faire détourner le regard du chien, voire  le chien s’éloigne du conducteur en direction de la distraction.
Il y a deux approches possibles suivant votre compréhension de l’exercice

Le chien doit me regarder

On est là clairement dans une notion de renforcement puisqu’on cherche à ce qu’un comportement se reproduise le plus souvent possible. Je resterai sur le renforcement positif.
Le mode opératoire est le suivant :

  • Le chien détourne son regard du maître: on ne fait rien, on ne dis rien
  • Le chien se reconcentre sur son maître: on renforce fortement (balle, tug, bouffe, félicitations …)

La limite de la méthode est lorsque le chien est tellement attiré par la distraction qu’il s’éloigne du maître.

Le chien ne doit pas se laisser distraire

On veut faire cesser un comportement, il faut donc utiliser la punition.
Sur le principe, c’est simple : dès que le chien est attiré par la distraction, on sanctionne.
Je pars du principe qu’on sait ce qu’est une sanction, c’est-à-dire un inconfort juste suffisant pour que le chien cesse volontairement le comportement indésirable. Il n’est pas question de « forcer » le chien à faire quoi que ce soit. Se détourner de la distraction doit être sa décision pleine et entière.

La limite de la méthode, c’est qu’on n’a pas appris au chien à ignorer la distraction, mais pas à regarder son maître. C’est ballot …

Dans certains cas on peut avoir l’illusion qu’on a appris au chien à regarder son maître. Mais en analysant de plus prêt, c’est juste que le chien n’a pas compris la sanction, et il regarde son maître en se disant « qu’est ce qui te prends de me faire ça, pourquoi tu fais ce truc bizarre avec la laisse ?) 🙂

Mon approche

Personnellement, je mixe les 2 méthodes, en restant cohérent avec les bases du conditionnement opérant : c’est le chien qui fait son choix après réflexion.
Tout d’abord, j’utilise une laisse uniquement pour limiter les déplacements du chien et éviter qu’il s’éloigne en direction de la distraction, et je travaille face à un miroir afin d’observer le chien sans avoir à bouger la tête.

Ensuite, je gère entièrement l’environnement de façon à contrôler l’apparition des distractions et leur intensité. Cela permet de monter très progressivement le niveau de la distraction, en s’assurant à chaque palier que le chien à bien compris l’exercice, et qu’il a bien compris que ses choix déterminent les conséquences.
Je sanctionne lorsque le chien détourne le regard (léger inconfort via la laisse), et je renforce fortement lorsque le chien décide de me regarder (récompense alimentaire, social, en le félicitant chaleureusement, ..).

TRES IMPORTANT : Je dis bien décide de me regarder. C’est son choix, issu de sa réflexion.

Si vous analysez la séquence :

  • Le chien se distrait : P+ (inconfort par légères secousses sur la laisse)
  •  Le chien cesse de se laisser distraire : R- (arrêt de l’inconfort), R+ (récompense alimentaire, sociale ..)

2 R pour 1 P, on est 2 fois plus dans le renforcement que dans la punition …

Cela permet de tirer avantage des deux approches :

  • Engagement, intensité lié au renforcement
  • Fiabilité, résistance à l’extinction lié à la punition

Une fois que le chien à bien compris cette notion sur un exercice simple, on peut généraliser sur des choses plus compliquées, avec des distractions de plus en plus fortes (HA lors d’une garde au ferme ….).

Démonstration :

une petite vidéo issue du post http://chiens-actifs.eu/2015/08/la-methode-illustree/

A 1mn 47s les distractions apparaissent.

Click to Watch Video

L’intérêt d’avoir un retour d’information

L’intérêt d’avoir un retour d’information

Pourquoi cet article ?

Le sujet qui fait débat sur les forums, est de savoir si il vaut mieux punir ou récompenser.
Je vais aborder ce sujet dans le cas où nous (ou notre chien) devons faire un choix simple entre 2 comportements. Ce cas se présente de très nombreuses fois par jour, pour nous, ou pour nos chiens.
Deux exemples typiques concernant nos chiens :

  • Mon maître me rappelle. Dois je continuer à renifler ce brin d’herbe, ou dois je rejoindre mon maître ?
  • Je marche au pied de mon maître en le regardant intensément. Dois-je me détourner pour aller voir ce qui vient de titiller ma vision périphérique, ou dois je rester le regard fixé sur mon maître ?

Je n’aborderai ce sujet que sur l’aspect « performance », c’est-à-dire nombre de fois ou le chien fait le « bon » choix (celui que nous voulons). Je n’aborderai pas les conséquences sur  l’aspect « chien actif » dont j’ai déjà parlé (pour rappel, la récompense encourage à proposer autre chose en cas d’erreur, la punition inhibe cette tendance).

Principe du retour d’information

En anglais, feedback.

C’est le fait de savoir si le choix que nous avons fait est le bon ou pas.
Je ne parle pas de l’aspect « confort/inconfort » qu’apporte la conséquence de notre décision, mais bien l’aspect purement intellectuel d’avoir fait le bon choix.
On sait bien intuitivement que si nous n’avons aucun retour d’information, on ne sait pas si notre choix est bon, et donc on ne vas pas progresser.
Prenons l’exemple des tables de multiplication que nous devions apprendre et réciter dans notre enfance. Si personne ne nous disait si la table que nous venions de réciter était correcte ou pas, on comprend bien qu’il nous aurait été difficile de progresser.
Mais est il préférable de récompenser la bonne restitution, de punir la mauvaise ? Ou les 2 ? Quelle forme doit prendre ce stimulus de retour ?
J’ai fait quelques recherches sur le sujet, et je suis tombé sur l’article cité en référence, que je vais essayer de résumer ici car il est particulièrement adaptable à notre activité.

Déroulement de l’expérience

Des étudiants devaient trier des cercles hachurés qui apparaissaient sur un écran. Il devaient les classer en 2 groupes, en cliquant sur 2 boutons (un dans chaque main, un fonction d’un critère qu’ils ne connaissait pas au départ (taille des hachures, orientation des hachures ..)
Le retour d’information était réalisé par un son de 2 tonalités différentes suivant le type de retour (correct / incorrect).
Ces sons ont été choisi pour n’être ni particulièrement agréables, ni particulièrement désagréables, afin d’éliminer toute notion de confort/inconfort.
Suivant les groupes, le retour d’information était donné différemment :

  • PFB (positive feedback) : les bonnes réponses étaient confirmées 80% des fois, les mauvaises réponses ignorées
  • NFB (négative feedback) : les mauvaises réponses étaient confirmées 80% des fois, les bonnes réponses ignorées
  • Partial : les bonnes et mauvaises réponses étaient confirmées de temps en temps
  • Full : toutes les réponses, bonnes ou mauvaises étaient confirmées

Résultats bruts :

On constate que la combinaison de retours positifs et négatif est bien plus efficace en terme d’apprentissage que l’utilisation d’un seul type de retour.

Lorsque qu’un utilise qu’un seul type de retour, le retour négatif est plus efficace en terme de rapidité d’apprentissage, et en terme de fiabilité.

Conclusion des auteurs :

L’apprentissage dans ce type de test est possible avec des retours soit uniquement positif, soit uniquement négatif, mais est plus efficace lorsque les deux sont utilisés simultanément.
La littérature montre que la nature et le timing du feed back sont des paramètres importants.
Ce type d’apprentissage est le plus efficace lorsqu’un retour d’information est donné systématiquement et immédiatement après la réponse.
Les auteurs insistent que leurs conclusions ne s’appliquent qu’a ce type d’apprentissage (type II learning), qui se caractérise par des choix simples, qui ne nécessitent pas d’attention ou d’effort particulier, qui sont presque automatiques. Ce ne serai pas le cas dans les situations de choix plus complexes (rules based) qui nécessitent plus d’attention et de concentration.

Conclusion personnelle

Ce type de situation où nos chiens doivent faire des choix simples sont très courantes dans nos disciplines canines. Cette étude est donc appropriée pour améliorer notre compréhension du dressage.
Vous remarquerez qu’il n’est pas ici question de punition ou de récompense, mais de retour d’information, sans impact confort/inconfort. Cela sert juste d’information pour que notre chien sache si il a bien fait, ou pas.
En pratique, cela consiste à mettre en place un code avec notre chien, pour lui dire si ce qu’il vient de faire est bien ce qui est attendu, ou pas. Le plus classique est le « good boy » pour CORRECT, et le « NOPE » pour INORECT.
J’avais déjà parlé d’un article de ED FRAWLEY qui aborde ce sujet (article sur le marqueur training).
http://leerburg.com/markers.htm

On voit au travers de cette étude qu’il est important de mettre en place les retours positifs et négatifs. Nos chiens en ont besoin. On entend souvent dire qu’il ne faut pas dire « NON » en phase d’apprentissage. C’est à la fois vrai, et faux.
Si le « NON » est dit d’un ton autoritaire, et est destiné à faire cesser une action, ce n’est pas de cela dont on parle ici. Mais si le « NON » est dit calmement, et dont le but est d’inciter le chien à proposer autre chose, alors c’est exactement de cela dont il s’agit. Et il ne faut surtout pas s’en priver !

Pour la compétition, on utilisera évitera les codes sonores trop évidents, et on préférera des codes visuels beaucoup plus discrets. Cela évitera au chien de douter, et de rajouter un stress supplémentaire à une situation de compétition déjà stressante.
Dans le cas d’un chien « fort », cela ne sert pas à grand-chose car il est sûr de lui en toute circonstance, mais dans le cas d’un chien assez faible, comme JESSY, cette aide est primordiale. Cela l’aide a prendre confiance en elle, c’est notre « YES, YOU CAN » à nous ….

Vous pouvez maintenant éteindre votre ordinateur, et donner à votre chien des retours d’informations …

Référence

https://labs.psych.ucsb.edu/ashby/gregory/Ashby_OBrien_P&P.pdf

intense flex

INTENSE FLEX

Petit décrassage en sortie d’hiver.

Click to Watch Video