Archives de catégorie : shaping

Récompense et punition : le jeu du chaud et froid

Récompense et punition : le jeu du chaud et froid

Pourquoi faire ?

Dans un article précédent, je vous avais proposé d’imaginer comment agissaient la récompense et la punition. Je vous propose ici de le vivre, comme le vivent nos chiens pendant nos séances d’entraînement. C’est un jeu simple, à réaliser en famille ou entre amis. C’est une excellente animation pour vos clubs canin, mais aussi pour animer des journées canines dans les écoles.

Objectif du jeu

Avec ce jeu, vous allez découvrir comment faire réaliser un comportement complexe à quelqu’un en utilisant seulement 1, puis 2 mots seulement: chaud et froid. C’est un exercice qui n’est pas toujours évident, car faire une phrase pour expliquer ce qu’il faut faire nous semble tellement plus évident ! Malheureusement avec nos chiens, faire des phrases ne sert à rien, il faut revenir à des choses beaucoup plus simple. En jouant au jeu du chaud et froid, vous allez voir que certains ne peuvent pas s’empêcher de parler lorsque l’élève ne comprends pas les indications données avec seulement 1 mot. C’est effectivement très frustrant de ne pas arriver à se faire comprendre, mais c’est le problème le plus fréquent rencontré entre maître et chien, cause de bien des frustrations, et parfois d’abandon.

Préparation du terrain

Je prendrai le cas le plus classique du jeu réalisé dans le cadre d’un club canin. Ce n’est évidement qu’un exemple à adapter en fonction du matériel disponible (un bon dresseur doit s’adapter en permanence à la situation qu’il a en face de lui!).

Il vous faut:

  • un terrain parfaitement délimité, 10 m x 10 m par exemple. On l’appellera « la piscine »
  • 2 chaises
  • 2 ou 3  cônes de couleurs différentes
  • 2 ou 3 piquets
  • 1 ou 2 foulards
  • 1 ballon

Vous répartissez de façon aléatoire tous ces objets sur le terrain, en essayant d’occuper tous l’espace. Évitez de mettre côte à côte 2 objets identiques afin de simplifier un peu le jeu. Si vous jouez avec de jeunes enfants, je vous recommande de réduire la taille de la piscine, ainsi que le nombre d’objets.

Début du jeu

On commence par réunir tous les participants, et choisir celui qui jouera le rôle de l’élève.

L’élève doit alors s’éloigner afin de ne pas entendre , ni voir l’étape suivante qui consiste pour le groupe à choisir le comportement qu’on va devoir lui faire réaliser.

Exemples de comportements:

  • prendre le foulard rouge et aller s’asseoir sur la chaise de gauche
  • faire le tour du cône rouge, prendre le ballon, et aller le poser sous la chaise de droite
  • faire le tour du piquet de gauche, prendre le foulard, se le mettre autour du cou, faire le tour du cône, prendre le ballon, faire 3 fois le tour de la chaise de droite, s’asseoir sur la chaise de gauche et tenir le ballon au dessus de sa tête

On commencera le jeu par des comportements simples, puis au fur et à mesure que les participants prennent de l’expérience, on demandera des comportements de plus en plus complexes (tout comme avec nos chiens ..)

Il ne reste plus qu’à choisir qui fera le moniteur pour ce tour de jeu, et on peut rappeler l’élève, et le faire sauter dans la piscine. A partir de ce moment-là, plus personne ne parle, excepté le moniteur au vocabulaire réduit ! La seule chose que l’on doit entendre, ce sont les consignes données par le moniteur,  et les éclats de rires des spectateurs !

Le jeu du chaud

chaud
chaud

Dans ce jeu, on va travailler sur la notion de récompense pour renforcer un comportement. Le moniteur devra prononcer le mot « chaud » lorsque l’élève ébauche un mouvement dans la direction choisie  pendant la préparation. Si l’élève part dans la mauvaise direction, on ne dit rien (on ne trépigne pas d’impatience non plus !). Il faut rester le plus neutre possible. C’est un travail de « façonnage » du comportement par petits progrès successifs. Si vous vous trompez en disant « chaud » au mauvais moment, ce n’est pas trop grave, mais vous allez un peu désorienter votre élève.

Patience, rigueur, observation, sont les qualités indispensables pour le dresseur.

Joie, dynamisme, optimisme, sont les qualités indispensables pour l’élève. Si vous tombez sur un élève peu dynamique, il risque de simplement se planter au milieu du terrain et attendre (si vous êtes vous-même élève, essayez donc de rester sans bouger, vous verrez la réaction du moniteur !)

Le jeu du froid

froid
froid

Dans ce jeu, on ne va travailler que sur la notion de punition, c’est à dire quelque chose destiné à faire disparaître un comportement. Mais comment faire réaliser un comportement avec un système destiné justement à les faire disparaître ? Contrairement à ce que proclame beaucoup de dresseurs qui communiquent beaucoup mais côtoient peu de chiens, c’est tout à fait possible, et absolument pas traumatisant pour l’élève. Sinon, je ne vous proposerai pas de le faire avec des enfants !

Le moniteur devra prononcer le mot « froid » lorsque l’élève part dans la mauvaise direction, ou bien reste immobile. C’est aussi une méthode pour façonner un nouveau comportement. Attention, car si vous prononcez le mot « froid » alors que l’élève est dans la bonne direction, vous allez devoir bien ramer pour rattraper le coup et le convaincre que finalement c’était bien ça. Vous risquez de le décourager rapidement s’il ne vous considère pas comme quelqu’un fiable et de confiance. La rigueur est la qualité indispensable pour le moniteur.

Le jeu de chaud et froid

chaud froid

Cette fois ci, le moniteur est autorisé a utiliser les deux possibilités , c’est à dire:

  • « chaud » quand l’élève est dans la bonne direction
  • « froid » quand l’élève est dans la mauvaise direction

Il faut rester concentré, car c’est beaucoup plus rapide qu’avec l’utilisation d’un seul mot.

Conclusion

C’est à vous de la faire après avoir joué à ce jeu avec de nombreuses personnes différentes, et en ayant joué vous-même le rôle de l’élève et du moniteur (les deux sont très intéressants).

Si vous avez déjà lu les articles de ce blog, vous devez certainement déjà en avoir une petite idée, mais rien ne vaut la pratique, et le vivre soi même.

Vous pouvez maintenant, quitter votre ordinateur, appeler vos amis et organiser une partie de « chaud et froid ».

 

 

Le Maître: manipulateur ou manipulé ?

Le Maître: manipulateur ou manipulé ?

Pourquoi cet article

Lorsque j’explique à mes élèves qu’on va apprendre au chien à manipuler son maitre pour lui faire faire faire ce qu’il veut, je sens de l’incrédulité dans leur regard. Je lis dans leur pensées comme dans un livre ouvert: « je suis venu pour apprendre à mon chien à faire quelque chose, pas le contraire ! ».

Je vais donc essayer de clarifier dans cet article ce qui se cache derrière cette notion du chien qui manipule son maître, et cette notion de « chien actif ».

Le conditionnement opérant

Si vous êtes un habitué de ce blog, vous savez que j’utilise à fond le conditionnement opérant avec Jessy et Heiko. Je vais dans ce chapitre détailler les subtilités de cette approche.

Application basique

Edward THORNDIKE, le père du béhaviorisme. avait popularisé dans les années 30 la notion de « cause à effet ». Cela consiste à dire que si une action à une conséquence  agréable, on aura tendance à la refaire, et si réciproquement, une action a une conséquence désagréable, on aura tendance à ne plus la refaire.

C’est la notion de confort/inconfort dont on entends parfois parler sur le bord des terrains d’entraînement.

Transposé à l’entraînement de nos chiens, c’est par exemple : le chien va vers un cône et il y découvre de la nourriture. Il va donc régulièrement retourner au cône pour voir si de la nourriture n’y serait pas apparue par magie.

Dans ce type de technique d’apprentissage, le chien apprend que ces actions ont des conséquences fournies par l’environnement. Le chien subi l’environnement, ce n’est pas un chien actif. Si vous vous contentez de cela, vous atteignez rapidement une limite dans votre dressage, un plafond de verre.

Application évoluée

Burrhus Frederic Skinner est le père du conditionnement opérant. Il a démontré que dans l’apprentissage, on pouvait avoir une action sur l’environnement. Pour atteindre la récompense, on peut être amené à modifier l’environnement, à influer sur lui. Par exemple, pour accéder à la récompense, on peut ouvrir une boite, soulever une pierre, prendre sa voiture et rouler 500 km de nuit pour retrouver sa fiancée ….

On ne subit plus l’environnement, on le modifie, on réfléchi, puis on influe sur lui. On est actif!

Et le maître dans tout ça ?

Le maître fait partie de l’environnement. On va donc faire comprendre au chien qu’il peut agir sur nous.

Imaginez la conversation suivante entre Heiko et Jessy:

 » Viens voir, j’ai découvert un truc génial ! Je m’assois, et le grand couillon là-bas me file à bouffer. Et ça marche à tous les coups ! J’en fais ce que j’en veux de ce grand dadais! ».

Mes chiens me manipulent… Ne riez pas trop car il est fort probable que ce soit pareil chez vous. N’avez-vous jamais craqué lorsque votre chien vous regarde en hochant la tête ? Ne lui avez-vous pas donné un petit bout de votre tartine de pain lorsqu’il se couche à vos pieds en soupirant d’un air malheureux ?

Le manipulateur manipulé

C’est là que mon coté machiavélique apparaît. J’ai conscience que mon chien me manipule. Je vais donc moi-même manipuler son esprit pour le renforcer dans cette idée. Je vais même faire en sorte que sa manipulation réussisse lorsqu’il réalise l’action que justement je veux qu’il fasse.

C’est la manipulation à double détente, base de tout ce que je fais avec Jessy. Elle doit en permanence réfléchir à ce qu’elle doit faire pour me manipuler, afin que moi, grand dadais que je suis, je lui donne accès à plus de confort (nourriture, jeux, câlins ..).

La réponse à la question contenue dans le titre de cet article est donc : les deux, mon capitaine.

Il est temps d’éteindre votre ordinateur et d’aller vous faire manipuler par votre chien.

Références

https://fr.wikipedia.org/wiki/Edward_Thorndike

https://fr.wikipedia.org/wiki/Burrhus_Frederic_Skinner

Utilisation des 3 cerveaux du chien et de son maitre

Utilisation des 3 cerveaux du chien et de son maître

Les trois cerveaux

Le chien à 3 cerveaux, et son maître aussi.

Pour ceux que cette affirmation laisse perplexe,

tout est expliqué dans: les trois cerveaux du chien

Comment cela se traduit il dans notre communication avec notre chien ?

Comment utiliser cela efficacement ?

Voici ma façon de voir les choses.

Chez le chien

Le mode survie

Utilise le cerveau reptilien.

Dans ce mode, le chien ne réfléchi pas, ne tire aucune conséquence de ses actes, il agit instinctivement pour sauver sa peau, soit en fuyant, soit en attaquant. Lorsque le chien est en mode agression, certains appellent cela « la zone rouge ». Dans ce mode, le chien n’est plus réceptif à aucun stimulus extérieur. Inutile d’agiter une balle sous son nez pour détourner son attention, l’information n’atteindra même pas son cerveau.

Ce mode n’a aucun intérêt en éducation ou en dressage. Aucun humain ne devrait mettre un chien dans ce mode, quelle qu’en soit la raison.

Le mode émotion

Utilise le cerveau limbique.

Dans ce mode, le chien n’est pas vraiment en état de réfléchir. Il réagi instinctivement à des stimuli qui viennent solliciter ses instincts primaires.

C’est typiquement ce que nous utilisons dans le conditionnement Pavlovien. Il est toujours dans ce cas associé à un contexte, et à un un stimulus inconditionnel (agréable comme une bonne nourriture, ou désagréable comme une légère douleur). Le conditionnement Pavlovien permet de l’associer à un stimulus inconditionnel, tel qu’un objet ou un son.

Il est délicat à utiliser. Il faut doser le stimulus en fonction du chien. Si le stimulus est trop faible, il ne sert à rien, et si il est trop fort, on risque de passer en mode survie.

Exemple d’utilisation avec un stimulus aversif: le chien qui « fait la poubelle », au risque de se blesser avec un emballage. On lui tend un piège, on fait une mise en scène. Lorsqu’il a la tête dans la poubelle, on fait en sorte que l’environnement de la poubelle lui fasse une grosse frayeur (bruit soudain de casseroles qui tombent à coté de lui, chute de bouteilles en plastique sur son dos, …. ). Il va ainsi associer la poubelle à quelque chose d’émotionellement désagréable, et ne s’en approchera plus. Vous comprenez que le dosage du stimuli aversif est extrêmement important. Trop faible, il va habituer le chien à faire la poubelle même en présence de bruit, trop fort, le chien n’osera même plus rentrer dans la cuisine.

Mais on pourra aussi se servir d’un état émotionnel agréable pour obtenir de l’intensité dans un exercice. Par exemple pour un chien passionné par son jouet au point de se mettre à trembler en le voyant, on s’en servira pour obtenir des rappel rapides et fiables. Le conditionnement Pavlovien permettra d’associer l’émotion d’avoir le jouet (stimulus inconditionnel) au signal de rappel (stimulus conditionnel).

L’utilisation des émotions est un outil puissant, à manier avec précaution, surtout avec un chiot ou un jeune chien.

Le mode réflexion

Utilise le néocortex.

C’est ce qu’on utilise en conditionnement opérant (mon préféré!). On fait réfléchir le chien aux conséquences de ses actes.

Il faut bien doser l’intensité des stimuli afin de ne pas passer en mode émotionnel. Par exemple, certains chiens se figent en voyant une balle tellement elle est chargée d’instinct de prédation. On ne l’utilisera donc pas dans ce mode d’apprentissage. On restera sur des stimuli moins « émotifs », tels que la nourriture (attention, certains chiens qu’on appellent vulgairement « gamelards » passent en mode « émotion » dés qu’ils voient de la nourriture!). Il faut bien connaître la valeur de nos stimuli vis à vis de notre chien afin d’utiliser au mieux ce mode d’apprentissage.

En revanche, après quelques exercices en mode « réflexion « , j’utilise toujours une méga récompense, le « jackpot », à la fois pour marquer émotionnellement une réussite, et aussi pour laisser une pause au néocortex. Le temps de concentration d’un chien est limité, surtout chez un chiot. Il faut lui conserver le plaisir de nos séances d’apprentissage.

Comme expliqué dans le lien  cité en début de cet article, le neocortex n’est pas particulièrement développé chez le chien. C’est pourquoi il faut absolument travailler ce développement chez les chiots. L’utilisation de jeux d’éveils, l’apprentissage de quelques tours simples (toucher la main de son maître) permettent ce développement.

Chez le maître

Le mode survie

Je ne connais qu’un cas ou un humain peut passer efficacement dans ce mode en présence d’un chien: lorsqu’on se balade tranquillement, et que subitement un chien sorti de nulle part (ou d’une cour de ferme) vous fonce dessus, toutes dents dehors. Dans ces cas là, je passe en mode « combat », et je lui fonce dessus en l’agressant. L’environnement étant ouvert, le chien fuit la queue entre les jambes. Dans cette situation, il ne faut pas « faire semblant », car le chien le sent très bien. Il faut vraiment que le chien vous sentent près à défendre chèrement votre peau et prenne peur.

Attention je ne parle pas de cas de séance de traitement d’agressivité sur un chien (ou tout doit rester parfaitement sous contrôle), ni du  cas de chien de protection de troupeau (il fait son boulot, faites un détour pour vous écarter de son troupeau).

Le mode émotion

Ce mode là n’a rien à faire lors d’une séance de dressage ou d’éducation.

On le  réservera au parties de câlins et de léchouilles avec son copain canin, en dehors des séances d’apprentissage.

Le mode réflexion

C’est le seul mode dans lequel il faut être pendant un entraînement ou une séance d’éducation. On observe son chien, on analyse, et on adapte en permanence l’entraînement. Et comme il faut quand même réagir vite aux réactions du chien, on aura au préalable préparé sa séance pour ne pas se trouver pris au dépourvu en cas de réaction inattendue.

La méthode illustrée

Suite à la demande de lecteurs, une illustration de l’article sur la synthèse de la méthode, avec Jessy dans le rôle principal.

La séquence a été improvisée à la fin d’un entraînement. J’ai pris comme exemple la position de base.

Click to Watch Video

Le leurre

Je montre à Jessy le mouvement à effectuer. Vous remarquerez qu’elle pousse sur la main pour venir chercher la nourriture, ce n’est pas moi qui lui met en gueule.

Le shaping

Jessy connaissant parfaitement l’exercice, ce n’est pas vraiment du shaping. Vous remarquerez toutefois à la fin de la séquence, lorsqu’elle est distraite, j’attends quelle me propose un joli levé de tête pour valider avec un marqueur sonore, puis récompenser. Vous remarquerez aussi que Jessy ne travaille pas pour la récompense, mais bien pour que je lui donne accès à la récompense.

Le renforcement

Dans cette phase, on devient plus exigeant. Je rajoute des distractions, dont le dosage est parfaitement contrôlé. Si Jessy ne propose pas le bon comportement, elle en assume les conséquence (petit rappel à l’ordre via le collier). Il serait en effet illusoire de penser que Jessy va gentiment préférer me regarder, au lieu de regarder les balles qui s’agitent sous son nez …. Et toujours l’attente du marqueur vocal pour accéder à la récompense.

 

Click et leurre

Je vois parfois des personnes utiliser simultanément le leurre et le click .D’après moi, ce n’est pas cohérent.

Le leurre:

Il est utilisé pour apprendre un geste, une posture. Il est utilisé sur des répétitions. Il doit être actif, c’est à dire que le chien pousse sur la main, et ne suis pas passivement. C’est le chien qui réagit au comportement du maître.

Le Click:

Il est utilisé en conditionnement opérant, c’est à dire que le chien doit réfléchir, doit proposer des choses pour nous faire cliquer. C’est le maître qui réagit au comportement du chien.

Alors, Click ou leurre ?

Les 2! Mais pas simultanément; successivement, ou en alternance Voici mon approche: on apprends le geste technique au leurre, et ensuite on demande au chien de le proposer en conditionnement opérant. On utilise ainsi le meilleur des deux techniques.

Bonus:

Le leurre est il utilisable en conditionnement opérant ? Pour moi, oui, si le leurre est utilisé de la façon suivante: le chien doit exécuter la position, le mouvement, ce qui aura pour conséquence de lui donner accès au leurre. C’est donc bien son action qui va déclencher la récompense.

Le conditionnement opérant

Le conditionnement opérant,

aussi appelé instrumental, skinnerien, ou de type II, a été étudié par Frederic Skinner dans les années cinquante.

Le 1er dispositif expérimental est le suivant :

– un rat est mis dans une cage, munie d’un levier,

– lorsque le rat actionne le levier, il reçoit de la nourriture.

Que ce passe-t-il lorsqu’un rat est mis dans la cage ? Il déambule, et lorsqu »il touche par hasard le levier, de la nourriture tombe.

Au bout de quelques répétitions de ce hasard, le rat se met à appuyer volontairement sur le levier pour recevoir de la nourriture.

Le 2ème dispositif expérimental est le suivant :

– un rat est mis dans une cage, dont une zone au sol est grillagée,

– ce grillage est reliée à une source électrique de faible tension.

Que ce passe-t-il lorsqu’un rat est mis dans la cage ? Il déambule, et lorsqu’il marche par hasard sur le grillage, il ressent une sensation désagréable.

Au bout de quelques répétitions de ce hasard, le rat va volontairement éviter le grillage.

De ces 2 expériences, de nombreux points fondamentaux de l’apprentissage ont été déduits. Je les détaillerai dans d’autres articles. Ce qu’il est fondamental de comprendre, c’est que l’animal est pleinement acteur de son apprentissage. Il constate que ses actions ont des conséquences (agréables ou désagréables), et il adapte consciemment son comportement en conséquence. Il est acteur de son comportement.

Il faut aussi retenir, que c’est l’environnement qui réagit aux actions de l’animal. L’animal comprends qu’il peut agir sur son environnement, et non pas seulement le subir.

Nos chiens, et nous-même, sommes impliqués quotidiennement dans des conditionnements de type II :

– notre chien se met sur le dos pour une raison quelconque, et nous lui grattons le ventre. Il va se mettre de plus en plus souvent sur le dos pour se faire gratter le ventre,

– nous montons en voiture, et un bip bip désagréable nous accueille. On constate que ce bruit désagréable disparaît lorsque nous bouclons notre ceinture de sécurité. Dorénavant, nous bouclons notre ceinture systématiquement, lorsque nous montons en voiture.

L’application de cette loi d’apprentissage dans notre dressage a permis de perfectionner d’anciennes techniques en les débarrassant du folklore qui les entourait parfois, et en les rendant ainsi plus efficaces. Cela a permis aussi de développer de nouvelles techniques (shaping par exemple).

Cette loi d’apprentissage impliquant la réflexion, on ne l’appliquera pas à des actions simples demandant de la rapidité de type réflexe (assis, couché), mais à des enchaînements plus ou moins complexes demandant de la concentration (marche au pied, rapport d’objet par exemple).

Un autre concept important qui apparaît avec l’application du conditionnement opérant, c’est que le maître fait partie intégrante de l’environnement, il devient le mécanisme qui distribue les récompenses. Le chien ne va pas travailler pour une récompense, mais pour que son maître lui donne une récompense, ce qui est fondamentalement différent. En concours par exemple, le chien ne sera plus distrait par un bruit ou un mouvement périphérique (qui peut être pour lui l’équivalent d’une récompense ou d’une menace potentielle), puisque son objectif est de faire en sorte de faire «déclencher» la sortie de récompense par son maître (comme le rat dans la boite de skinner). Il va rester concentré, il va s’appliquer pour faire des actions dans le but de faire « déclencher » le mécanisme.

Pour cela, il faut accepter, en tant que dresseur, de se faire manipuler par son chien (ou tout au moins lui laisser croire qu’il nous manipule) ! C’est une remise en cause profonde de l’attitude du dresseur sur un terrain d’entraînement.

Attention, il ne faut pas toutefois tomber dans l’excès inverse, et dire que la hiérarchie ne sert à rien, voire n’existe pas. Cela n’a rien à voir avec les lois d’apprentissage. Vous ne serez crédible en tant que « mécanisme distributeur de récompense » que si vous êtes vous-même une récompense (je vous laisse réfléchir la dessus, je décline toute responsabilité de l’application de cette phrase aux relations entre humains …). Et quelle meilleure récompense pour un chien, animal de meute, que d’avoir un leader qui s’occupe de tout, et en particulier de son confort quotidien ?

 

JESSY bouge ses fesses

Après quelques tâtonnements de ma part, JESSY à réussi à faire tourner son arrière main autour des pattes avant. Ce n’est que le début, la finalité étant un passage contre la jambe gauche, et retour, en pivotant autour des pattes avant (ébauche de la remise au pied …)

Click to Watch Video