Dopamine, récompense, punition: l’approche expérimentale

Dopamine, récompense, punition: l’approche expérimentale

Résumé des épisodes précédents

Dans les trois derniers articles, je vous ai parlé de l’état de l’art des recherches sur la dopamine, basés sur l’étude dont les références sont indiquées en fin d’article.

Nous avons vu que la dopamine est un neurotransmetteur qui active le « centre du plaisir » pendant la phase active de recherche de récompense.

La dopamine est aussi présente dans le cerveau lors d’une punition, mais son action motrice est inhibée.

Nous avons vu dans le dernier article que l’utilisation conjuguée de la récompense et de la punition peut soit se renforcer, soit se contrarier suivant les cas.

Dans cet article, je vais aborder la dernière partie du document qui traite de l’expérience réalisée par les auteurs.

Calibration des stimuli

Pour qu’une expérience soit pertinente, il faut quelle mélange la récompense et la punition dans la même séance, et avec la même « valeur ».
Habituellement, on récompense les rats par de la nourriture ou une boisson sucrée, et on  puni avec un courant électrique sous les pattes. Le problème, c’est que la récompense par la nourriture est soumise au phénomène de satiété (lorsque le rat n’a plus faim, la nourriture ne récompense plus) et varie d’une séance à l’autre suivant l’état initial de faim des rats.

Les chercheurs ont utilisé lors de cette expérience une récompense par stimulation directe du centre du plaisir dans le cerveau (via des électrodes). La méthodologie a été validée par le « Ethics Committee of the State of Sachsen – Anhalt, Germany », je vous passe les détails de l’implantation des électrodes, voir l’étude en référence.

Les rats ont été soumis à une phase de calibration pour s’assurer que les électrodes étaient bien positionnées. Pour cela, chaque fois que le rat appuie sur un levier, il est récompensé. Si le rat se met à appuyer frénétiquement sur le levier , il est retenu pour l’expérience. Les rats arrivent ainsi à «s’auto- récompenser » jusqu’à 300 fois en 5 mn, soit une fois par seconde !
Cette façon de récompenser n’est pas sensible à la saturation.
Certes, les résultats obtenus ne seront peut être pas identiques à ceux obtenus avec un renforçateur naturel (nourriture), mais d’un point de vue scientifique, cela permet de mieux étudier la motivation.

La punition par courant électrique est plus simple à calibrer. Un très faible courant électrique est appliqué sur le fond de la cage. Dés que les rats se mettent en mouvement, on sait que le niveau correct est atteint.

Cela parait un peu barbare, mais c’est un moyen particulièrement efficace d’obtenir une récompense et une punition de niveau toujours identique.

Objectifs de l’expérience

Cette expérience à plusieurs objectifs:

  • démontrer que la dopamine, et la partie du système nerveux qui l’utilise, est impliquée dans la recherche de récompense.
  • démontrer que la dopamine joue aussi un rôle dans l’apprentissage par évitement de la douleur (punition si l’animal ne fait pas le bon choix), et donc dans le processus de survie.
  • mesurer l’efficacité de l’utilisation conjuguée de la récompense et de la punition.

La récompense sera donnée par stimulation intracrânienne comme vu précédemment.
La punition sera donnée par un courant électrique sous les pattes.
Une phase de calibration est réalisée en début d’expérience afin que la récompense et la punition ai la même valeur.

L’expérience en elle-même est simple. Les rats doivent franchir un petit obstacle séparant leur cage en deux zones, et cela dès l’apparition d’un signal sonore.
Le premier groupe sera entraîné par une récompense donnée si les rats franchissent l’obstacle après apparition du signal.
Le second groupe sera entraîné par punition si ils ne franchissent pas l’obstacle à l’apparition du signal.
Dans le troisième groupe, si les rats passent l’obstacle après avoir été punis, ils sont récompensés.

Pour ces 3 groupes, ont été analysé la rapidité d’apprentissage, la rapidité d’exécution, et la résistance à l’extinction.
Pour étudier la résistance à l’extinction, lorsque l’apprentissage est bien acquis, les chercheurs suppriment un stimulus (récompense ou punition), puis un peu plus tard, l’autre.
L’objectif étant de comprendre si l’utilisation de punition et de récompense dans le même apprentissage renforce les effets de chacun, ou au contraire les inhibe (depuis le temps que je me pose la question aurais-je enfin la réponse ?)

Résultats 1ere partie

Effet sur la vitesse d’acquisition

En terme de vitesse d’apprentissage, l’utilisation de la récompense seule est la méthode la moins performante.
La méthode avec la punition seule permet un apprentissage bien plus rapide.
La combinaison des deux méthodes est encore plus rapide. Dés la 2ème cession il permet d’atteindre quasiment 100% de réussite.
Au bout de la 8ème cession, la combinaison punition/récompense obtient le plus haut taux de réussite (quasiment 100%). L’utilisation de la punition ou de la récompense seule sont à égalité et plafonnent aux environ de 90%.

Effet sur le temps de réaction

C’est à nouveau la combinaison punition/récompense qui est la plus efficace, suivie de près par la récompense seule, loin devant la punition.
On peut donc en conclure que c’est la récompense qui donne la vitesse de réaction.

Effet sur l’extinction

Là encore, la combinaison punition/récompense est la gagnante alors que la punition ou récompense seule sont à égalité.

Les courbes

resultat-performance

resultat-reaction

Résultat 2ème partie

Dans cette série d’expériences, une fois l’apprentissage réalisé avec la combinaison punition/récompense, une des deux est supprimée, puis finalement la 2ème l’est aussi. L’objectif est de voir comment se comporte alors l’apprentissage sur la durée.
Pour aller plus loin, les chercheurs ont aussi comparé ce qui se passait lorsque la phase d’apprentissage était faite avec une récompense systématique, ou avec une récompense aléatoire.

Récompense systématique

Effet sur l’extinction

L’apprentissage avec combinaison récompense/punition est très rapide, ce qui confirme l’expérience précédente.
Puis une des 2 est supprimée. Globalement, le taux de réussite est maintenu (pas d’extinction). Toutefois, pour le groupe soumis uniquement à la récompense, il y a une chute au moment de la suppression de la récompense, puis le taux de réussite remonte lentement.

Lorsque le dernier stimulus est supprimé, l’extinction est identique pour les 2 groupes (ceux qui avaient encore la punition, et ceux qui avait encore la récompense).

Effet sur le temps de réaction

La suppression de la récompense se traduit par une augmentation du temps de réaction, alors que la suppression de la punition n’a pas d’effets.

 

resultat2a-performance

resultat2a-reaction

Récompense aléatoire

La phase d’apprentissage avec combinaison punition/récompense est toujours aussi rapide, mais le taux de réussite plafonne à 50% (il était de 100% en récompense systématique).
La suppression de la punition et maintien de la récompense conduit à une chute importante et rapide du taux de réussite (il tombe à 20%), alors que l’inverse (suppression de la récompense et maintien de la punition) permet de conserver un taux de réussite de presque 50%.

Lorsque tout est supprimé, le taux retombe à 20%.

resultat2b-performance

Conclusion

La combinaison punition/récompense permet un apprentissage bien plus rapide, et un taux de réussite bien plus important que si une seule des deux est utilisée.

Les chercheurs expliquent cela par le fait que la punition déclenche l’apparition de dopamine, mais l’action de celle-ci est inhibée au niveau des cellules nerveuses (voir articles précédents). L’arrêt de la punition débloque cette inhibition, et la dopamine étant toujours présente, cela procure immédiatement une sensation de plaisir. Cette action se combine avec l’effet de la dopamine dans la recherche de la récompense, démultipliant ainsi son effet. La carotte et le bâton n’est donc pas une mauvaise solution lorsque bien utilisée, bien au contraire !

Cette expérience confirme l’importance de la punition en phase d’apprentissage car elle améliore la résistance à l’extinction.
L’apprentissage par punition, même lorsqu’elle est combinée avec la récompense, semble créer une peur qui permet ensuite au comportement de mieux résister à l’extinction, L’absence de punition agit comme une récompense. L’extinction se traduit aussi par une chute du niveau de la dopamine. Le comportement n’apporte plus de plaisir, il disparaît peu à peu.

Ces expériences confirment que la récompense seule conduit à un taux de réussite bas, contrairement à la punition. Dans le cas de la récompense, le taux de dopamine est plus important, et donc sa «force motrice» au niveau du NAc core est plus élevée. Concrètement, pour avoir de la vitesse sur un exercice, il faut utiliser la récompense. Et au plus cette récompense à de valeur, au plus le taux de dopamine va monter, et au plus la force motrice sera intense (vitesse, voire intensité si cette force est compressée).

La prédiction de l’apparition de la récompense ou de la punition est aussi très importante (récompense systématique ou aléatoire).

En récompense aléatoire, la suppression de la punition baisse le taux de réussite, alors que la suppression de la récompense n’a pas d’effet.

En récompense systématique, c’est le contraire. L’aspect prédictif de la conséquence en mode systématique va mettre en œuvre les phénomènes d’espoir, de peur, de frustration, et de soulagement vus précédemment. Ces phénomènes ne sont quasiment pas mis en œuvre dans le cas de récompense ou punition aléatoire.

Dans un environnement prévisible, comme le sont nos entraînements, la récompense est plus importante que la punition pour maintenir un haut niveau de taux de réussite (l’absence de punition devenant même une récompense).

Alors que dans un environnement imprévisible, c’est l’inverse, la punition devient plus importante. Cela me fait penser à certains maître au comportement incohérent (vu du chien). Ils me disent tous que la récompense ne fonctionne pas, que leur chien ne travaille qu’à la punition. La prochaine fois, je vais leur parler de la dopamine et des environnements prévisibles ….

Je ne suis pas rentré dans le détail du fonctionnement chimique interne du cerveau. Si ça vous intéresse, vous pouvez lire le chapitre 4.3 et suivant du document en référence.
Mais sachez que la dopamine y tient une grande place pour les phénomènes d’apprentissage, même si les chercheurs n’en ont pas encore percé tous les mystères.

référence

http://edoc.bibliothek.uni-halle.de/servlets/MCRFileNodeServlet/HALCoRe_derivate_00004321/Dissertation_Anton_fina__copy_for_the_library.pdf

Dopamine: utilisation conjointe de la récompense et de la punition

Dopamine: utilisation conjointe de la récompense et de la punition

Rappel des épisodes précédents

Nous avons vu dans les deux précédents articles le rôle que jouait la dopamine dans la recherche de la récompense. Et dans le cas de la punition, elle active le centre du plaisir sans stimuler la motricité.
Dans cette partie, nous allons étudier l’utilisation conjointe de renforçateurs (récompenses) et de punition (stimulus aversif).
Commençons par un petit rappel de vocabulaire.

  • Un stimulus dont l’ajout va avoir tendance à renforcer un comportement sera appelé un renforçateur positif (R+).
  • Un stimulus dont le retrait va avoir tendance à renforcer un comportement sera appelé un renforçateur négatif (R-)
  • Un stimulus dont l’ajout va avoir tendance à réduire, voire faire disparaître, un comportement sera appelé une punition (P+)
  • Un conditionnement, c’est lorsqu’on associe un stimulus neutre (une lampe, une sonnerie) avec un renforçateur ou une punition. Le stimulus, neutre à l’origine, devient alors lui-même renforçateur ou punition.

De nombreuses expériences ont été faites sur les renforçateurs et sur les punitions utilisés séparément.
Je cherchais depuis quelques temps déjà un article scientifique  qui analyserait l’utilisation simultanée de renforçateur et de punition. La troisième partie de l’article traite justement de cela, je vais en faire un résumé, en ajoutant quelques exemples canins.

L’approche classique et l’état de l’art

Les études sur ce sujet portent généralement sur l’utilisation punitions et de récompenses utilisées simultanément. Ces études arrivent à la conclusion que les 2 stimulus s’annulent mutuellement, ou à minima, un des 2 perd de son influence. Et c’est quasiment toujours la punition qui prend le dessus sur le renforçateur, voire pire, sa conséquence s’en trouve augmentée.
Pas très encourageant pour une utilisation en dressage canin.

Mais d’autres études basées sur le pré-conditionnement ont montré que renforçateur et punition pouvaient interagir de façon efficaces. Ces études utilisent 4 « motivateurs »:

  • La prédiction de la récompenses (espoir)
  • La prédiction de la punition (peur)
  • L’omission de la récompense espérée (frustration)
  • L’omission de la punition (soulagement)

Certaines associations se renforcent, d’autres s’inhibent (voir graphique suivant)

image-association

Les pointillés indiquent les renforcements et les traits pleins les inhibitions.

Certaines inhibitions sont simples à comprendre. Par exemple, si le chien a systématiquement une récompense, il ne sera pas frustré par l’absence de l’arrivée de la récompense. Au contraire, cela sera vécu comme une punition (retrait d’une récompense qui est estimée comme étant due).

Les 2 combinaisons qui se renforcent mutuellement sont :

  • Espoir / soulagement
  • Peur / frustration

Arrêtons-nous un instant sur cela, et prenons un exemple canin.
Pour empêcher un chien de courir après les chats, on le punit à chaque fois qu’il démarre. Le chien étant têtu, et aimant particulièrement courir après les chats, il va sans arrêt recommencer, même en sachant qu’il sera puni systématiquement. Sa peur de la punition renforce sa frustration de ne pas courir après le chat, ce qui le motive encore plus à le faire.

Mais un jour, on se laisse surprendre, et il n’a pas la punition attendue (soulagement). Cela va renforcer son espoir de récompense (attraper le chat) , et donc renforcer son envie de courir après les chats …
Dans tous les cas, le maître est perdant.

Prenons un autre exemple : le chien connaît parfaitement un exercice, et sait qu’il débouche parfois sur une récompense (espoir). Mais un jour, il se laisse distraire, et sait qu’il risque d’être parfois puni pour cela (peur). Mais la punition n’arrive pas (soulagement), et il se remet alors sur l’exercice avec encore plus de motivation. Le soulagement a renforcé son espoir …. Le jour où vous vivez cette situation, je peux vous assurer que vous êtes fier de votre toutou, et vous pouvez être fier de votre dressage …..

 

Fin de cette partie sur l’état de l’art. La prochaine partie portera sur l’expérience réalisée par les auteurs.

http://edoc.bibliothek.uni-halle.de/servlets/MCRFileNodeServlet/HALCoRe_derivate_00004321/Dissertation_Anton_fina__copy_for_the_library.pdf

 

Dopamine et punition

Dopamine et punition

Nous avons vu dans l’article précédent que la dopamine était le neuro transmetteur qui poussait les êtres vivants à se bouger pour obtenir une récompense, et que dans le principe du chien actif (conditionnement opérant) cela était fondamental.

Nous allons voir dans cet article que la dopamine est aussi impliquée dans à la réponse à un stimulus aversif. On peut considérer cela comme une généralisation du concept de motivation.

Rappel de vocabulaire :

NAc shell : c’est la zone du cerveau associée à la sensation de plaisir, c’est elle qui estime la valeur de la récompense
Nac core : c’est la zone du cerveau qui réagit au taux de dopamine et déclenche le mouvement vers la récompense

La punition, source de plaisir ?

Des chercheurs ont démontrés qu’il y a aussi  une libération de dopamine lors de stimuli aversif (voir §1.2.3 de l’article en référence). Cette augmentation du taux de dopamine est aussi constatée dans le cas de situations stressantes. Mais les neurones réagissent curieusement à cette augmentation du taux de dopamine.
Le NAc core, responsable de la mise en mouvement, n’est pas activé, alors que le NA shell, responsable du plaisir, l’est. Il y a donc une réaction différente des neurones du NAc core selon que cette dopamine est d’origine agréable ou désagréable. Malheureusement, cet aspect est bien moins étudié que la relation de la dopamine et de la récompense.

Rôle de la dopamine dans l’apprentissage par évitement

Dans l’apprentissage par évitement, il y a mise un mouvement pour réduire l’inconfort. Bien que la libération de dopamine est bien été démontrée dans ce type d’apprentissage, et sachant qu’elle n’est pas prise en compte par le NAc core (responsable du mouvement), qu’est ce qui fait qu’on va se bouger pour éviter l’inconfort? La question semble toujours ouverte.
Dans une expérience, le taux de dopamine a été réduit artificiellement chez des rats, ce qui a conduit a une réduction d’évitement de l’inconfort. Et parallèlement, cette réduction artificielle de dopamine a aussi provoqué une réduction de l’appétit.
D’autres expériences ont montré qu’en réduisant artificiellement ce taux de dopamine, les rats se mettaient à oublier des comportements appris (appuyer toute les 5 secondes sur un levier pour éviter les décharges électriques sous les pattes). Lorsque de la dopamine était à nouveau injectée aux rats, ils retrouvaient leur capacité d’éviter les chocs en appuyant sur le levier.
Les auteurs citent d’autres expériences qui  ont confirmé que la dopamine joue un rôle dans l’apprentissage par évitement. En 2010, date de cette étude, on n’en savait pas plus sur ce sujet.

Conclusion

Ce qu’il faut retenir : en cas de stimulus aversif, le cerveau crée de la dopamine, mais son action sur la motricité est inhibée.

En dressage canin, si vous voulez obtenir de la vitesse et du plaisir, ce ne sera pas la bonne approche. Il vaut mieux s’en tenir à la récompense de forte valeur comme vu précédemment.

Et si on cumule stimulus aversif et appétant ? C’est l’objet du prochain article.

Référence

http://edoc.bibliothek.unihalle.de/servlets/MCRFileNodeServlet/HALCoRe_derivate_00004321/Dissertation_Anton_fina__copy_for_the_library.pdf

Dopamine et récompense

Dopamine et récompense

Qu’est ce que la dopamine ?

Toujours dans ma quête du « comment ça marche », j’ai décidé de regarder ce qui se passait à l’intérieur du cerveau lors d’un apprentissage. Voici un résumé de ce que j’ai trouvé dans un article très intéressant, et qui va apporter un jour nouveau sur nos entraînements.

Qu’est-ce que la dopamine ? C’est un neurotransmetteur. Vous savez, ces produits chimiques qui se baladent dans notre cerveau et y font circuler l’information.
La création de dopamine est générée par les récompenses naturelles telles que la nourriture, l’eau, ou le sexe, mais aussi par la consommation de drogues.
La dopamine agit sur la motricité, la concentration, la mémoire, et l’apprentissage par association.
L’étude que j’ai dénichée  analyse le rôle de la dopamine dans le processus d’apprentissage J’ai découpé cette analyse en 3 parties, celle-ci porte sur le lien entre la dopamine et la récompense.

https://fr.wikipedia.org/wiki/Dopamine

Et le VTA et le NAc , que font-ils ?

Le Ventral Tegmental Area (VTA) est une zone du cerveau qui est stimulée lors d’activités plaisantes C’est un élément important du circuit de récompense et du plaisir (et aussi de l’orgasme).
Il agit aussi dans les comportement d’évitement, mais ce sera l’objet du prochain article.
En simplifiant, on peut dire que c’est la zone du plaisir.
Cette zone du cerveau est un grand pourvoyeur de dopamine.

le nucleus accumbens septi (NAc) exploite la dopamine crée par le VTA.

Il se compose  du « shell », qui est la zone du cerveau qui va dire « j’aime », c’est la zone de la récompense.

Et du « core », qui nous fait bouger. C’est le core qui va déclencher le comportement lorsque le shell aura dit « j’aime ».

https://fr.wikipedia.org/wiki/Aire_tegmentale_ventrale

https://fr.wikipedia.org/wiki/Noyau_accumbens

Le rôle de la dopamine

La dopamine est indispensable dans la recherche de la récompense. Des expériences ont montré que si on détruit artificiellement la dopamine, on inhibe l’envie de travailler pour rechercher de la nourriture (ou de la cocaïne …), et le processus d’apprentissage par conditionnement via la récompense ne fonctionne plus. Le comportement locomoteur n’est pas affecté, c’est uniquement la motivation pour se bouger et aller travailler pour chercher la nourriture qui est inhibée. Des souris qui naissent avec l’incapacité de générer de la dopamine meurent de faim alors que de la nourriture est à leur portée. Alors qu’elles n’ont aucun problème pour se nourrir si l’eau ou la nourriture est mise devant leur bouche.
Des souris déficientes en dopamine vont boire de l’eau sucrée, alors qu’elles ne boirons pas de l’eau ordinaire, moins gratifiante.
Ces expériences sur les souris montrent que la dopamine est indispensable pour chercher et trouver de la nourriture, mais est sans impact sur l’appétit lui-même.
D’autres expériences ont montrées que la dopamine joue un rôle important dans la sexualité. Par exemple le taux de dopamine augmente fortement chez des rats mâles durant la phase «d’attente» lorsque des femelles réceptives sont maintenues hors d’accès sous une cage grillagée. Le taux de dopamine des mâles atteint un pic lorsque la cage grillagée est enlevée et qu’ils accèdent à la femelle tant désirée .
Cela confirme que la dopamine joue un rôle dans la phase qui précède l’arrivée de la récompense, c’est-à-dire la phase ou l’individu désire cette récompense, mais ne joue aucun rôle dans le plaisir de consommer la récompense elle-même.
Pour compléter ce chapitre, des expériences ont démontré que des animaux déficients en dopamine choisiront le chemin facile qui amène à une petite récompense plutôt que le chemin plus difficile qui amène à une grosse récompense. Si vous avez lu mon article sur réflexions sur le cout et la valeur, une petite lumière a du s’allumer dans votre cerveau.

Les effets de la récompense

Les chercheurs ont observés l’activité neuronale liée à la présence de dopamine.
Il y a des phases « toniques », ou de petites décharges de dopamine sont présentes dans le système nerveux, maintenant un taux de dopamine constant dans certaines zones spécifiques du cerveaux. Et il y a des périodes « phasiques » ou de fortes décharges de dopamines se produisent inondant le système nerveux. Ces décharges de dopamine provoquées par des stimuli puissants (clics sonores intenses, flashes lumineux) stimulent l’activité des récepteurs sensoriels, l’animal devient plus réceptif à son environnement.
Le mode « tonique » provoqués par des stimuli relativement neutres (récompenses alimentaires par exemple) est très sensible à l’effet d’accoutumance lié à la répétition.

Dopamine et apprentissage

Pendant la phase associative, c’est-à-dire lorsque qu’on apprend à l’animal un nouveau comportement en l’associant à une récompense, la création de dopamine est stimulée par l’aspect non prédictif de l’arrivée de la récompense (mode « phasique », le plus actif). Puis, après de nombreuses répétitions, il n’y a plus cet effet de surprise, la récompense est devenue prévisible, et le taux de dopamine retombe. De plus, on constate une forte diminution de l’apparition du comportement lorsque la récompense est supprimée. La dopamine est donc bien importante dans la phase d’apprentissage. C’est elle qui nous pousse à recommencer pour espérer avoir à nouveau une récompense. Mais lorsque cette récompense devient trop prédictive, la dopamine retombe, et le comportement tend à disparaître facilement si on n’est plus récompensé.

Valeur de la récompense

Des études ont été menées sur l’importance de la « valeur » de la récompense, en jouant sur son appétence, sa probabilité, et son délai. Ces études ont démontré que ces 3 paramètres n’étaient pas indépendants dans la valeur de la récompense. Ces études ont aussi démontré que si on donne des indications sur l’arrivée probable de la récompense, c’est plus efficace qu’une récompense aléatoire. Cela confirme que ce qui est le plus important c’est l’espoir d’avoir peut être une récompense, plus que la récompense elle-même.

Application pratique à notre dressage

Faisons le bilan de ce que nous avons vu, et comment cela s’applique à notre dressage.
On a tout d’abord vu que la dopamine joue un rôle fondamental dans la notion de chien actif, dans la motivation et l’intensité à réaliser un exercice pour avoir la récompense. C’est cette dopamine qui fait que notre chien se bouge de lui-même pour espérer avoir cette récompense, c’est elle qui fait qu’il va se surpasser dans la réalisation de l’exercice. C’est la réalisation de l’exercice qui stimule le système nerveux, pas l’obtention de la récompense. C’est le Saint Graal de tout dresseur : l’exercice devient source de plaisir.

Dans la nature, c’est cette dopamine qui provoque la chasse. C’est l’espoir d’obtenir de la nourriture qui stimule tout l’organisme, et qui développe les sens du chasseur. Une fois la proie tuée, le niveau de dopamine retombe, et l’organisme revient à un niveau d’activité plus bas. C’est la dopamine qui transforme la motivation en action.

On a vu aussi que pour que la décharge de dopamine soit intense, il faut que la récompense en vaille la peine, quelle ai de la valeur. On va faire d’autant plus d’effort si on sait que la récompense à l’arrivée est importante.
La routine, la récompense trop prévisible, casse cette dynamique. On va donc chercher à toujours surprendre notre chien dans notre façon de récompenser, on va absolument éviter la routine. Par exemple, dans son sac de récompenses alimentaires, on va mélanger plusieurs type de nourriture, plus ou moins appétentes. Ainsi, chaque fois qu’on met la main dans le sac pour récompenser, on ne sait pas ce qui va en sortir. Vous savez maintenant que cela correspond au mode « phasique » !

Et pour augmenter le niveau de dopamine, on peut aussi faire en sorte que la récompense soit active. Par exemple, si on récompense par de la nourriture, on va le frustrer un peu en le narguant, le chien doit pousser sur la main pour avoir sa récompense, voire vous mordiller les doigts. La récompense acquiert ainsi une plus grande valeur. Un chien qui attend patiemment que la récompense lui arrive directement dans la gueule n’est pas « actif », son taux de dopamine est bas, il subit son dressage, et se lasse vite. Et le comportement disparaît rapidement lorsque la récompense disparaît. Cela ressemble parfois plus à du gavage qu’à du renforcement, et c’est pour ça qu’on entend encore « je ne veux pas éduquer mon chien à la récompense, sinon il ne fera plus rien si je n’ai pas de récompense » ….

La dopamine permet aussi d’expliquer comment fonctionne la «compression» utilisée en dressage. Pour rappel, cela consiste à poser une récompense à vue du chien, et à lui donner un ordre de libération pour qu’il aille se récompenser lorsque l’exercice est bien réalisé. C’est cette phase d’attente de la récompense qui fait monter son taux de dopamine, et donc son intensité à réaliser l’exercice.

On a aussi appris que pour augmenter la valeur de la récompense, il faut jouer simultanément sur son intensité, sa probabilité et son délai. Pour reprendre l’exemple de la compression, on va augmenter son efficacité :

  •  En jouant sur l’intensité : on va donner une pleine gamelle de nourriture appétante, et pas uniquement 3 petits bouts de fromage
  •  En jouant sur le délai : on va faire varier le moment où on libère le chien pour qu’il aille se récompenser. Des fois au bout de quelques dizaines de secondes, des fois au bout de 20 mn.
  •  En jouant sur la probabilité : lorsqu’il arrive à la gamelle, il ne sait pas ce qu’il va y trouver. C’est le principe de la machine à sous. On ne sait pas combien on va gagner (souvent rien du tout), mais on continue à jouer de façon addictive.

Tous les chiens ne sont malheureusement pas physiologiquement égaux devant la dopamine. Ceux qui en sécrètent le plus seront plus enclin à se défoncer sur un exercice que ceux qui ont un taux bas de ce neurotransmetteur. Ça s’appelle la sélection génétique….

Mais pour mettre toutes les chances de notre coté, il faut stimuler cette capacité à « faire de la dopamine » en travaillant correctement avec nos chiots, c’est-à-dire avec des récompenses « actives ».

Référence

http://edoc.bibliothek.uni-halle.de/servlets/MCRFileNodeServlet/HALCoRe_derivate_00004321/Dissertation_Anton_fina__copy_for_the_library.pdf

Réflexions sur le coût et la valeur

Réflexions sur le coût et la valeur

Et non pas les coups et la douleur, ce n’est pas le genre de la maison, ni même les goûts et les couleurs étant donné que mon sens artistique est proche du néant.

Pourquoi le coût et la valeur ont tant d’importance ?

Je parle de la valeur d’une récompense. Comme déjà vu dans l’optimisation du comportement, pour qu’une récompense soit un renforçateur efficace, il faut, entre autre chose , qu’elle ai une forte valeur.  Le chien comme nous, ne sera prêt à se bouger que si le résultat en vaut la peine.  Au plus cette récompense sera attirante, au plus il va se défoncer pour essayer de l’obtenir. Dans la nature, un animal ne fera un effort que si ce que cela lui rapporte est supérieur à l’effort que ça lui coûte pour l’atteindre. Un prédateur qui n’est que très légèrement affamé  et  qui voit un lapin passer à sa portée va essayer de l’attraper,  mais ne va  pas lui courir après pendant 500 m, s’il le rate au premier coup. Le coût est supérieur à la valeur. Si la faim devient trop importante, la valeur du gibier augmente, il sera alors prêt à le traquer sur un kilomètre s’il le faut.

Avec nos chiens, c’est la même chose, ou presque.

C’est quoi la valeur d’une chose ?

Posons-nous la question : à quoi nous, en tant qu’humains, attribuons-nous de la valeur ?

Certainement pas à quelque chose d’abondant et facile d’accès. Donc, commençons par restreindre l’accès des jouets à nos chiens. Ils en prendrons de la valeur. On ne les sortira que pour jouer ensemble, puis on les range.

Ce qui est gagné facilement n’a pas la même valeur que ce qui est obtenu après un dur labeur : inutile de récompenser son chien pour un oui ou pour un non. Une récompense, ça se gagne et je pense en particulier aux personnes travaillant « au clicker » et qui s’en servent quasiment comme des castagnettes. Un click, ça doit se gagner, il faut faire un effort pour l’obtenir.

La frustration est aussi un grand pourvoyeur d’augmentation de valeur de la récompense.  Quelque chose que vous aimez bien, mais sans excès, vous est subitement retiré d’une façon que vous trouvez injuste. Cette chose jusqu’alors insignifiante, va subitement avoir une grande valeur qui va décupler votre envie de la récupérer.

La récompense peut être « primaire », c’est-à-dire qu’elle sert à satisfaire un besoin vital, comme la faim. Mais encore faut-il avoir faim pour l’apprécier. Si vous travaillez avec de la nourriture, la séance doit commencer avec un chien qui à faim, et se terminer alors qu’il a encore faim.

La récompense peut être « secondaire », c’est-à-dire qu’elle ne sert pas à satisfaire un besoin vital, mais que nous l’avons associée à quelque chose d’important. L’importance peut être primaire, ou plus « sentimentale ». Voici 2 exemples :

  • Vous êtes en opération de survie, et ne possédez qu’un seul couteau. Il ne vous sert pas directement à vous nourrir, mais vous donne accès à la nourriture, il a une très grande valeur à ce moment là.
  • Votre  grand-mère préférée vous offre une médaille de St Christophe pour le départ de vos premières vacances sans vos parents. Elle n’a pas une importance vitale, et pourtant vous lui accorderez certainement une grande valeur sentimentale et le jour où vous l’égarerez, vous retournerez toute la maison pour la retrouver.

La valeur, innée ou acquise ?

Désolé de vous décevoir, mais peu de choses ont une valeur innée pour nos chiens. Seule les récompenses primaires ont une forte valeur innée, à condition qu’elles soient en déficit, ou que tout au moins le chien pense qu’elles le sont.

Dans tout les autres cas, c’est nous qui devons faire en sorte que tel ou tel objet acquière de la valeur. Et pour ça, il faut mouiller la chemise et activer nos neurones.

Posez un tug pour la première fois devant un chiot. Après un bref moment de curiosité, il va s’en désintéresser. Animez le tug en le faisant bouger, il va tout de suite devenir plus intéressant, sa valeur augmente. Une fois que le chiot joue bien avec le tug, vous lui volez et le cachez derrière votre dos. Sa valeur va faire un bond, le chiot va le chercher activement.

Et avec la récompense alimentaire, c’est le même chose. Je connais pas mal de chiens qui ne sont pas intéressé par un morceau de fromage qui traîne par terre, mais si celui-ci est donné par la main du maître, le chien se précipite dessus. Tout simplement parce que le maître en question a su rentre cette nourriture intéressante (par la frustration, la valeur sentimentale  …). Même avec un chien naturellement passionné par la nourriture, il ne faut pas lui donner trop facilement. Il doit par exemple la gagner en essayant de l’attraper dans votre poing fermé. Et si en plus, dés qu’il s’éloigne, vous ouvrez la main, vous allez le frustrer. Attention toutefois que le coût pour l’obtenir ne dépasse pas la valeur à cet instant, sinon le chien s’en désintéresse et le valeur devient nulle.

Un bon dresseur est celui qui saura jongler avec tout ça, et maintenir en permanence une forte valeur à la récompense.

Conclusion

On ne peut utiliser efficacement une récompense en tant que renforçateur que si celle ci à une grande valeur pour le chien. On ne doit pas l’utiliser tant que ce n’est pas le cas.

Donner de la valeur à un objet, à de la nourriture, ça se travaille. Il n’y a quasiment pas de chien non joueur, il y a surtout des chiens dont les maîtres n’ont pas pris le temps de leur faire aimer le jeu, voire qui à force d’être trop exigeants, n’ont pas respecté l’équilibre coût/valeur.

 

 

 

 

 

Le carré: la solution

Le carré : la solution

Maintenant que vos neurones ont bien cogité, voici la réponse.
La méthode utilisée est la méthode MOST

Mission :

Apprendre à Jessy l’envoi dans le carré suivant le programme du concours d’obéissance

Objectifs :

Ils sont au nombre de 3 :

  •  Obtenir un déplacement rapide vers le carré, en rentrant bien par la face avant.
  •  Jessy doit se positionner avec la ligne arrière du carré entre les postérieurs et les antérieurs, approximativement au centre, sans chercher une grande précision sur ce critère
  •  Jessy devra se retourner et me faire face pour attendre la suite

Stratégie :

Pour obtenir de la vitesse, de la motivation, sans chercher une grande précision, ou une résistance à la distraction, il y a une stratégie évidente : du R+. Le travail devant se faire à distance, il faut responsabiliser le chien (de là ou je serai, je ne pourrais pas le contrôler). Il doit faire bon du premier coup. Certes, je pourrai toujours diriger Jessy à distance, comme sur la conduite d’un troupeau, c’est spectaculaire lorsque c’est bien fait, mais ça ne rapporte pas de points, ça en fait même perdre à chaque commandement supplémentaire. Je serais donc attentif à ne récompenser que la bonne position, en laissant Jessy réfléchir à ce qui ne va pas si la récompense n’arrive pas.

Tactique :

Je reste fidèle à la méthode que j’applique pour tout exercice.

Toujours la cohérence …
Je commence à leurrer à la nourriture quelques fois pour expliquer à Jessy ce que j’attends d’elle (en me plaçant moi-même dans le carré).
Puis je ne leurre plus, et je demande à Jessy de reproduire ce que je viens de lui montrer (R+ shaping, clicker + nourriture).
Une fois qu’elle a compris ce que j’attends d’elle, je remplace la nourriture par une récompense plus active (balle) pour gagner en motivation et vitesse, mais aussi en distance (plus facile de jeter une balle ).
Ensuite, je recule petit à petit en m’éloignant du carré, en changeant parfois de côté pour la généralisation. Je remplace le marqueur sonore du cliker par un marqueur vocal car la distance augmentant, le clicker devient moins audible.

Vous noterez que je n’ai pas évoqué l’utilisation d’une cible. Elle ne m’aurait rien apporté, si ce n’est une difficulté supplémentaire pour la supprimer. Le carré matérialisé par 4 bandes et 4 cônes est suffisamment concret pour qu’il soit lui-même la cible. Et la ligne du fond entre les pattes, c’est aussi très concret (puisque j’ai au préalable appris à Jessy à aller poser ses postérieurs sur une planchette).

Puis ensuite , c’est du classique. Ajout du signal acoustique, généralisation en tout lieu, ajout de distraction, augmentation de la vitesse par frustration. Mais ce sont d’autres missions, avec d’autres objectifs et d’autres stratégies.

Les indices :

Je vous avais laissé plusieurs indices :

  • Le collier électrique autour du cou de Jessy : c’était pour vous emmener sur une fausse piste.
  • La ficelle de la balle qui dépasse de la poche arrière du pantalon : là, vous auriez dû faire tilt
  •  Les bonds que fait Jessy en me regardant lorsque nous nous éloignons pour nous mettre en place : visiblement, elle veut quelque chose que j’ai. Mais il va falloir bosser pour l’avoir…
  •  La vitesse : pensez-vous qu’avec du P+ ou de R- j’aurais obtenu cette vitesse ? Je réserve ça pour augmenter la résistance à l’extinction.
  •  L’attitude de Jessy lorsqu’elle se retourne. Visiblement, elle attends quelque chose en récompense de son action
  •  Le manque de précision, le repositionnement par un reculé, queue joyeuse : typique du R+. En P+ j’aurais aussi pu obtenir ce repositionnement, mais pas avec la même attitude de Jessy. Il y aurait eu plus de tension dans le corps.

La solution en video :

Click to Watch Video