Dopamine, récompense, punition: l’approche expérimentale

Dopamine, récompense, punition: l’approche expérimentale

Résumé des épisodes précédents

Dans les trois derniers articles, je vous ai parlé de l’état de l’art des recherches sur la dopamine, basés sur l’étude dont les références sont indiquées en fin d’article.

Nous avons vu que la dopamine est un neurotransmetteur qui active le « centre du plaisir » pendant la phase active de recherche de récompense.

La dopamine est aussi présente dans le cerveau lors d’une punition, mais son action motrice est inhibée.

Nous avons vu dans le dernier article que l’utilisation conjuguée de la récompense et de la punition peut soit se renforcer, soit se contrarier suivant les cas.

Dans cet article, je vais aborder la dernière partie du document qui traite de l’expérience réalisée par les auteurs.

Calibration des stimuli

Pour qu’une expérience soit pertinente, il faut quelle mélange la récompense et la punition dans la même séance, et avec la même « valeur ».
Habituellement, on récompense les rats par de la nourriture ou une boisson sucrée, et on  puni avec un courant électrique sous les pattes. Le problème, c’est que la récompense par la nourriture est soumise au phénomène de satiété (lorsque le rat n’a plus faim, la nourriture ne récompense plus) et varie d’une séance à l’autre suivant l’état initial de faim des rats.

Les chercheurs ont utilisé lors de cette expérience une récompense par stimulation directe du centre du plaisir dans le cerveau (via des électrodes). La méthodologie a été validée par le « Ethics Committee of the State of Sachsen – Anhalt, Germany », je vous passe les détails de l’implantation des électrodes, voir l’étude en référence.

Les rats ont été soumis à une phase de calibration pour s’assurer que les électrodes étaient bien positionnées. Pour cela, chaque fois que le rat appuie sur un levier, il est récompensé. Si le rat se met à appuyer frénétiquement sur le levier , il est retenu pour l’expérience. Les rats arrivent ainsi à «s’auto- récompenser » jusqu’à 300 fois en 5 mn, soit une fois par seconde !
Cette façon de récompenser n’est pas sensible à la saturation.
Certes, les résultats obtenus ne seront peut être pas identiques à ceux obtenus avec un renforçateur naturel (nourriture), mais d’un point de vue scientifique, cela permet de mieux étudier la motivation.

La punition par courant électrique est plus simple à calibrer. Un très faible courant électrique est appliqué sur le fond de la cage. Dés que les rats se mettent en mouvement, on sait que le niveau correct est atteint.

Cela parait un peu barbare, mais c’est un moyen particulièrement efficace d’obtenir une récompense et une punition de niveau toujours identique.

Objectifs de l’expérience

Cette expérience à plusieurs objectifs:

  • démontrer que la dopamine, et la partie du système nerveux qui l’utilise, est impliquée dans la recherche de récompense.
  • démontrer que la dopamine joue aussi un rôle dans l’apprentissage par évitement de la douleur (punition si l’animal ne fait pas le bon choix), et donc dans le processus de survie.
  • mesurer l’efficacité de l’utilisation conjuguée de la récompense et de la punition.

La récompense sera donnée par stimulation intracrânienne comme vu précédemment.
La punition sera donnée par un courant électrique sous les pattes.
Une phase de calibration est réalisée en début d’expérience afin que la récompense et la punition ai la même valeur.

L’expérience en elle-même est simple. Les rats doivent franchir un petit obstacle séparant leur cage en deux zones, et cela dès l’apparition d’un signal sonore.
Le premier groupe sera entraîné par une récompense donnée si les rats franchissent l’obstacle après apparition du signal.
Le second groupe sera entraîné par punition si ils ne franchissent pas l’obstacle à l’apparition du signal.
Dans le troisième groupe, si les rats passent l’obstacle après avoir été punis, ils sont récompensés.

Pour ces 3 groupes, ont été analysé la rapidité d’apprentissage, la rapidité d’exécution, et la résistance à l’extinction.
Pour étudier la résistance à l’extinction, lorsque l’apprentissage est bien acquis, les chercheurs suppriment un stimulus (récompense ou punition), puis un peu plus tard, l’autre.
L’objectif étant de comprendre si l’utilisation de punition et de récompense dans le même apprentissage renforce les effets de chacun, ou au contraire les inhibe (depuis le temps que je me pose la question aurais-je enfin la réponse ?)

Résultats 1ere partie

Effet sur la vitesse d’acquisition

En terme de vitesse d’apprentissage, l’utilisation de la récompense seule est la méthode la moins performante.
La méthode avec la punition seule permet un apprentissage bien plus rapide.
La combinaison des deux méthodes est encore plus rapide. Dés la 2ème cession il permet d’atteindre quasiment 100% de réussite.
Au bout de la 8ème cession, la combinaison punition/récompense obtient le plus haut taux de réussite (quasiment 100%). L’utilisation de la punition ou de la récompense seule sont à égalité et plafonnent aux environ de 90%.

Effet sur le temps de réaction

C’est à nouveau la combinaison punition/récompense qui est la plus efficace, suivie de près par la récompense seule, loin devant la punition.
On peut donc en conclure que c’est la récompense qui donne la vitesse de réaction.

Effet sur l’extinction

Là encore, la combinaison punition/récompense est la gagnante alors que la punition ou récompense seule sont à égalité.

Les courbes

resultat-performance

resultat-reaction

Résultat 2ème partie

Dans cette série d’expériences, une fois l’apprentissage réalisé avec la combinaison punition/récompense, une des deux est supprimée, puis finalement la 2ème l’est aussi. L’objectif est de voir comment se comporte alors l’apprentissage sur la durée.
Pour aller plus loin, les chercheurs ont aussi comparé ce qui se passait lorsque la phase d’apprentissage était faite avec une récompense systématique, ou avec une récompense aléatoire.

Récompense systématique

Effet sur l’extinction

L’apprentissage avec combinaison récompense/punition est très rapide, ce qui confirme l’expérience précédente.
Puis une des 2 est supprimée. Globalement, le taux de réussite est maintenu (pas d’extinction). Toutefois, pour le groupe soumis uniquement à la récompense, il y a une chute au moment de la suppression de la récompense, puis le taux de réussite remonte lentement.

Lorsque le dernier stimulus est supprimé, l’extinction est identique pour les 2 groupes (ceux qui avaient encore la punition, et ceux qui avait encore la récompense).

Effet sur le temps de réaction

La suppression de la récompense se traduit par une augmentation du temps de réaction, alors que la suppression de la punition n’a pas d’effets.

 

resultat2a-performance

resultat2a-reaction

Récompense aléatoire

La phase d’apprentissage avec combinaison punition/récompense est toujours aussi rapide, mais le taux de réussite plafonne à 50% (il était de 100% en récompense systématique).
La suppression de la punition et maintien de la récompense conduit à une chute importante et rapide du taux de réussite (il tombe à 20%), alors que l’inverse (suppression de la récompense et maintien de la punition) permet de conserver un taux de réussite de presque 50%.

Lorsque tout est supprimé, le taux retombe à 20%.

resultat2b-performance

Conclusion

La combinaison punition/récompense permet un apprentissage bien plus rapide, et un taux de réussite bien plus important que si une seule des deux est utilisée.

Les chercheurs expliquent cela par le fait que la punition déclenche l’apparition de dopamine, mais l’action de celle-ci est inhibée au niveau des cellules nerveuses (voir articles précédents). L’arrêt de la punition débloque cette inhibition, et la dopamine étant toujours présente, cela procure immédiatement une sensation de plaisir. Cette action se combine avec l’effet de la dopamine dans la recherche de la récompense, démultipliant ainsi son effet. La carotte et le bâton n’est donc pas une mauvaise solution lorsque bien utilisée, bien au contraire !

Cette expérience confirme l’importance de la punition en phase d’apprentissage car elle améliore la résistance à l’extinction.
L’apprentissage par punition, même lorsqu’elle est combinée avec la récompense, semble créer une peur qui permet ensuite au comportement de mieux résister à l’extinction, L’absence de punition agit comme une récompense. L’extinction se traduit aussi par une chute du niveau de la dopamine. Le comportement n’apporte plus de plaisir, il disparaît peu à peu.

Ces expériences confirment que la récompense seule conduit à un taux de réussite bas, contrairement à la punition. Dans le cas de la récompense, le taux de dopamine est plus important, et donc sa «force motrice» au niveau du NAc core est plus élevée. Concrètement, pour avoir de la vitesse sur un exercice, il faut utiliser la récompense. Et au plus cette récompense à de valeur, au plus le taux de dopamine va monter, et au plus la force motrice sera intense (vitesse, voire intensité si cette force est compressée).

La prédiction de l’apparition de la récompense ou de la punition est aussi très importante (récompense systématique ou aléatoire).

En récompense aléatoire, la suppression de la punition baisse le taux de réussite, alors que la suppression de la récompense n’a pas d’effet.

En récompense systématique, c’est le contraire. L’aspect prédictif de la conséquence en mode systématique va mettre en œuvre les phénomènes d’espoir, de peur, de frustration, et de soulagement vus précédemment. Ces phénomènes ne sont quasiment pas mis en œuvre dans le cas de récompense ou punition aléatoire.

Dans un environnement prévisible, comme le sont nos entraînements, la récompense est plus importante que la punition pour maintenir un haut niveau de taux de réussite (l’absence de punition devenant même une récompense).

Alors que dans un environnement imprévisible, c’est l’inverse, la punition devient plus importante. Cela me fait penser à certains maître au comportement incohérent (vu du chien). Ils me disent tous que la récompense ne fonctionne pas, que leur chien ne travaille qu’à la punition. La prochaine fois, je vais leur parler de la dopamine et des environnements prévisibles ….

Je ne suis pas rentré dans le détail du fonctionnement chimique interne du cerveau. Si ça vous intéresse, vous pouvez lire le chapitre 4.3 et suivant du document en référence.
Mais sachez que la dopamine y tient une grande place pour les phénomènes d’apprentissage, même si les chercheurs n’en ont pas encore percé tous les mystères.

référence

http://edoc.bibliothek.uni-halle.de/servlets/MCRFileNodeServlet/HALCoRe_derivate_00004321/Dissertation_Anton_fina__copy_for_the_library.pdf

CC BY-NC-ND 4.0 Dopamine, récompense, punition: l’approche expérimentale par Didier ESCALLIER est sous Licence Creative Commons Internationale Attribution-Pas d'utilisation Commerciale-Pas de Modification 4.0 .

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *