L’empoisonnement du commandement

Traduction de http://www.clickertraining.com/node/164

Pourquoi clic et correction ne se mélangent pas.

Les analystes comportementaux  se réfèrent à un stimulus appris qui déclenche un comportement opérant en tant que «stimulus discriminatif." Les comportementalistes ne font pas la différence , autant que je le sache, entre un stimulus discriminatif qui a été acquis par renforcement positif, et celui qui a été acquis par renforcement négatif.

En pratique, cependant, il existe une différence significative. Dans le  clicker training (conditionnement opérant avec signal  marqueur) le comportement est d'abord développé en tant que comportement librement proposé dans l'attente d'un renforcement positif. Le stimulus discriminatif est ensuite associé avec celui-ci pour fonctionner comme un indicateur d'une opportunité de renforcement. Chaque stimulus discriminatif signale la possibilité de gagner un renforcement  pour un comportement ou une suite de comportements particuliers.

Ce stimulus discriminatif utilisé toujours  positivement "ouvre la porte" à un renforcement positif. Si le comportement ne se produit pas, la seule conséquence est l'absence de renforcement. Lorsque le comportement se produit, le renforcement est garanti. (Nous appelons parfois ce genre de signal : un commandement ; pour le différencier du terme traditionnel : un ordre.)

Dès que l'animal comprend ce que signifie un commandement donné, celui ci, stimulus discriminatif positif, devient lui aussi un renforçateur positif conditionné , comme le clic. Grâce à cela, un commandement peut être utilisé comme un renforcateur pour un comportement qui se produit lorsque le commandement est donné. On peut par exemple utiliser le  commandement positif bien établi pour un comportement afin de façonner un autre comportement, ou de renforcer le comportement précédent dans une chaîne. Le signal peut également être utilisé comme signal de marquage, comme si c'était un simple clic, afin de marquer plus particulièrement les bons aspects d'un autre comportement. Il semble aussi probable que la réponse émotionnelle souhaitée, que nous savons être associée avec le clic, accompagne également la présentation de ces stimuli conditionnés positivement.

Un comportement qui a été entraîné par la correction peut également être associé à un stimulus discriminant qui indique quand le comportement spécifique va se produire. Cependant, ces discriminateurs, ou ces commandements, peuvent ou non conduire à un renforcement positif. Si l'animal ne parvient pas à effectuer le comportement, ou l'effectue de manière incorrecte, le stimulus peut conduire à l'inconfort (habituellement appelé «correction»). Le stimulus discriminatif négatif, habituellement appelé un commandement, est maintenant un renforçateur négatif conditionné, signalant la possibilité d'échapper à la punition .

Même si le comportement a été formé entièrement avec le renforcement positif, si l'on clique maintenant pour un comportement correct après un discriminateur (un repère, une commande ou un signal), mais qu'on donne aussi une correction aversive (coup sur la laisse, réprimande verbale, etc.) pour un comportement incorrect après le même stimulus, le stimulus perd immédiatement sa valeur de renforcement positif. Il est, au mieux, ambigu en termes de renforcement. Il n'est pas un clic. Il ne déclenche plus automatiquement les émotions positives associées aux renforcements positifs conditionnés. Il ne peut plus être utilisé à l'intérieur d'une chaîne afin de renforcer le comportement précédent.

Même si  les renforçateurs primaires, comme l'approbation, les jouets et les friandises, sont fournis en abondance pendant ou après l'entraînement ou la performance, les stimuli discriminants eux-mêmes, les commandements, sont maintenant des menaces autant que des promesses. Le comportement tend à se déliter, curieusement, à la fois avant et après ces stimuli ambigus:
- avant, parce que le comportement précédent peut commencer à s'éteindre en raison du manque de renforcement positif qui est maintenant un stimulus aversif,
- après , parce que le comportement qui pourrait être puni tend à être évité.
 Le changement devient visible dans l'attitude de l'apprenant, qui passe de l'empressement attentif à la réticence, souvent avec des manifestations visibles de stress. Même si la réponse positive à un stimulus discriminatoire donné est toujours suivie par la récompense, si l'échec est maintenant suivie par la punition, vous avez créé ce stimulus discriminant ambigu en terme de résultat prévisible. 
Il n'est plus «sûr». Vous avez empoisonné votre commandement.

Karen Pryor

Les 10 lois du shaping

Traduction de l’article

http://www.clickertraining.com/node/299
  1.  Élevez vos critères par incréments suffisamment petits pour que le sujet ai toujours une chance réaliste de renforcement.
  2. Entraînez un aspect particulier d’un comportement  à la fois. Ne pas essayer de façonner  deux critères simultanément.
  3. Au cours du shaping , mettez le niveau actuel de réponse sur un rapport variable de renforcement avant d’ajouter ou d’augmenter les critères.
  4.  Lors de l’introduction d’un nouveau critère, ou complexité d’un comportement, assouplir temporairement les anciens.
  5.  Restez en avance sur le sujet : planifiez votre programme d’entraînement jusqu’au bout, de sorte que si le sujet fait des progrès soudains, vous êtes préparé à l’étape suivante.
  6. Ne changez pas les formateurs en cours de route. Vous pouvez avoir plusieurs formateurs par élève, mais s’en tenir à un formateur par comportement.
  7. Si une méthode de shaping n’induit pas de progrès, trouvez-en une autre. Il y a autant de façons d’obtenir un comportement qu’il y a de formateurs pour les inventer.
  8.  Ne pas interrompre une session gratuitement ; ce qui constituerai une punition.
  9. Si le comportement se dégrade, « Retour à l’école maternelle. » Passez rapidement en revue l’ensemble du processus de shaping avec une série de renforcements facilement gagnés.
  10.  Terminer chaque séance sur une chose agréable, si possible, mais dans tout cas terminez quand tout se passe bien.

Extrait du chapitre 2 de Do not Shoot the Dog par Karen Pryor

Le clic ou la voix

Lorsque je me suis intéressé à l’utilisation du clicker, je me suis posé la question de ce que cet appareil apportait de plus qu’un marqueur vocal, comme « oui », ou « c’est bien ».

La réponse qui m’était généralement donnée, était que le clicker ne transmettait pas d’émotion, contrairement à la voix. Cette réponse ne me satisfaisait qu’à moitié. En effet, si c’était le seul intérêt, pourquoi autant de monde l’utiliserait ? De nombreuses personnes sont capables de contrôler leurs émotions lors d’une séance de dressage, et pourtant elles utilisent un clicker.

Lorsque j’ai commencé à utiliser ce petit appareil, je me suis rendu compte que j’étais plus précis dans le timing en clickant qu’en émettant un son. Je ne sais pas pourquoi. Peut être que cliquer fait appel à moins de zones du cerveau que d’émettre un son.

Mais j’ai surtout trouvé en l’utilisant que le clicker avait un énorme avantage: il peut être utilisé par quelqu’un d’autre que le maître. Cela parait évident dit comme ça, mais c’est d’un intérêt énorme. Cela évite d’avoir à regarder son chien. Par exemple, pour une marche au pied, plus besoin de tourner et de pencher la tète. Vous marchez droit devant, et lorsque le comportement du chien est correct, votre complice clique, et vous récompensez.

Mais ce n’est pas tout. Ce que les utilisateurs du clicker ont constaté empiriquement, a été prouvé scientifiquement.

Tout est là: http://www.clickertraining.com/files/Wood_Lindsay_CLICKER_BRIDGING_STIMULUS_EFFICACY.pdf

C’est en anglais.

Je vais traduire le résumé:

L’acquisition d’une tâche à plusieurs constituants, telle que
s’approcher et toucher une cible sur commande, joue un rôle important dans l’entraînement d’un animal, ou dans l’élevage. L’entraînement de façon expérimentale de deux groupes de 10 chiens naïfs (Canis familiaris) pour effectuer l’action de toucher une  cible, diffèrent uniquement par  le stimulus de pontage: un clicker, ou le stimulus verbal «bien» . Bien que les deux types de stimulus de pontage soient utilisés sur les terrains d’apprentissage pour indiquer l’instant précis où le comportement est correct, cette étude représente la première comparaison systématique de l’efficacité de ces deux types de stimuli de pontage.

Il y a eu une baisse de plus de 1/3 du  temps d’apprentissage, et du nombre de renforcements nécessaires pour le groupe entraîné au clicker par rapport au groupe entrainé au stimulus verbal. Les chiens entraînés au clicker ont acquit le comportement significativement (p <0,05) plus vite, et ont eu besoin de beaucoup moins de renforcements primaires que ceux du groupe entrainé au stimulus verbal. La différence d’efficacité des deux stimuli de pontage était plus apparent à la mise en place de chaque nouveau composant du comportement. Il semble que l’utilisation du clicker, en fournissant un marqueur plus précis qu’un pontage par stimulus verbal, est responsable de la meilleure acquisition de comportements complexes comme ceux étudiés ici. La facilitation de l’apprentissage offert par le stimulus de pontage de type clicker a des implications importantes pour la formation des animaux, en particulier lorsque les professionnels sont confrontés à des contraintes de temps. Le potentiel du stimulus de type clicker pour améliorer l’apprentissage des animaux tout au long de l’ensemble du processus d’un comportement peut non seulement d’augmenter le taux d’acquisition du comportement, mais aussi de réduire la frustration de l’animal et d’améliorer encore la relation entre le formateur et l’animal.

 

 

LE MOT ET LA CHOSE

Pour qu’une chose soit claire, il faut quelle soit énoncée clairement.

C’est pour cela qu’il existe un mot pour chaque chose, y compris lorsqu’on parle des techniques d’apprentissage.

Malheureusement, ce sont souvent des mots anglais, sur des sites en anglais.

Je vais traduire partiellement le lexique du site http://www.clickertraining.com/glossary/17#term21264, qui est un des plus complet et des plus précis que j’ai trouvé.

Certains mots français vont vous sembler bizarres (par ex renforçateur), mais je les ai vérifié via les articles sur l’apprentissage du wikipedia français.

Aversif: Toute circonstance ou un événement qui provoque une douleur, la peur ou un inconfort émotionnel.

Comportement: Toute action observable que fait un animal 

Ponter un stimulus: Un marqueur d’événement qui identifie la réponse désirée et « ponte » le temps entre la réponse et la distribution du renforçateur primaire. Le clicker est un « ponteur » de stimulus.

Renforçateur conditionné : Un stimulus neutre associé à un renforçateur primaire jusqu’à ce que le stimulus neutre prenne les propriétés de renforcement du primaire. Un clicker, après avoir été à plusieurs reprises associé à une friandise ou un autre renfort, devient un renforçateur conditionné.

Stimulus conditionné : Tout stimulus qui a précédé un comportement ou un événement particulier à une fréquence suffisante pour provoquer la sensibilisation ou la réponse. Les clics et les commandements sont deux exemples de stimulus conditionnés.

Conséquence: Le résultat d’une action. Les conséquences influent souvent, mais pas toujours sur le comportement futur, rendant le comportement plus ou moins susceptibles de se produire. Les cinq principes du conditionnement opérant décrivent les résultats potentiels.

Commande: Un stimulus qui induit un comportement. Les commandements  peuvent être verbaux, physiques (c’est à dire, un signe de la main), ou environnementaux (par exemple un trottoir peut devenir un repère pour s’asseoir si le chien est toujours commandé à s’asseoir avant de traverser une route).

Renforçateur environnementaux: Quoi que ce soit dans l’environnement que votre chien veut. Les formateurs peuvent utiliser l’accès à ces choses comme renforçateurs puissants pour un comportement souhaité. Par exemple, supposons que votre chien veuille saluer un chien qui approche. Vous pouvez demander un comportement et puis autoriser votre chien (ou ne pas autoriser) à aller saluer l’autre chien.

Marqueur, Marqueur d’évènement: Un signal utilisé pour marquer le comportement désiré au moment où il se produit. Le clicker est un marqueur d’événement.

Jackpot: Une mégarécompense accordée après un effort particulièrement exceptionnel.

Leurrer: Une méthode pratique pour guider le chien vers un comportement. Par exemple, un leurre alimentaire peut être utilisé pour guider un chien d’un assis vers  un couché. Il s’agit d’une méthode courante pour obtenir des comportements plus complexes. Les leurres sont habituellement de la nourriture, mais ils peuvent aussi être des bâtons ou n’importe quoi d’autre que le chien suivra comme une cible. Les formateurs doivent prendre soin de faire disparaître le leurre rapidement.

Modelage: Une technique utilisée dans la formation traditionnelle pour obtenir le comportement. Au début, le chien est physiquement guidé, voire contraint, à faire le comportement. Pousser l’arrière d’un chien dans un assis est du modelage.Les formateurs Clicker n’utilisent pas le modelage parce que nous voulons que nos chiens soient des participants actifs dans le processus de formation, en utilisant leurs propres cerveaux pour comprendre ce qui va leur faire gagner les  clics.
Principe de Premack: Une théorie selon laquelle une plus forte réponse ou une réponse préférée renforceront une réponse plus faible.
Renforçateur: n’importe quoi pour lequel le chien est prêt à travailler pour l’obtenir.
Renforçateur primaire : Un renforçateur dont l’animal est avec le besoin. La nourriture, l’eau, et le sexe sont des renforçateurs primaires.
Renforçateur secondaire: Un renforçateur conditionné. Un renforçateur dont l’animal n’est pas avec le besoin. Les Renforçateur secondaires peuvent être aussi, voire plus, puissant qu’un renforçateur primaire.
Endurcissement: Enseigner à votre chien à exécuter un comportement en présence de distractions.
Mot de libération:  Un mot qui signale la fin d’un comportement. Après qu’un comportement est correct et au bon moment, le formateurs clicker remplace le clicker avec un mot de libération
Shaping (façonnage) :Construire un nouveau comportement en renforçant sélectivement des variations de comportement existant, lors de l’action plutôt que l’issue, pour augmenter ou renforcer le comportement d’une manière ou d’orientation spécifiques.
Stimulus Un changement:t dans l’environnement. Si le stimulus n’a pas d’effet sur ​​l’animal, c’est un stimulus neutre. Un stimulus qui se démarque dans l’environnement, que les animaux remarques  plus que d’autres stimuli de l’environnement, est un stimulus saillant. Un stimulus qui provoque un changement d’état dans l’animal, qui l’amène à adopter un comportement spécifique, par exemple, est un stimulus discriminant.
Contrôle du stimulus: Un stimulus conditionné devient un stimulus discriminant (ou commandement) quand il est suivie par un comportement ou une réaction qui s’apprend spécifiquement. La réponse est dit «sous le contrôle du stimulus» lorsque la présentation du stimulus particulier remplit ces quatre conditions: le comportement est toujours offert lorsque ce commandement est donné; le comportement n’est pas offert en l’absence de ce signal; le comportement n’est pas offert en réponse à un autre commandement; et aucun autre comportement ne se produit en réponse à ce commandement.
 Approximations successives : augmenter ou modifier un comportement progressivement en changeant à plusieurs reprises l’environnement pouraugmenter ou étendre le comportement. Par exemple, l’augmentation du poids de la charge ou la hauteur d’un saut par petits incréments pour amplifier l’effort de tirer une charge ou sauter un obstacle.
Critères temporaires Critères qui sont des tremplins pour un comportement final qui ne sera pas, dans leur forme actuelle présent dans le comportement final. Les critères temporaires devraient être fiabilisés seulement à environ 80 pour cent  avant « de les rendre plus difficile. » Si un critère temporaire est renforcé pendant trop longtemps, l’animal peut être réticent à modifier son comportement.
Timing (délai): Le délai du clicker. Idéalement, le clic devrait se produire exactement au même instantl que le comportement ciblé est atteint. Le timing est une compétence mécanique et nécessite de la pratique. Le formateur doit être capable de reconnaître les comportements qui précèdent le comportement cible afin de cliquer au moment même où le comportement cible se produit.
Période d’entraînement: Une période pré-établi de temps réservé à la formation. Une période de formation peut être composé de plusieurs sessions de formation.
Session de formation Soit lla pré-détermination d’un durée, ou d’un nombre de répétition. Les critères devraient rester constant au cours d’une seule session. A la fin d’une session de formation, le formateur évalue les progrès de l’animal et décide de faire la prochaine session plus difficile ou de rester dans les mêmes critères.

DE L’OUTIL ET DE LA METHODE

Lorsque je demande à une personne comment elle travaille tel ou tel exercice, on me répond la plupart du temps en citant un outil comme par exemple la balle, le clicker, le collier électrique ou le fromage.

Cela ne répond absolument pas à la question! Il y a tellement de façons différentes d’utiliser un outil. Par exemple, un marteau peut être utilisé pour enfoncer un clou ou pour casser une vitre ….

C’est pareil pour le clicker.

On peut l’utiliser pour:

– indiquer une direction (1 clic = droite, 2 clics = gauche),

– punir (si associé à un inconfort, voire une douleur),

– autoriser (à aller manger, à prendre la balle),

– valider une proposition d’action (shaping).

 

Et certainement d’autres choses suivant l’imagination de l’utilisateur.

Les personnes qui font ce type de réponse, soit ne veulent pas dire comment elles travaillent, soit n’ont pas compris comment elles travaillent.

Un outil n’est pas une méthode.

Si vous avez suivi la série d’articles que j’ai déjà rédigés, vous aurez compris qu’une réponse adéquate est du type:

– au leurre,

– en shaping,

– en conditionnement type 1,

– en conditionnement opérant,

– par apprentissage / erreurs,

– par évitement de la douleur.

Et je vous laisse deviner ce que je pense de ceux qui disent que « le clicker, ça ne marche pas », ou alors « le collier électrique c’est nul ».

C’est un peu comme si ces personnes allaient dans une salle de gym et disait devant une machine de muscu: « elle est nulle », sous entendu « je ne sais pas m’en servir, et en plus je ne vois pas à quoi ça sert ». Alors qu’utilisée par un  prof de gym compétent , elle vous sculptera un corps de rêve   🙂

Peut importe l’outil, il doit être au service de la méthode.

Le fait d’exprimer clairement ce qu’on fait, permet de mieux le comprendre, et de mieux le perfectionner.

 

Jessy, les boxes, et le piquet

Une petite séance pour travailler la vitesse et la discrimination.

Même en fin de journée, Jessy à toujours la pêche (moi un peu moins ..)

Click to Watch Video