Récompenses et pyramide de Maslow

Après avoir abordé les notions de récompense/punition, et de positif/négatif, je vais maintenant revenir dans cet article sur la récompense.
Comme pour mes autres articles, je ne rentrerai pas dans les détails d’un entraînement typique, mais je vais présenter les grands principes, les fondamentaux comme dirait un entraîneur de foot, afin que vous puissiez comprendre ce que vous faites, et non simplement appliquer des méthodes vues à droite ou à gauche.
Car comme je l’ai déjà expliqué, ces méthodes étaient certainement très efficaces lorsque vous les avez vues, mais il suffit d’un petit détail dans leur mise en œuvre pour qu’elles soient plus néfastes que bénéfiques. Alors que si vous avez compris « comment ça marche », vous pouvez vous les approprier, et les adapter à votre situation.

Tout d’abord, qu’est-ce qu’une « bonne » récompense ?
J’ai lu un jour une phrase qui résume très bien la situation: » la meilleure récompense, c’est ce que veut le plus le chien à un moment donné » (si vous connaissez l'auteur originel de cette citation, je le nommerai avec plaisir).
Derrière cette phrase toute simple se cachent  beaucoup de choses. Ce qu’il faut surtout retenir, c’est qu’il n’y as pas de récompense « universelle ».

- Si le chien à soif, la récompense est la boisson,

- si le chien à chaud, la récompense est d'aller se baigner,

- si le chien à faim, la récompense est la nourriture,

- si le chien voit les copains jouer, la récompense est de les rejoindre.

.. etc


La pyramide de Maslow :
La problématique de la « bonne récompense » dépasse largement le cadre de l’éducation canine, et des scientifiques se sont penchés sur le sujet (parfois avec des objectifs beaucoup moins altruistes, tels que l’optimisation de la rentabilité des ouvriers).
Celui qui nous intéresse est Abraham  MASLOW, qui publia dans les années 1940 un article : A Theory of Human Motivation.
Cette théorie a ensuite été représentée sous forme de pyramide.
http://fr.wikipedia.org/wiki/Pyramide_des_besoins

Les points à retenir pour notre activité canine :
Tous les besoins sont continuellement présents, mais certains se font plus sentir que d'autres à un moment donné.
Les besoins les plus bas dans la pyramide ont une importance supérieure à ceux qui sont situés plus haut. 
Bien évidement, ceci est le cas général, à vous d'adapter la pyramide correspondant à votre chien.

En conclusion, lorsqu'un groupe de besoins est satisfait un autre va progressivement prendre la place selon l'ordre hiérarchique suivant : besoins physiologiques > besoins de sécurité > besoins d'appartenance et d'amour > besoins d'estime > besoin d'accomplissement de soi.

Remarque : Lorsqu'un besoin précédant n'est plus satisfait, il redevient prioritaire.
Attention à bien interpréter cette pyramide : les niveaux ne sont pas « exclusifs », c’est-à-dire qu’il ne faut pas qu’un niveau soit assouvi à 100% pour que les besoins du niveau supérieur apparaissent.
Tous les besoins sont là en même temps, Maslow dis juste qu’il y a une priorité entre les besoins en cas de déficit.
Par exemple, le besoin de sécurité passera au second plan si on crève de faim. Dit autrement, on prendra des risques pour se nourrir si on a la dalle ....


Utilisation pour notre activité canine :
Le principe de base (souvent négligé), est qu’il faut qu’un besoin ne soit pas assouvi à 100% pour qu’il soit utilisable comme motivation.
Je vois beaucoup de maîtres essayer de donner une récompense alimentaire à un chien qui est visiblement très bien nourri, et n’est pas du tout attiré par cette récompense.
Si vous voulez que votre récompense soit efficace, il faut que votre chien soit prêt à passer à travers un mur pour se la procurer (c’est une image, évidemment).
On va donc créer artificiellement un manque, de façon à contrôler son assouvissement, et à l’utiliser comme motivation (vous avez certainement entendu parler de frustration dans le dressage).
Je vous laisse trouver vous-même les exemples pour chaque niveau de la pyramide, car chaque chien est différent.
L'exemple de la balle :
Combien de personnes m'ont dit : « Mais moi, mon chien ne joue pas à la balle ! ». Et pourtant, ils continuaient à l’agiter sous le nez de leur chien comme récompense, car ils avaient vu quelqu'un d'autre le faire, et ça marchait.
Maintenant que vous comprenez un peu mieux comment ça fonctionne, vous en déduisez la «bonne» méthode.
On crée ou attise un besoin, puis on génère un manque pour l’utiliser comme motivation (les experts en marketing sont champions dans ce domaine).
Donc, dans l’ordre, pour un chien qui n’est pas naturellement un obsédé de la balle :

- on prive son chien d’assouvissement du besoin de prédation et de jeu (on supprime tous les jouets, on met son chien en chenil, etc...),

- on passe tous les jours un petit moment à le faire jouer à la balle, et à aimer ça (chacun sa technique, si c’était facile, nous serions tous de grands dresseurs),

- une fois que le chien est frappadingue de la balle, on lui supprime (frustration),

- on la ressort ensuite comme récompense lors d’une phase de travail.

Et surtout , on n’oublie pas de maintenir constamment ce besoin qu’on vient de créer, quitte à revenir parfois aux étapes précédentes.



Quel niveau de la pyramide utiliser ?
Et bien , cela dépend des besoins de base de chaque chien, mais à priori : tous!
Il suffit d’observer son chien, et de voir quel besoin est le plus fort chez lui, voir comment créer artificiellement ce besoin.
Certes, tous les niveaux de la pyramide sont présents, mais plus on va se servir des niveaux inférieurs, plus ce sera efficace.
Encore une fois, il faut observer son chien, analyser la situation et s’adapter.
Certains ne sont pas portés sur la nourriture, mais ont un gros besoin d’amour. On n’utilisera évidemment pas la récompense alimentaire, mais on va commencer par ignorer le chien, lui tourner le dos, et lorsqu’il fait ce qu’on attends de lui, on le couvrira de compliments en étant très démonstratif.
D’autres sont de vrais aspirateurs à croquettes. Dans ce cas, la récompense alimentaire s’impose.
D’autres encore sont fous de mordant. La récompense ultime sera d’aller mordre son HA préféré.
Etc...

En conclusion :
Maintenant que vous connaissez la pyramide des besoins, à vous de vous l’approprier et de l'utiliser à votre avantage.

Une dernière remarque pour alimenter votre réflexion : lorsqu’un besoin est assouvi en permanence et depuis longtemps, et qu’on le dé-assouvis brutalement , cela peut être utilisé comme punition négative.


objet de piste 1

Expérimentation sur le marquage des objets à la box

 

Click to Watch Video

Jessy booste au piquet

Comment faire lorsqu’on n’a pas d’assistant sous la main pour tenir son chien ?

On l’envoi tourner derrière un piquet …

 

Click to Watch Video

Le clicker, comment ça marche

Le clicker, ce tout petit instrument qui fait « click » quand on appuie dessus, est déconcertant de simplicité, et pourtant il permet de faire de grandes choses!

Sous son apparente simplicité, il met en oeuvre plusieurs principes d’apprentissage.

Charger le clicker:

Tout d’abord, il est écrit partout qu’il faut commencer par « charger » le clicker. Qu’est-ce qui se cache derrière ce terme ?

Tout simplement la mise en place d’un conditionnement de type I (pavlovien), voir mon article précédent sur le sujet.

Le clic est le stimulus neutre, la nourriture le stimulus inconditionnel.

Et la réponse inconditionnelle ? Et bien il n’y en a pas, du moins en apparence. La réponse inconditionnelle est une joie, un bien-être, créé par l’attente procurée par une friandise appétissante. Le clic devient la promesse d’une sensation agréable. On dit qu’il fait un pont entre le moment du clic et l’arrivée de la récompense.

Le clic devient la récompense. Conformément aux règles du conditionnement de type 1, il faudra éviter l’extinction (c’est à dire que le clic perde sa valeur de récompense), en redonnant de temps en temps de la nourriture après le clic.

On pourrait utiliser sa voix pour faire ça, mais le clic offre au moins 3 avantages:

– la neutralité : la voix fait passer une émotion, qu’on le veuille ou non,

– la précision: il est plus facile de cliquer au moment exact que d’utiliser sa voix. Ne me demandez pas d’expliquer pourquoi, je n’en sais rien. Mais j’ai constaté qu’avec la voix, on avait toujours une fraction de seconde de retard,

– il n’est pas attaché à une personne. Au besoin, vous confiez le clicker à une personne à coté de vous, cela aura strictement le même effet que si vous cliquez vous-même (sous certaines conditions).

Mais si on s’arrête là, le clicker ne sert pas à grand chose.

Utilisation du Clicker:

Il y a de multiples façons d’utiliser le clicker. On peut par exemple l’utiliser pour coder des actions: 1 clic veut dire « tourne à droite », 2 clics veulent dire « tourne à gauche ». Mais l’usage le plus intéressant est en conditionnement opérant.

On va s’en servir pour valider le bon comportement de l’animal (renforcement positif). Le clic agira comme un déclic d’appareil photo. A l’instant précis ou le comportement apparaît, on le valide par un clic. L’animal aura donc tendance à reproduire ce comportement.

On travaillera par approches successives, en validant chaque petit progrès vers l’action désirée. On ne parle pas, on ne guide pas, on laisse le chien réfléchir et chercher ce qui va nous faire cliquer.

On appelle cette technique le  » façonnage », mais en bon français, tout le monde parle de « shaping » …

 

Digression :

Maintenant, un peu de provocation.

Rien ne vous empêche d’utiliser le clicker différemment. Par exemple, au lieu de l’associer à quelque chose d’agréable, vous l’associez à quelque chose de désagréable (un jet d’eau sur la tête par exemple) et vous vous en servez comme punition positive  (je rappelle que positif veut dire « on ajoute quelque chose »)…..

Ce petit outil, d’apparence si simple, met en réalité en oeuvre simultanément les conditionnements de type 1 et 2.

Et surtout, il est ce que vous en faites une fois que vous avez compris comment ça marche!

Le frisbee

Petit moment de détente, le soir, avec un frisbee.

Elle est pas belle la vie ?

Click to Watch Video

Silence, on tourne

Un petit exercice qui permet d’assembler des morceaux travaillés séparément.

J’ai rapproché les piquets, pour la caméra, normalement je les écarte plus que ça.

C’est un bon exercice pour fatiguer son chien sans trop de fatiguer ….

Click to Watch Video

La punition n’est pas un tabou

J’aborderai dans cet article la notion de punition et de renforcement, tel que définis scientifiquement par Skinner (voir article sur le conditionnement opérant).

Tout d’abord, voyons ce qu’en dit wikipedia :

L’apprentissage skinnerien repose sur deux éléments, le renforcement et la punition, pouvant chacun être soit positif soit négatif.

Ces termes doivent être pris dans le sens précis du conditionnement opérant :

* Renforcement : Conséquence d’un comportement qui rend plus probable que le comportement soit reproduit de nouveau.

* Punition : Conséquence d’un comportement qui rend moins probable que le comportement soit reproduit de nouveau.

Voilà qui est très intéressant. Qu’est-ce que ça donne appliqué au dressage canin ?

On parlera de renforcement lorsqu’on veut apprendre à notre chien à faire quelque chose (marcher au pied, rapporter un objet, aller dans son panier, …)

On parlera de punition, lorsqu’on veut apprendre à notre chien à ne pas faire quelque chose (mâchonner un pied de table, voler la nourriture, tirer sur sa laisse, …).

Tant qu’on n’est pas clair avec ça, on ne peut pas progresser. Je prendrai un exemple caractéristique : le chien qui tire sur sa laisse en promenade. Que cherche-t-on à faire ?

– Qu’il ne tire plus sur la laisse ?

– Qu’il marche à notre coté, laisse détendue ?

Cela peut sembler la même chose, mais c’est en fait complètement différent. Dans le premier cas, on veut faire disparaître un comportement (donc –> punition), dans le second cas, on veut lui apprendre une attitude (donc –> renforcement). Je vais vous livrer un petit secret : pour un dressage efficace et robuste, il faut viser les deux objectifs, mais j’y reviendrai dans un autre article.

Bon, tout ça est bien beau, mais comment fait-on pour renforcer ou punir « scientifiquement » ? Retour sur wikipedia et Skinner :

Un renforcement ou une punition peut être soit :

* Positif : Par l’ajout d’un stimulus agissant sur l’organisme.

* Négatif : Par le retrait d’un stimulus agissant sur l’organisme.

Étant à la base un scientifique, je n’interprète pas, je reformule:

Positif, on ajoute quelque chose.

Négatif, on enlève quelque chose.

Je vais même être plus clair pour ceux qui n’auraient pas encore compris où je voulais en venir :

– en éducation positive, on ajoute quelque chose (y compris un stimulus désagréable pour créer une punition),

– en éducation négative, on enlève quelque chose (y compris un stimulus désagréable pour récompenser, par exemple: j’arrête de te donner des coups de marteaux sur la tête, et tu éprouves du bien-être quand ça s’arrête).

Si vous me suivez depuis le début, vous aurez compris qu’un dressage efficace ne doit pas se priver d’un outil éprouvé scientifiquement. Il est complètement idiot de se priver volontairement d’un tel outil , sauf si on ne sait pas comment il fonctionne (l’utiliser à mauvais escient serait pire que de ne pas l’utiliser). Mais dans ce cas, autant le dire franchement.

Tout ça c’est bien, beau, mais comment je me sers de tout ça dans mon dressage me direz vous ? Retour à wikipedia pour la suite :

Ainsi, il existe 4 types de conditionnement opérant :

* Renforcement positif : Procédure par laquelle la probabilité de fréquence d’apparition d’un comportement tend à augmenter suite à l’ajout d’un stimulus appétitif contingent à la réponse Ex: Ajout d’une récompense, félicitations…

* Renforcement négatif : Procédure par laquelle la probabilité de fréquence d’apparition d’un comportement tend à augmenter suite au retrait d’un stimulus aversif contingent à la réponse. Ex: Retrait d’une obligation, d’une douleur…

* Punition positive : Procédure par laquelle la probabilité de fréquence d’apparition d’un comportement tend à diminuer suite à l’ajout d’un stimulus aversif ou conséquence aversive contingente au comportement cible. Ex: Ajout d’une obligation, d’une douleur…

* Punition négative : Procédure par laquelle la probabilité de fréquence d’apparition d’un comportement tend à diminuer suite au retrait d’un stimulus appétitif. Ex: Retrait d’un privilège, d’un droit…

Pour le dressage canin, je suis plutôt circonspect quant à l’utilisation de la douleur en conditionnement opérant. La douleur est source de stress, et quand on est stressé, on réfléchit mal et on apprend moins bien.

Pour la suite, j’utiliserai les abréviations courantes :

R+ = renforcement positif

R- : renforcement négatif

P+ : punition positive

P- : punition négative

 

Pour ceux qui sont plus « visuels », on représente généralement cela sous forme de tableau :

 

R P
+ R+ = on renforce un comportement en ajoutant quelque chose P+ = on punit en ajoutant quelque chose
R- = on renforce un comportement en enlevant quelque chose P- = on punit en enlevant quelque chose

 

Quelques exemples pratiques pour illustrer :

R+ : chaque fois que mon chien touche l’intérieur de ma main avec sa truffe, je sors une friandise de ma poche et je lui donne.

R- : je monte dans ma voiture et un bip-bip désagréable retentit. Je boucle rapidement ma ceinture pour arrêter le bruit (désolé, je n’ai pas d’exemple canin aussi parlant sous la main).

P+ : Je suis un chiot, et j’insiste pour jouer avec un chien adulte qui n’en a pas envie. L’adulte gronde fortement, je suis impressionné, je le laisse tranquille.

P- : je suis un chien qui fait du mordant sur un boudin ou un tug. Je lâche l’affaire pour regarder qui vient de rentrer sur le terrain d’entraînement. Mon maître, ou l’HA se sauve avec le super boudin/tug que j’aime tant mordre.

Maintenant que vous avez lu tout ça, pensez à votre façon de faire avec votre chien.

Est-ce que je veux faire apparaître ou disparaître un comportement ?

Est-ce que j’ai ajouté ou enlevé quelque chose ?

Ce quelque chose était-il suffisamment attractif/répulsif pour que ce soit efficace ?

Rappel : cette série d’article n’a pas pour vocation de vous apprendre à dresser votre chien, ou à mettre en avant une méthode plutôt qu’une autre. Il veut simplement vous démontrer qu’il y des grands principes qui régissent l’apprentissage, prouvés scientifiquement. Les connaître permet de comprendre ce qu’on fait, et de progresser. C’est une condition nécessaire, mais pas suffisante (sinon nous serions tous des champions !).