Catherine Pelachaud, Systèmes d’interaction émotionnelle, Hermès Science Publications, 2010

LLOVERIA, Vivien

Catherine Pelachaud, Systèmes d’interaction émotionnelle, Hermès Science Publications, 2010

Vivien LLOVERIA

Publié en ligne le 26 janvier 2018
2012

Texte intégral

L’ouvrage s’ouvre sur une présentation des différentes théories et des différents concepts scientifiques concernant les émotions. Dans le premier courant, celui qui définit une « séquence émotionnelle », les auteurs opposent le point de vue de James‐Lange et Canon‐Bard autour de la question des manifestations somatiques. Pour les premiers, la cause de l’émotion découlerait des « inférences somatiques » formant un pattern d’activation périphérique spécifique. Chaque émotion se reconnaîtrait alors par une forme de « codification » somatique, à la manière des « marqueurs somatiques » de Damasio. Différemment, l’hypothèse « centraliste » de Cannon‐Bard proposerait peut être de manière moins innovante, une émotion qui résulterait non pas d’une somatisation mais d’un traitement direct de l’environnement par le système nerveux central, reléguant les manifestations corporelles à une « conséquence » de l’émotion. Une articulation semble être trouvée entre les deux théories dans l’approche dite « bifactorielle » de Schachter. Ici, l’activation physiologique (arrousal) manifesterait le degré d’intensité lié à l’émotion, alors que le facteur cognitif de traitement des données de l’environnement autoriserait la catégorisation ou « labellisation » de l’émotion, questionnant alors une dimension sociale et culturelle de l’émotion. À titre d’illustration, les auteurs ont voulu mettre en regard trois théories importantes : la théorie des « émotions de base », la théorie « bidimensionnelle » et enfin la théorie de l’évaluation cognitive de l’émotion (appraisal). La théorie des « émotions de base » vise à formuler les patterns expressifs spécifiques d’émotions « fondamentales » et « universelles », dans la lignée des travaux de Descartes et Darwin. Dans ce sens, je citerai particulièrement Ekman pour qui l’expression faciale est le « pivot de la communication entre les hommes ». S’associant aux critiques d’une restriction du nombre des émotions et de l’existence même d’une catégorie des « émotions de base », Scherer propose le terme moins controversé d’ « émotions modales » soulignant non pas « l’universalité » de ces émotions mais leur « fréquence » ou leur diffusion au sein de ce qui relèverait pour nous d’une sphère culturelle et sociale. La théorie bidimensionnelle se présente alors comme une alternative aux « émotions de base » qui constituaient, selon Feldman‐Barrett un « obstacle majeur à la compréhension de ce que sont les émotions et de comment elles fonctionnent ». Basée sur des dimensions élémentaires indépendantes comme autant de propriétés phénoménologiques de l’expérience affective, sa représentation la plus « efficace » est celle du célèbre « circumplex » de Feldman‐Barret et Russel qui organise ses trois dimensions de base (plaisant/déplaisant, tension/relaxation, excitant/déprimant) autour d’un cercle, disposant ainsi l’expérience subjective de l’émotion dans un continuum. Enfin la théorie de l’évaluation cognitive (appraisal), dont Frijda semble être un des chefs de file, considère que les émotions sont fondées sur un calcul de pertinence des événements et que ce processus émotionnel a pour finalité, dans une logique de survie de l’espèce, la « préparation à l’action ». L’émotion devient alors « épisode émotionnel » pour Scherer, insistant sur son caractère dynamique et provisoire. Ancrée dans la situation, cette théorie à l’avantage de mettre à jour les différences intra‐ et inter‐ individuelles, culturelles et sociales ; même si son cognitivisme excessif est notamment remis en cause par la question de la phobie où la connaissance ne peut empêcher la manifestation de la panique.

Si le second chapitre, focalisé sur le substrat biologique des processus cérébraux de l’émotion, nous apparaît moins pertinent pour l’IHM, quelques remarques des auteurs nous semblent utiles. La neuroscience qui se présente comme une approche pluridisciplinaire considère que « l’émotion n’est pas traitée par notre cerveau comme une entité unitaire, mais qu’elle englobe plutôt un ensemble de processus hétérogènes impliquant des réseaux neuronaux largement distribués ». La liste qui suit déplie en quelque sorte ce processus en genèse, différenciation, expression, perception, reconnaissance, régulation, expérience subjective et motivation. Enfin, les auteurs présentent un ensemble de preuves concernant les interférences ou influences de l’émotion sur les processus cognitifs « volontaires » et « involontaires ». Le chevauchement observé des circuits neuronaux associés à l’affect et à la cognition, infirmerait l’idée communément admise d’une indépendance des deux systèmes. L’émotion agirait sur la perception, l’attention, la mémoire, le jugement moral et la prise de décision et il n’y aurait pas de primauté de l’affect ou de la cognition mais plutôt l’existence de relations bidirectionnelles.

La seconde partie consacrée au comportement émotionnel non verbal commence par la question intéressante du corpus émotionnel. Le chapitre 3 décrit l’homogénéisation d’un ensemble de données recueillies dans un but de modélisation, s’attardant sur la constitution et l’annotation en soulignant les problèmes liés à l’ensemble des « émotions primaires », aux données prototypiques des situations artificielles et à la conception « statique » du processus émotionnel. Nous retiendrons la distinction entre un « corpus acté » – qui mobilise des acteurs dans ou hors contexte fictionnel (film, théâtre), « un corpus induit » – qui utilise des « leurres » imitant la communication avec des systèmes artificiels (en réalité un interlocuteur humain), telle la technique du « magicien d’Oz » (WOZ) et un corpus « real life » privilégiant des situations « naturelles » (dialogue humain et IHM). Si le corpus acté pose moins de problèmes d’ordre éthique, la quantité des données recueillies apparaît insuffisante pour représenter la quasi infinie variation de la réalité. Il favorise l’effet dit « pull » – de l’expression des codes sociaux de la communication – tout en supprimant l’effet dit « push » – des manifestations somatiques. La fiction est généralement employée sur la base d’un jugement de crédibilité de l’émotion. Le corpus induit concerne des émotions de faible intensité et les réponses émotionnelles à un même stimulus ne sont pas toujours proches. Enfin, si le « real life » procure la plus grande quantité de données, leur pertinence reste problématique. Il sera cependant privilégié car les recherches actuelles montrent que les situations artificielles sont assez peu transposables sur des données réelles. Concernant le schéma de codage, les trois dimensions classiquement mobilisées – l’activation, l’évaluation et le contrôle – ne suffisent pas. S’y ajoute le phénomène des émotions mixtes (blended) qui demande de raffiner l’analyse en définissant une émotion « majeure » associée à une ou plusieurs « mineures ». L’auteur conclut alors sur l’urgente nécessité d’élaborer un corpus commun de référence.

Le chapitre 4, aborde la modalité visuelle dans la perception des expressions faciales. Les défis relevés sont la reconnaissance automatique des expressions faciales « spontanées », la prise en compte du dynamisme du processus émotionnel et l’ajustement de la modalité visuelle avec plusieurs composantes complémentaires – mouvements du corps, voix. L’expression faciale présenterait pour un sujet humain trois composantes – le type de déformation du visage neutre, son intensité et sa temporalité (vitesse et durée). Du côté des machines, elle met en œuvre l’extraction d’un visage (face extraction), d’indices de déformations (features extraction) et leur classification (facial classification). Lorsque l’auteur parle d’expression « spontanée », c’est pour mettre en valeur la forte variation interpersonnelle, culturelle et sociale de l’émotion. Selon lui, les expressions sont mélangées et plus complexes que les « émotions de base », et le visage ne passe pas toujours par une position neutre pour naviguer d’une émotion à une autre. Concernant l’analyse de l’intensité, elle sera toujours définie par l’écart au visage neutre, évaluation opérée selon les cas par une machine ou un humain. L’analyse dynamique pose le problème de la segmentation d’une séquence continue en tranches d’émotions différentes et de leurs signatures temporelles respectives. L’auteur termine avec la question de la fusion d’informations hétérogènes qui en contexte ne sont pas toujours synchrones.

La perception acoustique, étudiée dans le chapitre 5, s’avère une question bien plus délicate lorsqu’elle implique une verbalisation de l’expérience auditive de l’émotion et nous voyons bien les limites de cette verbalisation dans la profusion des moyens techniques nécessaires pour constituer des descripteurs sonores objectifs. Malgré la forte technicité de l’article, l’auteur a su dégager des considérations intéressantes quant à l’élaboration d’un système automatique de classification des émotions. Nous retrouvons la question du choix, de l’acquisition et de l’adéquation du matériel d’étude avec les objectifs de recherche. De même pour la stratégie d’annotation visant à exploiter ces données, leur subjectivité et la représentation de ces dernières sous la forme de descripteurs sonores « efficaces » et enfin du côté de l’intelligence artificielle, la question de l’apprentissage par le système de la classification et l’évaluation de ces performances. Une distinction finale doit être relevée entre la « reconnaissance d’émotions » qui relèverait du dialogue homme‐machine et la « détection d’émotions » rattachées à la surveillance et à la robotique qui relèverait alors d’autres modes communicationnels non précisés par l’auteur.

Dans le chapitre 6, nous poursuivons avec les agents conversationnels animés (ACA) dont la fonction serait d’augmenter la motivation de l’usager par une communication « affective », de désambiguïser des textes verbaux par l’information émotionnelle et de donner plus de crédibilité et de confiance aux systèmes artificiels. Résumant et critiquant les différentes théories citées précédemment, l’auteur désigne une direction à suivre : le dépassement des expressions prototypiques, d’une perception « figée » en incluant la manipulation des aspects temporels à l’ensemble des participants à l’expression émotionnelle. Conformément aux propositions précédentes, l’auteur rend indispensable le caractère multimodal de l’émotion pour modéliser une forme « d’harmonie » entre ces diverses modalités.

Enfin, le chapitre 7 met en relief la valeur de référence « provisoire » que constitue l’expérience perceptive humaine des émotions. À partir de stimuli auditifs, visuels et audiovisuels, la réponse humaine permettrait de valider des stratégies d’annotation, de déterminer des indices objectifs caractéristiques d’une émotion donnée et de fournir une base pour l’évaluation de la classification automatique. Dans le cadre de ces « sciences affectives » l’auteur valorise la perception humaine dans les processus d’objectivation des intuitions de l’expérimentateur car elle constitue à défaut d’une véritable démarche d’évaluation, une première référence stable. Enfin, l’article se termine sur un rapprochement souhaitable entre les sciences affectives et des disciplines connexes telle que la psychologie expérimentale afin d’enrichir les modèles et les méthodes.

La troisième partie interroge la fonction de l’émotion. Le chapitre 8 se centre sur une « intelligence sociale », vecteur d’une interaction naturelle et aisée entre un système artificiel et un humain. Emprunté à Salovey et Mayer, elle est définie comme « l’habileté à percevoir et exprimer l’émotion, comprendre et raisonner avec les émotions, réguler les émotions chez soi et chez autrui ». Dans ce sens, « l’informatique affective » vise la reconnaissance et l’expression des émotions, l’adaptation du système artificiel, l’objectif étant de leur donner plus de crédibilité, d’adaptabilité et d’autonomie afin d’induire l’engagement et la performance des utilisateurs. Les études prouvent l’impact des ACA sur l’IHM, augmentant le plaisir (enjoyability) et diminuant le stress et la frustration lors des épisodes de défaillance du système, par le recours à une forme « d’empathie ». L’utilisateur avoue se sentir moins seul et plus assisté, ses performances semblent améliorées et la durée de l’interaction prolongée. Retenons à titre de confirmation qu’une émotion employée à mauvais escient engendre une dégradation de la performance. Dans le domaine des jeux vidéos les personnages‐non‐joueurs (PNJ) deviennent plus autonomes et établissent des relations émotionnelles avec le joueur humain, le maintenant dans le « flow » – c’est‐à‐dire dans un haut niveau de plaisir conjugué à une focalisation complète, une immersion qui s’associe à la perte de la notion de temps. Du côté des systèmes tutoriels intelligents (STI), les émotions semblent influencer fortement les capacités cognitives et nous pouvons constater que certaines tâches requièrent plutôt des émotions positives alors que d’autres mobilisent des émotions négatives. Du côté du système, l’intégration d’émotions transforme l’accord ou le désaccord avec l’utilisateur humain en « satisfaction », « déception » ou « empathie » de manière à exprimer une forme d’intérêt porté à l’apprenant et à ses performances. Enfin, concernant l’avenir de la recherche, il s’agirait moins de détecter l’émotion que de déterminer le « moment » du changement émotionnel.

Le chapitre 9 aborde le rapport entre émotion et cognition dans l’univers de la robotique. L’ « informatique affective » consisterait essentiellement, selon l’auteur, à « anthropomorphiser des objets ». Parmi les problèmes rencontrés se pose celui du nombre, de la variété des comportements et des échelles de temps que le robot doit maîtriser. Si le fonctionnement général s’apparente à un réseau de couches de comportements inhibées ou activées (subsumption architecture), le cœur du problème se situe dans la hiérarchisation des priorités. La fonction de l’émotion est de permettre l’adaptation du système, la motivation, la sélection de l’action et enfin l’expression et la communication.

Elle aiderait le robot à gérer des buts, sortir de comportements répétitifs inefficaces (dreadlocks) et apprendre de manière autonome. Pour le robot, la génération des émotions autorise la communication des intentions et des besoins, suscite chez l’utilisateur une réponse émotionnelle qui mobilise le corps (par exemple, il s’agira de « toucher » un pilote pour l’alerter), améliore le confort de la relation homme‐machine et enrichit la communication de manière à la rendre plus « vivante », crédible et moins ambiguë. Ainsi, l’émotion doit faire partie intégrante de son architecture et ne plus être considérée comme un simple ajout, instaurant un lien direct d’influence entre émotion, motivation, comportement et perception. Enfin, le robot devra se servir de son propre « corps » et de sa dynamique, car elle sera le fondement de toutes les formes de régulation et de sensibilité à l’environnement qui détermineront ses actions futures.

La quatrième et dernière partie présente des applications de l’émotion. La contribution du chapitre 10 étudie les relations entre les expressions musicales et émotionnelles et propose deux directions : celle de la communication des émotions via la modification automatique d’extraits sonores et de pièces musicales et celle de la possibilité d’interaction entre l’homme et le contenu musical synthétisé de manière à émouvoir. Les émotions prendraient leur source dans la composition (score features) et/ou dans l’interprétation (performance features), et leur déclenchement serait d’ordre multifactoriel, mobilisant les paramètres sonores, le spectateur, la performance et le contexte. Une donnée peut nous surprendre, celle de la similarité observée entre les paramètres musicaux et les paramètres sonores de la voix humaine lorsqu’ils expriment la même émotion. Ainsi selon l’auteur qui se place dans une perspective évolutionniste, les qualités musicales dériveraient essentiellement de « stratégies vocales émotionnelles ». Par ailleurs, le lien entre l’émotion musicale et la gestuelle corporelle est établie tout au long de l’article, notamment dans des études menées sur la retranscription sonore des mouvements de danseurs. Enfin, une dernière dimension attire l’attention, celle de l’aspect collectif de la « production » de l’émotion. Certains systèmes ne reconnaissent pas seulement l’émotion dans la seule qualité du mouvement mais en faisant entrer en compte les interactions sociales, autrement dit la qualité de la collaboration et de l’interaction entre différents acteurs. Cette dynamique sociale de l’émotion, sous‐exploitée par les médias interactifs selon l’auteur, me paraît innovante et particulièrement probante ne serait‐ce pour expliquer la provocation des émotions réalisées par un orchestre par exemple. Lorsque le système interactif se révèle « sensible », il enclenche une « boucle vertueuse » où la musique, se faisant porte‐parole des émotions de l’utilisateur, stimule sa pratique et le plaisir qui en découle. Pour conclure, toutes ces innovations en termes d’interactions émotionnelles musicales inaugureraient de nouveaux comportements d’écoute et de production de la musique.

Dans le domaine de la littérature (chapitre 11), l’émotion est d’abord posée comme un contenu linguistique plutôt que comme un ensemble de données psychologiques. L’auteur est moins intéressé par les émotions des utilisateurs que par celles enfouies dans des objets culturels tels que les récits. Cette différence de contenu sera exprimée dans le cas des objets culturels par le terme de « sentiment » plutôt que « d’émotion ». Le sentiment relève d’un processus interprétatif que constitue l’analyse lexicale « en contexte ». Selon l’auteur, la méthodologie linguistique n’a pas accès aux sentiments ressentis par le lecteur ou le spectateur, elle les reconstruit à partir du matériau textuel. La recherche souffrirait de la différence entre les approches dites cognitives et les approches culturelles. D’une part, les contenus culturels échappent littéralement à une modélisation basée sur des primitives « universelles » comme celle rencontrée dans la théorie des « émotions de base », d’autre part la focalisation sur les processus cognitifs de l’émotion est bien restrictive comparée à l’univers du discours, obligeant à se limiter à un prototype qui ne saurait rendre compte de la variation des manifestations. L’approche cognitive ne cherche qu’à rassembler et homogénéiser pour en extraire « l’universalité », là où l’approche culturelle persiste dans le référencement des nuances et des diversités. Cette partie a le mérite de jeter le doute sur certaines conceptions dominantes dans la modélisation des interactions émotionnelles et de proposer un point de rencontre. En effet, l’article se termine en imaginant une situation qui offrirait à la fois une compensation au manque de sens critique de l’approche cognitive et des possibilités de production de représentations formalisées à l’approche culturelle. Il est un peu dommage cependant que cette proposition stimulante ne débouche finalement que sur l’évolution plus restrictive d’un champ spécifique des sciences du langage, celui d’une « sémantique pragmatique » face à la « pragmatique intégrante » que l’on devine être l’approche cognitive. Le questionnement dans le champ de l’interaction émotionnelle aurait pu ouvrir sur un véritable plaidoyer pour l’intégration des sciences du « texte » et de la « culture » au sein des sciences cognitives, dominées dans ses modélisations par la méthode expérimentale et le champ de la psychologie.

Le chapitre 12, se propose de décrire le « design des émotions », et plus précisément la caractérisation de son esthétique dans les médias numériques. Cette description ne peut se soustraire au problème de « l’identité » dans la relation même que l’utilisateur instaure avec la machine. En effet, considéré comme un prolongement de nous‐mêmes, le système artificiel engage dans ses transformations à l’écran, notre propre transformation. Dans ce sens, trois modalités affectives ont été extraites des dispositifs numériques : l’anthropomorphisme des figures dans la représentation des mouvements, l’effet de temps réel et d’interactivité et l’exploration « empathique » des points de vue. Soulignons aussi une distinction intéressante entre la représentation d’une émotion qui relèverait d’une mimesis et la provocation d’une émotion que l’auteur semble rattacher à une catharsis comme mode de purgation « mécanique » et de purification. Les médias interactifs fonctionneraient alors comme des miroirs, mais ces derniers auraient la possibilité en quelque sorte de « se jouer de nous » en nous contrariant (l’exemple du continuator), en créant des effets de trompe l’œil qui suspendent une forme de transparence liée à une médiation plus explicite. L’écran‐miroir donnerait conscience de son propre corps et de ses actes : de l’empathie comme représentation du corps de l’autre par son propre corps, nous glissons subrepticement vers la contagion émotionnelle de la « sympathie ». En effet, le numérique efface cette franche séparation entre empathie et sympathie car le changement de point de vue semble difficilement se réaliser sans effet affectif. L’auteur aborde aussi la question des interactions avec les agents virtuels intelligents (AVI) que nous pouvons associer à nos précédents ACA. Il insiste sur l’attente d’une pertinence dans l’interaction et d’un minimum d’adéquation entre le comportement attendu par l’humain et celui réalisé par la machine dans la relation émotionnelle avec un AVI. Lorsque l’auteur cite Catherine Grenier en parlant de « revanche des émotions », c’est pour mieux nous sensibiliser à cette émotion qui littéralement « met en mouvement », à une esthétique interactive qui, par empathie, réinvente notre relation au monde et finalement nous questionne.

Cet ouvrage est disponible dans toutes les librairies spécialisées et en vente sur le site www.lavoisier.fr