Les dimensions affectives et sociales dans les interactions humain-robot Affective and social dimensions in human‐robot interactions

Laurence Devillers 

Publié en ligne le 12 janvier 2018

Digital Object Identifier 10.25965/interfaces-numeriques.1760

Donner aux robots les moyens de percevoir les émotions que nous ressentons et les signaux sociaux que nous émettons est un objectif de recherche ambitieux, qui peut être perçu comme dérangeant car très intrusif. L’interaction sociale est caractérisée par un échange continu et dynamique de signaux, porteurs d’un contenu informatif, émotionnel et communicatif. Pour certains chercheurs, plus de 80 % de nos interactions avec les autres passent par la communication non verbale lorsque nous sommes face à face. L’aptitude à produire ces signaux et à les comprendre permet à l’humain d’interagir avec ses semblables.

To give the robots the means to perceive the emotions we, as humans, feel as well as the social signals we receive, is ambitious research indeed. Its intrusive nature can also be perceived as disturbing. Social interaction is characterized by a continuous and dynamic exchange of signals that are information-carrying, emotional and communicative. Certain researchers argue that the level of nonverbal communication make up 80 percent of all in person communication. It is the capacity to produce and understand these signals that allows human beings to interact.

Sommaire

Texte intégral

1. Le développement de robot assistant compagnon

Un robot assistant compagnon est un système interactif intelligent qui a trois caractéristiques : une capacité à percevoir son environnement, une capacité à agir dans cet environnement et une capacité à contrôler la boucle de perception-action. Donner aux robots les moyens de percevoir les émotions que nous ressentons et les signaux sociaux que nous émettons et y apporter une réponse intelligente, et émotionnelle est un objectif de recherche ambitieux, qui peut être perçu comme dérangeant car très intrusif. L’objectif de cet article est de décrire les avancées en recherche dans ce domaine. Les applications de systèmes doués d’intelligence sociale et affective sont potentiellement très vastes, de la téléphonie mobile aux dispositifs de surveillance, des jeux vidéo à l’assistance robotique aux malades et aux personnes âgées.

Les premiers agents compagnons interactifs, comme le fameux chien robot Aïbo, de Sony, le jouet Furby ou les Tamagotchi, ont fait fureur il y a quelques années, toutefois ils n’étaient pas suffisamment performants pour percevoir les signaux affectifs et sociaux de leur propriétaire.

Note de bas de page 1 :

Projet Romeo, de Cap Digital, dans le cadre du fonds unique interministériel (http://projetromeo.com/index_en.html) ; Projet Armen, ANR Tescan (http://www.approcheasso.com/print.php?page_id=80)

Note de bas de page 2 :

HUMAINE Network of excellence (2004-08) and association http://emotion-research.net/

Note de bas de page 3 :

http://sspnet.eu/

Les projets de robots assistants et compagnons pour aider les personnes dépendantes sont très nombreux à l’heure actuelle citons par exemple les projets Romeo et Armen1. Ces projets servent à développer et à tester les différentes fonctionnalités d’un robot humanoïde ou à tête humanoïde destiné à devenir un véritable assistant des personnes en perte d’autonomie. Ces robots ont des capacités motrices (se déplacer dans un environnement domestique connu, reconnaître et saisir un objet et l’amener à l’endroit désiré auprès de la personne) mais aussi des capacités perceptives et cognitives notamment la faculté de communiquer de façon naturelle au moyen de la parole et des gestes, d’adapter le comportement du robot en fonction du profil émotionnel et interactionnel détecté (Delaborde et Devillers, 2010). Le bénéfice offert par un robot à tête humanoïde expressive apportant des services cognitifs et psychologiques adaptés est également évalué. Ces projets intègrent des recherches sur l’interaction sociale et affective, tout comme de nombreux projets européens, tels les réseaux d’excellence HUMAINE2 et SSPNET3.

Note de bas de page 4 :

Par exemple pour des personnes âgées vivant seules plus ou moins autonomes ou encore dépressives ou atteintes de la maladie d'Alzheimer.

Le terme de robots sociaux a été proposé par Feil-Seifer et Mataric (2005) et définit une machine conçue pour deux objectifs : soutenir et aider physiquement des personnes en situation de handicap moteur afin de proposer une interaction sociale à l’utilisateur, en général dans le cadre d’une tâche bien délimitée (c’est-à-dire, rééducation et coaching). Concevoir des robots adaptatifs interagissant avec les humains par le langage et comprenant les dimensions sociales et affectives peut permettre d’imaginer des applications de robot compagnon pour nos loisirs mais aussi pour des applications thérapeutiques et de stimulation4. Des applications thérapeutiques telles que l’aide à la régulation des émotions dans les cas de stress, de phobies sociales (Soury et Devillers, 2012) pourront également être embarquées sur des plateformes robotiques.

L’arrivée des robots sociaux dans notre société n’est certainement pas pour remplacer l’humain. Le robot devient un partenaire social qui contribue au bien-être cognitif de l’humain. Les robots seront des assistants, des compagnons, des éducateurs, ou encore des médiateurs dans la société. Ils seront capables de stimuler la mémoire, d’éduquer, d’aider dans de nombreuses tâches de la vie de tous les jours. Ils seront capables de médiation avec les autres, d’être compagnons dans la société, pour les personnes âgées, les personnes dépendantes ou encore pour les enfants autistes (Chaby et al., 2012). Les progrès effectués sur la composante cognitive des robots vont permettre de les rendre de plus en plus autonomes. Se posent alors des problèmes de positionnement social des robots, des problèmes d’éthique et des problèmes d’acceptabilité. Le lien avec le robot-partenaire social est un des principaux défis de la robotique : le robot devra être capable de s’insérer dans l’univers des relations sociales, d’en percevoir les codes, de comprendre les émotions et d’intégrer les dimensions culturelles. Les robots humanoïdes sont en général mieux acceptés. Cependant plus un robot humanoïde est similaire à un être humain, plus ses imperfections paraissent monstrueuses. Cette réaction psychologique appelée vallée dérangeante a été suggérée par le roboticien japonais Masahiro Mori en 1970.

Cet article fait l’état du champ de recherche complexe et interdisciplinaire de la communication sociale et affective. Les enjeux majeurs des robots sociaux émotionnels sont ensuite mis en évidence notamment par l’expérience de technologies de détection des émotions et d’indices sociaux dans la voix. Enfin, la conclusion soulève des questions technologiques et sociétales sur le développement de robots compagnons socialement et affectivement intelligents.

2. La communication sociale et affective

Note de bas de page 5 :

Klaus Scherer, http://www.affective-sciences.org.

Note de bas de page 6 :

Rosalind W. Picard, Affective Computing, Boston, MIT Press, 1997.

L’approche interdisciplinaire des phénomènes affectifs constitue un nouveau domaine de recherche : les sciences affectives5. L’informatique émotionnelle (Affective Computing)6 est un champ de recherche récent, à la frontière des sciences de l’information (intelligence artificielle, interaction humain-machine) et des sciences humaines et sociales. Ce domaine est concerné par la théorie et la construction de machines qui peuvent détecter, répondre et simuler des comportements émotionnels humains. Les signaux affectifs et sociaux permettent de déduire des informations sur les états mentaux (Baron-Cohen, 2009) et émotionnels, sur l’attention et l’état de santé, et, à plus long terme, sur la personnalité et les habitudes du sujet. Tous ces signaux sont présents de façon plus ou moins imbriquée dans les canaux verbaux et non verbaux.

L’interaction sociale est caractérisée par un échange continu et dynamique de signaux, porteurs d’un contenu informatif, émotionnel et communicatif. La communication interpersonnelle est fondée sur l’échange, chacune des personnes étant à tour de rôle l’émetteur et/ou le récepteur dans une relation de face à face. Des signaux sociaux et affectifs sont produits par les interlocuteurs que ce soit en mode de communication verbale (action verbale) ou en mode d’écoute (rétroaction simultanée). Cette interaction peut se faire par des modes de communications naturels verbaux et non verbaux : langage, voix, geste, vision (expressions faciales ou corporelles) ou tactiles. La capacité d’un robot à traiter les aspects affectifs et émotionnels, tant dans leur analyse que dans leur génération, apparaît comme primordiale dans cette communication.

Pour certains chercheurs comme Mehrabian (1972), plus de 80 % de nos interactions avec les autres passent par la communication non verbale lorsque nous sommes face à face. L’aptitude de produire ces signaux et de les comprendre permet à l’humain d’interagir avec ses semblables. Des études montrent que les personnes adaptent leurs gestes et attitudes en se basant sur l’interprétation des émotions des personnes qui les regardent. La transmission des signaux de communication emprunte différents canaux, parmi lesquels le contenu sémantique d’un énoncé oral, la posture du locuteur, la distance entre les interlocuteurs, la direction du regard et les indices contenus dans la voix. Ce que le linguiste et anthropologue Edward Sapir souligne pour les gestes : Nous réagissons aux gestes avec une sensibilité extrême, et on pourrait presque dire en accord avec un code secret très complexe qui n’est écrit nulle part, connu de personne, mais compris par tous (Sapir, 1949) est également vrai pour les signaux audio. Le psychologue Klaus Scherer renforce l’importance du canal vocal : La voix et la parole jouent un rôle fondamental dans les interactions sociales, par rapport à d’autres aspects des échanges sociaux, tels que, par exemple, les expressions du visage ou des gestes. (Scherer, 2011). Les informations non verbales constituent donc une part du message qu’il ne faut pas négliger. Les ignorer lors de l’analyse ou la génération de comportements dans l’interaction entre un humain et une machine dégraderait la qualité de l’échange. L’interprétation de ces signaux et leur production (ton de la voix, expressions faciales, mouvements, posture…) sont des enjeux actuels dans le développement de systèmes robotiques doués d’intelligence sociale et affective.

3. Les enjeux majeurs des robots sociaux émotionnels mis en évidence par l’expérience

Note de bas de page 7 :

Citons le modèle d’appraisal de Klaus Scherer (Sander & Scherer, 2009).

Dans la communauté de la robotique cognitive, les recherches sont menées pour concevoir des applications interactives et intuitives capables de détecter les signes émotionnels émis par les utilisateurs, de les comprendre et de les reproduire de manière intelligente. Pour mettre en œuvre des systèmes automatiques de communication, il est fondamental d’étudier empiriquement les interactions avec des utilisateurs potentiels mais aussi de comprendre l’engagement des sujets vis-à-vis des robots. Il est aussi nécessaire de développer une théorie sur l’interaction robot humain à long terme inspirée par exemple de modèles en sociologie, en psychologie et de connaissances en neurosciences (Buendia et Devillers, 2012). L’approche théorique consiste à essayer de modéliser dans les systèmes computationnels des concepts développés dans différentes disciplines travaillant sur l’interaction. Signalons, surtout, l’adaptation des concepts tels que le rôle, la notion de cadre dans l’interaction sociale du sociologue Erving Goffman (1967). Il est également important pour tout domaine de recherche qui s’intéresse au fonctionnement des processus psychologiques affectifs et à leur modélisation informatique de considérer les théories et concepts contemporains en psychologie de l’émotion7.

Expériences de détection des émotions dans la voix dans l’interaction sociale humain-robot

Les recherches menées au laboratoire d’informatique pour la mécanique et les sciences de l’ingénieur (LIMSI-CNRS) portent à la fois sur des approches théoriques et des approches expérimentales qui utilisent des mesures quantitatives et qualitatives. Voici quelques expériences menées au LIMSI-CNRS sur la détection des émotions à partir d’indices audio dans l’interaction sociale humain-robot.

Note de bas de page 8 :

Les données spontanées sont collectées dans un contexte naturel, habituel.

Note de bas de page 9 :

Dispositif permettant à une machine d’évoluer grâce à un processus d’apprentissage qui utilise des statistiques. On peut citer, par exemple, les réseaux de neurones artificiels ou les machines à vecteurs de support.

Des recherches ont été conduites depuis une dizaine d’années pour décrypter et codifier les émotions véhiculées par la voix et les utiliser dans un système d’interaction. La majorité des travaux scientifiques dans la communauté sur la détection des émotions se focalisent encore trop souvent sur des données artificielles de laboratoire. Principale difficulté de vraies applications : décoder les situations émotionnelles complexes, celles qui combinent des sentiments différents, parfois contradictoires, beaucoup plus riches que les simples émotions primaires telles que la colère, la joie, la peur et la tristesse. Pour cela, Devillers et al., (2005 ; 2010) analysent des enregistrements audio et vidéo spontanés8 collectés parmi un nombre important de voix (adultes, enfants, personnes âgées) de qualité variable. La richesse de ces données rend leur classification difficile. Qu’il s’agisse de conversations téléphoniques dans des centres d’appels, d’interviews télévisées, d’interactions dans le cadre de jeux ou encore d’interactions humain-robot pilotées par des Magiciens d’Oz (ou WoZ), ces données présentent des émotions complexes combinant des changements physiologiques, expressifs, comportementaux ou cognitifs. Le protocole du Magicien d’Oz utilisé dans les collectes de données est mis en œuvre grâce à un compère humain qui simule certains comportements de la machine à l’insu de l’utilisateur. L’utilisateur pense dialoguer avec une machine autonome alors qu’il n’en est rien. Dans les systèmes WoZ utilisés au LIMSI, tout l’arbre de dialogue est encodé, seules les décisions inhérentes à la perception sont entrées par le compère, permettant une gestion machine en temps réel (Chastagnol et al., 2012). Le protocole WoZ utilisé pour la collecte de données permet de mettre en situation des personnes susceptibles d’interagir avec le robot, de mesurer leurs comportements pendant l’interaction pour obtenir des données quantitatives et de les questionner sur l’expérience d’interaction pour obtenir des données qualitatives en s’affranchissant des erreurs de perception. Les données après annotation des états émotionnels (Cowie et al., 2011) sont ensuite utilisées pour construire des modèles grâce à des algorithmes d’apprentissage. Il faut pour cela tout d’abord définir et détecter automatiquement des indices porteurs d’émotions, de nature acoustique et linguistique : indices lexicaux, timbre de la voix, intensité, rythme, qualité vocale, marqueurs affectifs (rire, souffle, etc.). Des systèmes à base d’apprentissage statistique9 sont utilisés ensuite pour apprendre à la machine les correspondances entre les indices et les états émotionnels. Pour que les systèmes soient performants, il faut les entraîner avec un grand nombre de voix différentes.

De façon à interagir le plus naturellement possible avec l’utilisateur, le système de détection des émotions du robot développé au LIMSI effectue un traitement multiniveau des indices non verbaux issus de la parole (Tahon et al., 2011). Ces indices permettent de fournir des informations de type « émotion positive ou négative », « dimension active ou passive » et des étiquettes d’émotions telles que « joie/contentement », « tristesse/anxiété », « colère/énervement », « neutre ». À un plus haut niveau d’analyse, ces informations renseignent le profil émotionnel et interactionnel de l’utilisateur (Delaborde et Devillers, 2010) avec des informations telles que : « Le locuteur est-il globalement à l’aise ou pas ? » ; « Est-il très loquace ? » ; « Semble-t-il sûr de lui ou plutôt timide ? » ; « Prend-il la discussion en main ou pas ? » Un système d’identification du locuteur sert au robot à déterminer la tranche d’âge et le sexe de son interlocuteur afin de compléter son profil. On peut alors sélectionner dynamiquement le type de comportement du robot (encourageant, empathique, directif, etc.) afin qu’il puisse répondre aux attentes sociales de l’utilisateur.

Note de bas de page 10 :

Établissement d'hébergement pour personnes âgées dépendantes.

Note de bas de page 11 :

http://approche-asso.com. Association pour la promotion des nouvelles technologies au service des personnes en situation de handicap

Le projet français ANR Armen a pour but de concevoir un robot assistant pour les personnes âgées et handicapées. Le robot doit être capable de les aider dans leur vie quotidienne en allant chercher des objets hors de portée ou perdus par l’utilisateur, les manipuler et évoluer dans un environnement réaliste. L’interaction avec le robot est réalisée avec un agent conversationnel animé (ACA) sur une tablette qui est en lien avec la plateforme robotique mobile. Le robot doit pouvoir appeler de l’aide en cas d’urgence et se comporter comme un compagnon de vie : il doit pouvoir comprendre des discussions simples sur des sujets spécifiques et moduler ses réponses en fonction de l’état émotionnel de l’utilisateur. L’interaction doit se dérouler le plus naturellement possible en parlant à un agent virtuel (ACA). Le système de communication en développement se compose de plusieurs modules : un module de reconnaissance de la parole, un module de détection d’émotions et un module de gestion de dialogue. Dans le cadre de ce projet, les données que nous avons collectées dans un EHPAD10 et dans un centre de rééducation avec l’association Approche11 auprès de personnes jeunes ou âgées (25 à 91 ans) montrent que la tâche de classification des émotions est plus difficile pour les voix âgées (Chastagnol et al., 2012). Quelques remarques peuvent être faites : la colère est beaucoup mieux reconnue pour les voix jeunes que pour les voix âgées, mais c’est le contraire pour la joie. La corrélation des indices interactionnels tels que les émotions, l’activation, le temps de réponse avec les réponses à un questionnaire sur la perception du personnage virtuel (qui sert de tête au robot) a amené quelques résultats intéressants. Le temps de réponse et l’activation sont corrélés au ressenti des personnes pendant l’interaction. Cette expérience montre également qu’il est important de prendre en compte les différences d’âge entre les locuteurs en concevant un système de dialogue parlé. Un des autres résultats de cette étude a montré que les personnes âgées interrogées dans l’EHPAD souhaitaient être tutoyées par le robot et non vouvoyées. D’après les résultats des questionnaires, le robot doit avoir une place bien définie, être utile, rendre des services type agenda-mémoire et ne devait pas ressembler à un humain adulte mais plutôt à un « majordome compagnon ».

Note de bas de page 12 :

IDV : Institut de la vision, Paris (Home Lab, plateforme de recherche. http://www.institut-vision.org).

D’autres expériences ont été menées (Delaborde et Devillers, 2012) (Tahon et al., 2011) dans le cadre du projet Romeo qui vise à concevoir un robot social humanoïde capable d’aider les personnes en perte d’autonomie dans leurs activités domestiques quotidiennes, et également de jouer à des jeux avec les enfants. Nous avons mis au point un système dans lequel les indices émotionnels audio extraits du signal de parole permettent la création d’un profil émotionnel et interactionnel de l’utilisateur. Ce profil détermine la sélection du comportement du robot. Il est alors obligatoire d’analyser l’impact des comportements du robot possibles sur les émotions de l’utilisateur. Nous avons mené deux expériences mettant en scène des enfants jouant à des jeux avec le robot, et des personnes déficientes visuelles interagissant avec le robot dans un contexte d’assistance. Les sujets que nous avons enregistrés ne sont pas des acteurs professionnels ; dans un cas ce sont des enfants jouant avec le robot, ils réagissent spontanément aux comportements codés du robot ; dans le cas des adultes malvoyants enregistrés à l’IDV12, ils doivent jouer un rôle dans des scénarios avec des évènements joyeux ou à l’inverse décevants élaborés avec le personnel d’Approche, mais ils n’ont pas de contrôle sur leurs expressions d’émotion comme le ferait un acteur. Ainsi le comportement du robot et son type de réponses aura un impact considérable sur leur expression d’émotions. Nous remarquons que lorsque le robot exprime des comportements socialement non désirables, les personnes déficientes visuelles réagissent différemment que les enfants. Les adultes ont tendance à réagir négativement lorsque le robot adopte un comportement indésirable, tandis que les enfants sont moins affectés. Les enfants présentent certaines expressions particulières face au robot comme le maternage, l’ironie qui n’ont pas été retrouvées dans la population d’adultes déficients visuels. Un résultat intéressant extrait des questionnaires posés aux adultes porte sur la réponse à la question : « Donneriez-vous un nom au robot ? si oui lequel ? ». 90 % des adultes ont répondu oui à cette question. Les noms donnés se répartissent en trois catégories : un nom familier « Ouistiti », « peluche » ou un prénom, un nom venant de la science fiction « ET » ou un code et enfin un nom d’assistant : « mon bras droit », « mes yeux », « l’aigle volant ». Ce résultat démontre une relation très proche avec ces machines qui va jusqu’à un sentiment d’appartenance. La perception des robots dans la société est en train d’évoluer vers une acceptabilité plus forte aujourd’hui de l’idée qu’un robot puisse venir aider l’homme au quotidien à la maison.

L’engagement vis-à-vis de ces machines sera sans doute différent selon les classes d’âge, le niveau d’éducation et le niveau de dépendance. Il sera également différent selon l’usage et l’utilité à long-terme de ces machines mais il manque encore un grand nombre d’études dans ce domaine pour le confirmer.

4. Conclusion

Les robots sont encore loin d’être autonomes et d’avoir des capacités de perception, d’adaptation à des nouvelles données et de mémorisation lorsqu’ils interagissent avec différentes personnes qui devraient leur permettre de pouvoir gérer des relations à long terme avec des humains. De plus, les technologies pour être robustes doivent pouvoir s’adapter automatiquement à de nouvelles voix, de nouveaux comportements et à de nouvelles situations sans qu’un ingénieur modifie les programmes du robot (Oudeyer et al., 2007).

Imaginons un robot social affectif assistant l’humain au quotidien : Comment lui trouver sa place ? Quelle doit être la personnalité d’un robot compagnon ? Faut-il surtout que le robot ait une intériorité ? Quelle est sa marge d’autonomie et de liberté ? Autant de questions encore trop complexes pour pouvoir y répondre simplement mais qu’il faut anticiper. Les premières tentatives de réponse sont qu’il faut inventer une place dans la société pour ces machines douées d’une certaine intelligence et cherchant à reproduire certains comportements humains. Il faut leur donner des règles de conduite, des droits dans la société. Il est certain qu’une trop grande autonomie du robot n’est sans doute pas souhaitable ; Un lien particulier entre le robot et son propriétaire ainsi que ses proches (famille, personnel soignant, thérapeute) devrait être construit pour que ceux-ci puissent être dans une certaine mesure maîtres de modifier le comportement du robot.

Les premiers travaux dans le domaine de l’interaction sociale et affective humain-machine font pressentir que de nombreuses recherches et observations sont encore nécessaires pour mettre en œuvre quotidiennement, dans notre société, des robots de compagnie socialement et affectivement intelligents.