Influence des communications multimodales sur le common ground
Proposition d’une méthodologie d’analyse
Influence of multimodal communications on the common ground. A suggested methodology

Aurore Defays ,
Pierre Leclercq 
et Anne-Sophie Nyssen 

Publié en ligne le 24 janvier 2018

Digital Object Identifier : 10.25965/interfaces-numeriques.2177

L’objectif de cette étude est de présenter une méthode d’analyse des communications multimodales en relation avec le processus d’élaboration du common ground, zone de partage indispensable pour que toute communication ou collaboration soit efficiente. Cette méthodologie permet de décrire qualitativement et quantitativement les modalités de communication (verbale, visuelle, gestuelle et graphique) dans ce processus. L’objectif est de mieux comprendre comment ces modalités supportent le processus, qu’elles soient utilisées seules ou en synergie. Cette méthode a pour originalité d’envisager les quatre modalités de manière intégrée, en contexte, mais également en respectant la dynamique temporelle dans laquelle elles prennent place.

The aim of this study is to present a method for analysing multimodal communication in connection with the process of common ground construction, which is an indispensable shared knowledge for effective communication and collaboration. This methodology is used to describe qualitatively and quantitatively the role of verbal, visual, gestural and graphic modalities in this collaborative process. Our goal is to better understand how these modalities support the process, whether used alone or in synergy. The originality of this method is to consider the four modalities in an integrated and contextual way and also by respecting the temporal dynamics of their relations.

Sommaire

Texte intégral

1. Introduction

L’évolution des nouvelles technologies et l’informatisation, avec le renforcement des spécialités, ont contribué à rendre le travail collectif indispensable. Parallèlement, l’explosion des nouvelles technologies de communication telles que le courrier électronique, la vidéo-conférence, les groupwares ou les systèmes de communication interentreprises augmente encore la capacité d’échange entre agents. La communication entre les individus devient un élément critique de la fiabilité des systèmes (Blavier et Nyssen, 2010 ; Nyssen, 2004). Les difficultés rencontrées sont aujourd’hui principalement liées au caractère multimodal de la reconnaissance d’intention et à la prise en compte du contexte. Dans un groupe d’agents, en particulier lorsqu’il s’agit de coopérer pour la réalisation d’une tâche, chacun doit pouvoir interpréter et comprendre les messages des autres à partir des informations médiées, et chacun doit pouvoir élaborer un message qui puisse être transmis et compris par les autres. Cela implique que les agents soient en quelque sorte liés par une compréhension commune de l’intention. Les processus de perception et de production des différents agents doivent être d’une manière ou d’une autre connectés, et leurs représentations à un moment donné « partagées » pour communiquer. Cette « zone de partage » est construite progressivement, au cours de l’activité, et forme le contexte sur lequel les agents vont s’appuyer pour communiquer et agir efficacement ensemble (Leplat, 1997). C’est ce que Clark et Brennan (1991) ont appelé le common ground que l’on retrouve sous des dénominations diverses selon les disciplines telles que référentiel commun, savoir mutuel, compréhension mutuelle, environnement cognitif partagé (pour une synthèse, voir Giboin, 2004). Le processus actif d’élaboration et de maintien de ce « contexte partagé » est appelé le grounding (Clark, 1996). Bien qu’il soit un phénomène multimodal, force est de constater que la majorité des chercheurs l’ont envisagé à travers la modalité verbale. Ce n’est pas étonnant puisque ce sont les linguistes qui ont été les premiers à s’y être intéressés (Clark et al., 1986 ; Clark, 1989 ; Beers et al., 2006, 2007). Dans le domaine de la conception de nouvelles technologies collaboratives permettant le travail distant (CSCW), la redondance des modalités, c’est-à-dire la présentation d’une information à travers différentes modalités (visuelle, verbale ou autre), est souvent un choix de conception qui cherche à rendre l’interface fiable et flexible en mimant la communication naturelle (Dumas et al., 2009). Certains chercheurs ont étudié l’influence de la multimodalité sur la compréhension mutuelle. Tajariol (2006), par exemple, s’est intéressé aux relations entre les modalités verbale et visuelle sur le processus de compréhension mutuelle (impact de l’image-vidéo et du partage de l’espace visuel). Dumazeau (2005) a envisagé l’étude des modalités verbale, visuelle et gestuelle sur le contexte mutuellement partagé. La modalité graphique a, quant à elle, été très peu étudiée en relation avec le grounding alors que de nombreux travaux l’ont envisagée dans le cadre du processus de conception collective (Barthelmess et al., 2005 ; Boujut et al., 2006 ; Darses et al., 2001 ; Détienne et Visser, 2006 ; Gronier, 2006 ; Visser, 2010). 

Dans le cadre de la conception d’une interface multimodale permettant le travail à distance, notre objectif est de mieux comprendre comment les différentes modalités (verbale, visuelle, gestuelle et graphique) sont mobilisées et s’articulent dans l’élaboration du common ground. Cet article présente la méthodologie d’analyse des communications multimodales élaborées à cette fin et sa validation dans une situation de travail collectif : l’architecture (dans deux contextes : face à face et à distance).

2. Contexte d’étude

L’étude des communications multimodales a été réalisée dans le domaine de la conception collective d’un projet architectural. Nous avons observé et filmé des architectes travaillant dans deux situations différentes :

  • une situation de coprésence où les architectes collaborent en un même lieu, face à face, et où ils disposent des outils traditionnels : plans, calques, crayons, photos, etc. Nous avons observé et suivi tout le processus de conception du projet architectural, à savoir les dix réunions de travail organisées pour permettre aux architectes de travailler ensemble sur le projet. Nous avons sélectionné trois réunions sur les dix pour tester la méthode présentée ici : une au début du processus de travail, une au milieu, et une à la fin du travail de conception. L’ensemble des trois réunions représente un total de 31 minutes. La tâche commune était la réalisation d’un avant-projet concernant la réorganisation de l’espace architectural d’une entreprise et la construction d’une extension. Deux acteurs étaient présents lors des réunions : l’architecte responsable et son collaborateur depuis plusieurs années.

Figure 1. Studio Digital Collaboratif

Figure 1. Studio Digital Collaboratif

  • une situation de travail distant où les acteurs collaborent à partir de lieux différents grâce à un outil technologique, le Studio Digital Collaboratif (SDC). Il s’agit d’un outil multimodal offrant aux utilisateurs la possibilité d’utiliser les mêmes modalités de communication que celles qu’ils peuvent mobiliser en situation de coprésence (verbale, visuelle, gestuelle et graphique). Ces informations multimodales sont échangées en temps réel, et à distance, via un système de vidéo-conférence couplé à une table partagée qui permet la réalisation de croquis collaboratifs (voir figure 1). Pour une description complète du système, voir Safin et Leclercq (2009). Nous avons analysé une réunion de travail distant réalisé avec l’outil ; nous avons filmé et codé l’ensemble de la réunion, couvrant une durée totale de 60 minutes. La tâche commune était de mettre au point une esquisse sommaire pour l’aménagement d’une parcelle en zone mixte, comprenant notamment une crèche, des résidences-services, des commerces de grande distribution et des logements. Trois acteurs étaient présents : l’architecte responsable d’atelier, un collaborateur interne et un collaborateur externe travaillant ensemble depuis plusieurs années.

L’analyse des communications multimodales entre agents dans ces deux contextes (face à face/distance) nous permet d’éclairer les mécanismes capables de favoriser la compréhension immédiate des actions d’autrui et, in fine, d’améliorer, si besoin, la conception de l’interface multimodale. Néanmoins, il ne s’agit pas, dans cet article, de présenter l’ensemble des résultats, mais la méthodologie d’analyse des communications multimodales, et d’illustrer ses potentialités à travers des exemples d’analyses.

3. Méthodologie d’analyse des communications multimodales

Notre méthodologie d’analyse a consisté dans un premier temps à repérer et à caractériser les modalités mobilisées dans les communications entre agents. Nous avons distingué :

  • la modalité verbale ;

  • la modalité graphique ;

  • la modalité visuelle ;

  • la modalité gestuelle. 

Nous avons considéré les indices suivants pour caractériser les différentes modalités :

  • modalité verbale : les communications verbales entre acteurs ont été enregistrées et retranscrites. Les protocoles verbaux ont ensuite été analysés et décomposés en « tours de parole ». Un « tour de parole » débute et se termine avec la prise de parole d’un locuteur. Ce découpage a permis ensuite d’identifier les moments de silence et les interruptions, c’est-à-dire les moments où les tours de parole de deux ou plusieurs acteurs se superposent ;

  • modalité graphique : nous avons recensé toutes les productions graphiques effectuées par les acteurs au cours de l’activité de collaboration (à savoir les annotations, les traits de pointage et les écritures textuelles) ;

  • modalité visuelle : nous avons enregistré le travail des acteurs en utilisant une vidéo et analysé à postériori les regards des différents acteurs ;

  • modalité gestuelle : les gestes de pointage ou gestes déictiques (Burkhardt et al., 2008 ; Falzon, 1994) ont été enregistrés et analysés en détail.

Deux approches ont été utilisées pour analyser l’ensemble des données multimodales :

  • une approche qualitative ayant pour objectif de décrire et mieux comprendre comment le common ground se construit au cours du temps. Cette approche vise à qualifier également la fonction des modalités et de leurs articulations ;

  • une approche quantitative, complémentaire à la première, ayant pour objectif de calculer les fréquences et les durées de mobilisation de chaque modalité et de leurs articulations. Nous utilisons des outils logiciels pour soutenir notre codage et l’analyse des données.

Les données multimodales ont été analysées sur deux axes : un axe temporel et un axe fonctionnel.

  • 1. L’axe temporel

L’aspect dynamique du common ground nous intéresse particulièrement. Le CG n’est pas acquis définitivement ; il doit être constamment mis à jour par les acteurs en cours d’action (de Terssac et Chabaud, 1990 ; Giboin, 2004 ; Hoc, 2001 ; Karsenty et Pavard, 1997). Nous avons choisi d’organiser nos données en séquences. Celles-ci représentent l’écart temporel entre l’introduction d’une nouvelle information (peu importe par quelle modalité) et l’accord mutuel des partenaires (peu importe également par quelle modalité). Ces séquences ne se limitent donc pas au découpage des échanges verbaux, comme c’est le cas dans la majorité des études (Dumazeau et Karsenty, 2008 ; Gronier, 2010 ; Gronier et Sagot, 2007 ; Tajariol, 2006), elles sont multimodales (voir figure 2).

Figure 2. Exemple d’une séquence multimodale

Figure 2. Exemple d’une séquence multimodale

La figure 2 présente un exemple de séquence multimodale. Cette séquence commence par un regard de l’acteur 1, suivi d’une verbalisation de ce même acteur, elle-même simultanée à un geste de l’acteur 1 et un regard de l’acteur 2, et ainsi de suite. Nous pouvons également voir sur cet exemple que cette séquence se clôture par un regard de l’acteur 2, qui regarde l’acteur 1 tout en exprimant son accord verbalement. Le cas représenté ci-dessus illustre parfaitement le caractère multimodal de notre découpage en séquences puisque cette séquence commence et se termine par un regard.

La définition que nous avons donnée à la séquence nous permet de considérer que la durée d’une séquence révèle le processus d’élaboration du CG.

  • Au sein des séquences, nous nous sommes intéressés aux articulations temporelles telles que les chevauchements entre modalités de communication. Comme dans l’exemple illustré à la figure 2, quand l’acteur 2 dit « Là-bas » tout en pointant du doigt une zone du plan.

  • 2. L’axe fonctionnel

Pour qualifier la fonction des communications multimodales dans la construction du common ground, nous avons adapté le formalisme de Beers et al. (2007) dédié à l’analyse de la modalité verbale dans le processus de négociation du CG. Le tableau 1 reprend les différentes fonctions.

Tableau 1. Fonctions des communications multimodales
dans la construction du common ground

Tableau 1. Fonctions des communications multimodales dans la construction du common ground

Parmi ces huit fonctions, certaines sont des indicateurs d’une élaboration efficace du CG. C’est le cas des contributions, des élaborations, des compréhensions et des accords qui attestent que de nouvelles informations sont amenées par les différents acteurs, qu’elles sont complétées ou élaborées au fur et à mesure, pendant qu’elles sont progressivement approuvées avant d’être validées. D’autres fonctions, au contraire, sont des indicateurs d’une élaboration critique du CG et constituent ce que Clark et ses collaborateurs (1989 ; 1991) ont appelé des mesures de réparation. C’est le cas des vérifications, des clarifications, des incompréhensions, et des désaccords qui, bien que participant à l’élaboration du CG, révèlent, d’une certaine manière, une confusion quant à la compréhension d’autrui en cours d’action (Clark et Wilkes-Gibbs, 1986).

Nous utilisons cette grille d’analyse pour caractériser les fonctions de toutes les modalités, autant verbales que non verbales. Notre démarche se veut holistique dans le sens où nous avons jugé inopportun de qualifier les modalités de communication de manière isolée. Nous qualifions donc la fonction globale des articulations multimodales. Comme le montre notre exemple de la figure 2, lorsque l’acteur 2 dit « Là-bas » tout en pointant du doigt une zone du plan, nous caractérisons cette articulation multimodale comme ayant pour fonction globale la vérification de la compréhension du partenaire.

Supports logiciels

Note de bas de page 1 :

http://www.lat-mpi.eu/tools/elan/

L’analyse des échanges multimodaux entre acteurs selon les deux approches et sur les deux axes a nécessité l’utilisation d’outils informatiques. Le logiciel Elan1, spécifiquement destiné au codage des données multimodales (Rohlfing et al., 2006) a été dans un premier temps utilisé.

Nous avons ensuite développé un logiciel permettant d’importer les données codées dans ELAN dans une base de données. Ce logiciel que nous avons appelé le « Common Tool », permet d’effectuer des analyses fines sur les modalités et leurs articulations en interrogeant les données au moyen de requêtes MySQL. Il permet de réaliser des analyses quantitatives sur la mobilisation de chaque modalité (nombre, durée totale, durée moyenne, écart type), et ce, de manière globale ou par acteur. Le second intérêt majeur de ce logiciel réside dans la possibilité d’analyser en détail les articulations multimodales. La figure 3 représente une capture d’écran de l’onglet dédié à ce type d’analyses.

Figure 3. Capture d’écran d’un des onglets du Common Tool permettant l’analyse multimodale

Figure 3. Capture d’écran d’un des onglets du Common Tool permettant l’analyse multimodale

L’utilisateur peut effectuer plusieurs filtres sur les données multimodales : sélection des modalités à analyser (1), choix des acteurs pris en compte dans l’analyse (2), analyse sur toutes les séquences ou sélection d’une séquence en particulier (3). Après sélection de ces différentes variables, le logiciel affiche un tableau de synthèse (4) des moments d’amodalité (aucune modalité), d’unimodalité (une seule modalité) ou de multimodalité (au moins deux modalités) sur base des unités multimodales préalablement codées. Outre ces calculs, le logiciel permet d’afficher sur une time-line les modalités mobilisées par les différents acteurs et leurs articulations multimodales (5). Enfin, ce logiciel permet d’exporter les résultats (6), tout en conservant les filtres actifs (par réunion, par modalité, par acteur, etc.), vers un tableur (au format .csv) pour le traitement dans Excel ou l’utilisation d’autres logiciels de traitements statistiques plus poussés.

Notons que ces résultats peuvent être calculés sur l’ensemble des données importées, ou sur une partie de celles-ci (sélection des situations, des réunions, des séquences, etc.).

4. Validation de la méthode

La méthode et le logiciel d’analyse des communications multimodales ont été testés sur les deux situations de travail collaboratif envisagées (coprésence/distance). Dans ce qui suit, nous présentons la validation de la grille d’analyse et, à titre d’exemple, certains résultats qui témoignent des analyses pouvant potentiellement être menées par la méthode.

4.1. Validation de la grille d’analyse des communications multimodales

Afin de garantir l’objectivité des données récoltées et analysées, nous avons procédé à un double codage des communications multimodales. Nous avons calculé un κ de Cohen, coefficient destiné à mesurer l’accord entre deux variables qualitatives ayant les mêmes modalités (Santos, 2010). Il mesure le degré de concordance entre les catégories attribuées par les deux juges ou observateurs. Les résultats du double codage des communications multimodales recensées montrent que notre grille d’analyse présente un accord interjuges fort, avec un κ de Cohen de 0.78.

4.2. Exemple d’analyse des articulations multimodales

Le logiciel que nous avons développé permet d’analyser chaque modalité séparément, mais il possède la particularité d’offrir une analyse détaillée des articulations entre modalités de communication. À titre d’illustration, nous présentons les résultats concernant l’analyse des articulations graphico-verbales traitées globalement sur les trois réunions de coprésence.

Tableau 2. Analyse fonctionnelle globale des modalités de communication

Tableau 2. Analyse fonctionnelle globale des modalités de communication

Nos résultats montrent que 78 % des verbalisations accompagnées de traces graphiques ont pour fonction l’élaboration du CG (voir tableau 2). Les acteurs mobilisent également les modalités verbale et graphique simultanément pour ajouter de nouvelles informations (14 %), confirmer leur accord (6 %), et vérifier la compréhension du partenaire (2 %). Les autres fonctions comme la compréhension, l’incompréhension, la clarification et le désaccord ne semblent pas nécessiter, du moins dans la situation analysée, la présence simultanée de traces graphiques pour transmettre le sens dans l’activité collaborative.

En examinant les types de traces graphiques, nos résultats montrent que ce sont davantage les traits de pointage qui sont verbalisés (53 %), ce qui souligne l’importance du trait de pointage dans l’élaboration du CG dans la situation d’activité étudiée (à savoir la conception architecturale). En effet, à l’instar du geste de pointage, ce type de trait a pour fonction de localiser une zone d’intérêt ou le référent du discours, et améliore la compréhension mutuelle des partenaires.

4.3. Exemple d’analyse dans deux contextes différents (coprésence/distance)

Notre méthode permet, par exemple, de comparer des situations de coprésence à des situations distantes afin d’évaluer l’impact d’un outil technologique autant sur le processus de construction du common ground que sur les modalités de communication mobilisées. La comparaison de ces deux situations montre qu’il y a davantage de séquences en situation de coprésence qu’en situation distante. En outre, la durée moyenne des séquences semble plus courte en situation de coprésence qu’en situation distante (voir tableau 3).

Tableau 3. Durées moyennes des séquences par situation de travail (coprésence/distance)

Tableau 3. Durées moyennes des séquences par situation de travail (coprésence/distance)

Ces résultats suggèrent que des nouvelles contributions sont plus souvent introduites en situation de coprésence, et que ces contributions prennent moins de temps avant d’être validées et d’aboutir à un accord mutuel entre les partenaires, témoignant, toutes choses étant égales par ailleurs, d’une plus grande difficulté à élaborer le CG à distance.

En ce qui concerne l’analyse des modalités de communication mobilisées, nos résultats montrent que les quatre modalités de communication sont mobilisées, en moyenne, de manière plus longue en situation distante par rapport à la situation de coprésence (voir tableau 4).

Tableau 4. Durées moyennes de la mobilisation des modalités de communication par situation de travail (coprésence/distance)

Tableau 4. Durées moyennes de la mobilisation des modalités de communication par situation de travail (coprésence/distance)

Il semblerait que les tours de parole soient gérés différemment par les acteurs en situation distante. En effet, avec le dispositif numérique, les acteurs se laissent davantage parler sans s’interrompre. On observe aussi que la durée moyenne des gestes de pointage augmente fortement, et dans une moindre mesure, celle des traces graphiques, comme l’avait déjà montré Safin (2011).

Ces résultats préliminaires suggèrent que l’utilisation de l’outil transforme la manière dont le CG se construit puisqu’il semble allonger le temps nécessaire aux partenaires pour trouver un accord (cf. tableau 3), et qu’il amènerait également les partenaires à mobiliser les modalités de manière différente (cf. tableau 4).

5. Discussion

La méthode construite et présentée dans cet article vise à mieux comprendre comment les différentes modalités de communication sont mobilisées dans une situation de travail collectif dans le cadre de l’élaboration d’un common ground, indispensable pour agir ensemble efficacement. L’analyse des communications multimodales dans des situations d’activité collective nous permet d’éclairer les mécanismes capables de favoriser la compréhension immédiate des actions d’autrui et, in fine, d’améliorer la conception des systèmes de technologies collaboratives « CSCW ».

L’originalité de cette méthode réside dans le fait qu’elle envisage l’analyse des quatre modalités (verbale, visuelle, gestuelle et graphique) de manière intégrée et dynamique. Deux approches complémentaires d’analyse des données multimodales sont adoptées : une approche qualitative visant à définir les fonctions des modalités, et une approche quantitative capable de comparer finement des situations d’échanges multimodaux. En effet, cette méthode permet la comparaison entre plusieurs réunions de travail afin de mettre en évidence l’évolution dynamique du common ground au cours du temps (étude longitudinale) ; elle permet également de comparer des situations de travail collectif différentes, par exemple, pour évaluer l’impact d’une interface multimodale sur ce processus. En outre, l’analyse des données se fait sur deux axes : un axe temporel (comment les modalités de communication s’articulent-elles dans le temps), et un axe fonctionnel (quelles fonctions remplissent-elles dans l’élaboration du common ground).

Nous avons utilisé plusieurs outils logiciels pour soutenir le codage des communications multimodales et nous avons développé un logiciel favorisant l’analyse quantitative des données. Ce logiciel appelé Common Tool permet de connaître le moment où les différentes modalités sont mobilisées dans l’activité collective, de calculer la fréquence ainsi que la durée de mobilisation des modalités et de leurs articulations, ainsi que leur proportion par rapport aux autres échanges multimodaux. L’analyse des données peut être réalisée sur différentes échelles, soit de manière globale sur l’ensemble du processus d’activité collective, soit par situation (réunions de travail distribuées dans le temps ou dans l’espace), soit par groupe d’agents pour tenir compte du niveau d’expertise des agents ou du niveau de connaissance mutuelle.

Une des difficultés dans l’analyse des communications multimodales est de comprendre, et de pouvoir rendre compte du processus d’élaboration mutuelle du common ground. Nous proposons une méthode qui permet de travailler sur deux niveaux d’abstraction distincts. Le premier (bas niveau d’abstraction) se base sur le codage primaire des unités multimodales, et permet de mettre en évidence la manière dont les modalités sont mobilisées au cours du temps, mais ne permet cependant pas de lier les modalités de communication entre elles. Le second niveau d’abstraction (plus haut niveau) se base sur le premier, mais possède la richesse de faire émerger d’autres données : les moments que nous avons qualifiés d’amodalité, d’unimodalité et de multimodalité. Seul ce second niveau permet réellement de rendre compte de la complexité des interactions multimodales dans l’élaboration du common ground. Cette approche holistique permet aussi de résoudre une des difficultés majeures dans l’analyse des communications multimodales, à savoir la difficulté d’attribuer une fonction aux modalités non verbales. Il est, en effet, impossible d’attribuer une fonction à un regard, à un geste, ou à une trace graphique sans tenir compte de l’énoncé verbal qui le précède, le suit, ou qui lui est simultané. Une telle analyse a-t-elle d’ailleurs un sens ? La communication n’est-elle pas un système circulaire d’échanges pour Watzlawick (1972) ? Dans le cadre de notre recherche, le recentrage de l’analyse sur les articulations entre modalités, et non sur le niveau d’abstraction le plus bas, permet de lever cette difficulté, et de mieux comprendre la fonction globale des articulations multimodales dans le processus dynamique d’élaboration du common ground.

Enfin, la méthode d’analyse des communications multimodales développée devient un outil pour les concepteurs pour mieux évaluer et répondre aux besoins des utilisateurs. Elle produit des connaissances liées à la multimodalité qui seront utiles à l’instruction des choix de conception de futures interfaces multimodales.

Cette recherche a été financée dans le cadre des Actions de Recherche Concertées (communauté française de Belgique) et via une bourse de doctorat non-fria de l’Université de Liège. Nous remercions également Aurélie Jeunejean, Cyril Lorquet et Loïc Coenen pour leur participation à cette recherche.