L’énonciation à l’épreuve de l’« I.A. ». Qu’est-ce- qu’énoncer veut dire ? Enunciation and the « IA » challenge. What does uttering mean ?

Nicole PIGNIER 

https://doi.org/10.25965/interfaces-numeriques.4897

Comment, les « deepfakes » peuvent-ils faire sens s’ils « signifient » sans « faire signe » ? C’est du point de vue de l’énonciation ou plutôt de la coénonciation, c’est-à-dire de l’échange entre énonciateurs et co-énonciateurs, ceux qui perçoivent, accueillent ces énoncés et se les approprient que nous questionnons les deepfakes. Si les images ou vidéos fabriquées automatiquement à partir de synthèse d’images existantes sont dites « fausses », cela pose la question suivante : les images énoncées par les humains peuvent-elles dire la vérité ? Les deepfakes défient l’énonciation, mettent à l’épreuve le « Faire signe » en le simulant, ils nous invitent à questionner le lien à l’Autre fondateur de la coénonciation.

How might "deepfakes" make sence if they "mean" that they "without giving a signe"? It's the enuntiator's point of view rather than the co-enonciator's one. Those who percieve and welcome the image of somthing and take ownership over them make us question deep fakes. If vidéos and images that are made by a synthesice of images are fake it raises the next question : Could images created by people can the be truthfull ? Deepfakes challenge thé enonciator, putting to a challenge "giving a sign" by faking it, he invites us to question the link to the other creother of the co-enonciation.

Sommaire
Texte intégral

1. Introduction

Note de bas de page 1 :

Le terme « deep fake » est une contraction de « deep learning » qui signifie « apprentissage profond » et de « fake » qui signifie « erreur ». L’apprentissage profond est un « apprentissage automatique qui utilise un réseau de neurones artificiels composé d'un grand nombre de couches dont chacune correspond à un niveau croissant de complexité dans le traitement et l'interprétation des données ». Un réseau de neurones est un « ensemble de neurones artificiels interconnectés qui constitue une architecture de calcul ». L'apprentissage profond est notamment utilisé dans la détection automatique d'objets au sein d'images et dans la traduction automatique. Cf. https://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTEXT00003 7783813

Note de bas de page 2 :

L’énonciation désigne la manifestation de signes énoncés par une instance énonciative – un individu, une organisation telle qu’une entreprise, un collectif, une association, …. La co-énonciation désigne l’échange en retour de la part de celui qui perçoit des signes, du co-énonciateur, du partenaire. La coénonciation note le processus global de l’échange entre partenaires ; instances énonciative et co-énonciative. Cette terminologie a été proposée par le linguiste Antoine Culioli (1999) et citée, reprise entre autres par le linguiste Dominique Maingueneau (Maingueneau, 1998 : 40).

Images ou vidéos fabriquées par des méthodes d’« intelligence artificielle » à partir d’images existantes, les deepfakes1 sont considérés comme « faux » car ils ne relèveraient pas d’une fabrication ou création humaine. Et pourtant, ils constituent des signes que l’on peut identifier, interpréter. On peut dire en quelque sorte qu’ils « signifient » ; ils agissent en tant que signes sans « Faire signe » pour autant, c’est-à-dire sans qu’une instance individuelle ou collective les énonce, se manifeste à travers eux ou manifeste quelque chose à travers eux. Ils échappent à l’énonciation2 au sens où personne ne produit ces signes matériellement par l’acte énonciatif situé, consistant par exemple à photographier, dessiner, écrire, peindre, filmer... Nous reprenons là la distinction que le sémioticien Henri Van Lier fait entre « signifier » et « Faire signe » :

« Dans le « Signifier », « un segment y thématise un autre segment sans agir sur lui. Il se limite, se borne, se tient à une thématisation pure ; il s’y épuise. […] C’est vrai que dans un poème lu tout haut, les phonèmes insistent sur l’événement physique qu’ils sont, et l’encre sur l’événement physique qu’elle est dans une poésie chinoise ; mais c’est par surcroît. Ceci se résume dans un jeu de mot que le français permet entre « faire signe à » et « signifier ». (Van Lier, 2010 : 84).

Chez ce dernier, l’on peut noter que le « Faire signe », l’acte d’énoncer est réduit, considéré comme un simple « quelque chose » en plus, la priorité étant accordée au signe et à sa quasi-autonomie. Mais la sémiotique a largement montré par ailleurs que le « Faire sens » pour quelqu’un émerge de l’interaction entre l’énonciation, c’est-à-dire le « Faire signe », et l’énoncé. Benveniste est le premier à préciser l’importance du « Faire signe » :

« En tant que réalisation individuelle, l’énonciation peut se définir, par rapport à la langue, comme un procès d’appropriation. Le locuteur s’approprie l’appareil formel de la langue et il énonce sa position de locuteur par des indices spécifiques, d’une part, et au moyen de procédés accessoires, de l’autre. Mais immédiatement, dès qu’il se déclare locuteur et assume la langue, il implante l’autre en face de lui, quel que soit le degré de présence qu’il attribue à cet autre. Toute énonciation est, explicite ou implicite, une allocution, elle postule un allocutaire. Enfin, dans l’énonciation, la langue se trouve employée à l’expression d’un certain rapport au monde. La condition même de cette mobilisation et de cette appropriation de la langue est, chez le locuteur, le besoin de référer par le discours, et, chez l’autre, la possibilité de co-référer identiquement, dans le consensus pragmatique qui fait de chaque locuteur un co-locuteur. La référence est partie intégrante de l’énonciation ». (Benveniste, 1974 : 82).

Comment, alors, les deepfakes peuvent-ils faire sens s’ils « signifient » sans « faire signe » ? C’est du point de vue de l’énonciation ou plutôt de la coénonciation, c’est-à-dire de l’échange entre énonciateurs, ceux qui produisent des énoncés visuels, linguistiques, sonores, etc…, et co-énonciateurs, ceux qui perçoivent, accueillent ses énoncés et se les approprient que nous proposons de questionner les deepfakes. Si les images ou vidéos fabriquées automatiquement à partir d’une synthèse d’images existantes sont dits « faux », cela pose la question suivante : les images énoncées par les humains peuvent-elles dire la vérité ? Ce sera l’objet de notre première partie. Dans un second temps, nous nous demanderons en quoi les deepfakes défient l’énonciation, mettent à l’épreuve le « Faire signe » en le simulant.

2. Les images peuvent-elles dire la vérité ?

Note de bas de page 3 :

Cf. Dictionnaire Le Robert, dictionnaire d’aujourd’hui, (1993), rédaction dirigée par Alain Rey.

Le terme « vérité » a plusieurs acceptions. Il peut désigner une « connaissance conforme au réel, son expression », une « connaissance à laquelle on attribue la plus grande valeur »3 ou encore ce à quoi l’on « peut donner son assentiment (par suite d’un rapport de conformité avec l’objet de pensée, d’une cohérence interne de la pensée) ». La première définition peut laisser croire à une coïncidence entre vérité et réalité, ce que Ferdinand de Saussure, fondateur de la sémiologie structuraliste, réfute sans ambiguïté.

2.1. Selon les systèmes sémiologiques de Ferdinand de Saussure

Pourquoi les signes ne peuvent-ils pas dire la réalité ? Les signes se constituent d’un signifiant, par exemple une chaîne acoustique pour les mots, et d’un signifié, ce que désigne le mot. Mais le signifié n’exprime pas directement le réel, il représente une idée du réel, un concept. Par exemple le signifié qui se rapporte au signifiant ou chaîne acoustique du mot « chat » désigne un concept de chat, une idée de ce qu’est un chat. Il n’est pas tel ou tel chat réel.

La langue, l’écriture, comme « tout système de signes exprimant des idées » (Saussure, 2005 [1916] : 33) ont ainsi pour dessein de transformer l’a-significatif du réel en ensembles cohérents par la parole, « acte individuel » par lequel « le sujet parlant utilise le code de la langue en vue d’exprimer sa pensée personnelle » (Ibid. : 30-31). La langue comme tout « système sémiologique », la photographie, le cinéma, … a une « véritable nature » (Ibid. : 35), des règles de fonctionnement internes, une grammaire si l’on peut dire. Les usages que des individus font des systèmes sémiologiques leur permettent de parler du réel mais toujours en s’en distinguant car ce dernier peut au mieux être représenté en se soumettant à la vérité du système mobilisé, par exemple linguistique. Ainsi, les signes, les systèmes de signes, sont conceptuels et en même temps concrets car ils relèvent de « la vie psychique » de ceux qui les mobilisent, de « la vie sociale », collective qui permet aux systèmes de vivre et d’évoluer, au fil du temps (Ibd. : 32-33). Les images et les textes entendus au sens large d’énoncés produits peuvent dire la vérité du système de signes auquel ils se rapportent, mais ils ne peuvent pas dire la vérité au sens de « conforme à la réalité ».

Note de bas de page 4 :

Cf. https://urbancoolab.com/meet-basquiat

Note de bas de page 5 :

Il « est né en 1960 à Brooklyn d'un père haïtien et d'une mère portoricaine qui l'initie très jeune à l'art en l'amenant souvent dans des musées. Âgé de 16 ans, il abandonne l'école et fugue pour se réfugier dans la création artistique de rue. Il commence par taguer des inscriptions subversives sous la signature de SAMO©. […] Il impose un style qui lui est propre, mélangeant les références à l'Afrique, au vaudou, au jazz et utilisant des matériaux très variés. […] Jean-Michel Basquiat décède d'une overdose le 12 août 1988, à l'âge de 27 ans ». Cf. https://www.franceculture.fr/personne-jean-michel-basquiat

Dans une appréhension saussurienne des systèmes sémiologiques, les deepfakes sont donc faux sans l’être totalement. En effet, ils mobilisent bien des systèmes sémiologiques (photographique, pictural, etc..), ils font appel à leur « véritable nature » interne ou leur code, leur grammaire mais ils rompent avec leur matérialité. Par exemple, en 2020, « l’intelligence artificielle » STiCH programmée par l’entreprise canadienne UrbanCoolab a produit une série de tableaux4 à partir des œuvres du peintre de rue américain Jean-Michel Basquiat rendu célèbre par son style subversif5. Les images produites obéissent au code de la peinture (couleurs, formes, traits) mais sans mobiliser sa matérialité (spécificités des pinceaux, des peintures, épaisseurs, gestes physiques). En effet, les œuvres du peintre ont été transformées en données, les traits de pinceaux formatés en pixels sur lesquels les algorithmes de l’I.A. ont effectué des calculs et ce faisant, ont évolué dans leurs capacités à caractériser numériquement les spécificités du style de l’artiste pour ensuite concevoir des images. Ces dernières ne sont pas matériellement des peintures mais elles en simulent la grammaticalité.

En ce sens saussurien, si elles ne disent pas la vérité de la peinture en tant que matérialité, elles ne mentent pas pour autant. Rappelons que pour le fondateur de la sémiologie, le régime de matérialité des systèmes de signes ne sert que de « support ». Ce qui fait « système sémiologique », n’est pas la « qualité propre et positive » d’un son ou d’une lettre ou d’un caractère ou d’un trait pictural, c’est le fait que les plus petits éléments d’un système, par exemple des phonèmes pour la langue ; des lettres pour les écritures alphabétiques « sont avant tout des entités oppositives, relatives et négatives ». Les signes dans un système sémiologique sont « arbitraires ; aucun rapport, par exemple, entre la lettre t et le son qu’elle désigne » ; « la valeur des lettres est purement négative et différentielle », « la seule chose essentielle est que ce signe [par exemple la lettre t] ne se confonde pas [avec un autre ; l par exemple] ». (Saussure, 2005 [1916] : 164-165).

Dans la logique saussurienne, les images produites par STiCH ne mentent pas ; on peut dire qu’elles signifient sans faire signe au sens où elles ne sont pas produites par des humains. Mais les inventeurs de STiCH ne font-ils pas signe à travers ces productions ? Ils valorisent dans leurs propos la vérité propre aux systèmes d’« I.A. » qui soumettent à leur nature n’importe quel autre système sémiologique :

Note de bas de page 6 :

https://urbancoolab.com/meet-basquiat

« Up until only a few short years ago, art was once considered the exclusive domain of human creation. Although, with artificial intelligence now able to synthesize its complex characteristics with those from other disciplines, it turns out machines can do more in the way of creative reasoning than was once believed ».6

On peut traduire ainsi :

« Jusqu’à il y a seulement quelques années, l’art était considéré comme le domaine exclusif de la création humaine. Cependant, l’intelligence artificielle étant désormais capable de synthétiser, croiser ses caractéristiques complexes avec celles d’autres disciplines, les machines peuvent faire plus de raisonnement créatif qu’on ne le croyait ».

En plus de signifier un style pictural relatif à l’artiste Jean-Michel Basquiat, les images produites par STiCH ne font pas signe directement mais indirectement ; elles expriment une pensée des inventeurs de STiCH. Selon la logique saussurienne, ces images ne disent pas la vérité au sens de conforme à la réalité, mais celles produites par les humains non plus. On pourrait dire qu’elles mentent dans la mesure où elles rompent avec la matérialité de la peinture. Cependant, pour Saussure, la matérialité des systèmes sémiologiques ne constitue qu’un support et n’empêche donc pas les signes de signifier, c’est-à-dire de désigner une idée d’un objet, d’une chose. Que nous dit Emile Benveniste, l’auteur du concept de « sujet d’énonciation » à propos des (in)capacités des signes à dire la vérité ?

2.2. Selon la thèse de l’énonciation chez Benveniste

Benveniste porte notre attention sur l’importance du « Faire signe » autrement dit l’énonciation :

Selon lui, « [C]’est dans l’usage de la langue qu’un signe a existence » ((Benveniste, 1974 : 222). Et l’énonciation est l’acte concret par lequel le sujet énonçant présente à nouveau une expérience de la réalité, la donne en partage. Les « signes [du répertoire sémiotique], en eux-mêmes conceptuels, génériques, non circonstanciels, doivent être utilisés comme “mots” pour des notions spécifiques, circonstancielles, dans les acceptions contingentes du discours » (Benveniste, 1974 : 228). Ainsi, un texte écrit, un discours oral en tant qu’énoncés ne disent pas la réalité en soi mais, via la « structure de la langue », ils la produisent « à nouveau » en tant qu’expérience :

« Celui qui parle fait renaître par son discours l’événement et son expérience de l’événement. Celui qui l’entend saisit d’abord le discours et à travers ce discours, l’événement reproduit. Ainsi la situation inhérente à l’exercice du langage et du dialogue, confère à l’acte de discours une fonction double : pour le locuteur, il représente la réalité ; pour l’auditeur, il recrée cette réalité. Cela fait du langage l’instrument même de la communication intersubjective ». (Benveniste, 1966 : 25).

La vérité de l’énoncé est alors sa capacité à recevoir l’« assentiment » de sujets l’éprouvant comme apte à faire vivre à nouveau une expérience, par le truchement de l’énonciation. Priorité est donnée par le linguiste non plus seulement au code de la langue mais à ce qui fonde l’énonciation, ce qui advient dans et par l’énonciation, à partir d’un « état de choses, la situation de discours ou de fait à laquelle [il] se rapporte et que nous ne pouvons ni prévoir ni deviner » (Ibid. : 226-227).

C’est dans l’usage, dans l’énonciation que la langue peut être médiatrice « entre l’homme et l’homme, entre l’homme et le monde, entre l’esprit et les choses, transformant l’information, communiquant l’expérience, imposant l’adhésion, suscitant la réponse, implorant, contraignant ; bref, organisant toute la vie des hommes. » (Ibid., : 224).

Note de bas de page 7 :

Cf. https://urbancoolab.com/meet-basquiat

Finalement, selon la pensée de Benveniste, un énoncé linguistique, visuel, etc. dit la vérité à partir du moment où il provient d’une énonciation humaine qui se donne en partage en tant que fiction ou réalité. Ainsi, la série de tableaux7 produits par l’« I.A. » de UrbanCoolab à partir des œuvres du peintre de rue américain Jean-Michel Basquiat ne ment pas ; personne ne l’attribue à une énonciation humaine. Mais elle n’est pas non plus un énoncé produit par une instance énonciative ; elle ne ment ni ne dit la vérité. En revanche, elle s’accompagne d’énoncés de UrbanCoolab ; en prétendant qu’une production machinique peut donner en partage une expérience artistique, ils mettent en question la thèse de Benveniste. Peut-on parler d’expérience artistique dès lors que l’image ne donne plus d’expérience sensible, en partage entre humains ?

Note de bas de page 8 :

Cf. https://information.tv5monde.com/video/l-ambassadeur-de-france-au-cameroun-piege-le-defi-des-deepfakes-vrai-dire

Pourtant certains deepfakes peuvent mentir selon la thèse de Benveniste. C’est le cas de fausses énonciations telle cette vidéo qui a circulé sur les réseaux sociaux en date de juillet 2020 montrant l’ambassadeur de France au Cameroun, Christophe Guilhou en train de tenir des discours de colonisateur8 : « Je suis au Cameroun uniquement, exclusivement, essentiellement, nécessairement pour les intérêts de la République française. La République française, c’est la puissance de tutelle qui en fait a colonisé le Cameroun ».

« Ces propos ont choqué l’Afrique » commente une journaliste de TV5 Monde. Si chez Benveniste, l’énonciation ne prend pas en compte le régime de matérialité des énoncés (supports, modes de circulation dans la société), elle porte cependant attention à la situation concrète – les lieux, moments, circonstances – par lesquels des sujets énoncent ou/et accueillent les énoncés.

2.3. Selon la praxis énonciative

Les auteurs de la notion de praxis énonciative, Jacques Fontanille et Claude Zilberberg élargissent quant à eux le concept d’énonciation aux opérations matérielles et symboliques, de médiation, transmission, communication des énoncés au sein de la société. L’ensemble de ces éléments est considéré comme entrant en compte dans le processus d’interprétation :

[L]’énonciation est une praxis dans l’exacte mesure où elle donne un certain statut de réalité […] aux produits de l’activité de langage : la langue se détache du « monde naturel » mais la praxis énonciative l’y plonge à nouveau, faute de quoi les actes de langage n’auraient aucune efficacité dans ce monde-là. Il y a bien deux activités sémiotiques, les activités verbales et les activités non-verbales, mais elles relèvent d’une seule et même « praxis ». (Fontanille et Zilberberg, 1998 : 128)

Image cachée, retrouvée, détruite, copiée, falsifiée, les opérations qu’elle vit font qu’elle échappe à son énonciateur ; elles lui apportent de la valeur ou à l’inverse la dévalorisent, elles contribuent possiblement à mobiliser le pathos des co-énonciateurs qui l’interprètent et la manipulent, la remettent en circulation.

Note de bas de page 9 :

Cf. https://www.bfmtv.com/tech/piratee-une-chaine-d-information-ukrainienne-diffuse-un-deepfake-de-volodymyr-zelensky_AN-202203170296.html

Selon la praxis énonciative, une image ne tient pas de la vérité en tant que conforme à la réalité ; elle dit la vérité de son parcours au sein de la société plutôt que celle d’une intentionnalité première. Une image est chaque fois vouée à réinterprétation, réénonciation selon les circonstances qui affectent, motivent les co-énonciateurs, relativement à leur subjectivité. En ce sens, les deepfakes disent la pertinence de la praxis énonciative ; les images ou vidéos sur lesquelles portent les opérations, les manipulations, prennent un sens qui échappe à leur instance énonciative de départ, à la situation d’énonciation d’origine. En même temps qu’elles sont remises en circulation, transformées, elles sont réénoncées. Cela, qu’il s’agisse des peintures de Jean-Michel Basquiat, réénoncées non pas tant par l’I.A. que par ses auteurs, Urban Coolab, qu’il s’agisse de la vidéo de l’ambassadeur de France au Cameroun mise en circulation sur les réseaux sociaux pour tromper les gens ou bien encore, dans le cadre de la propagande guerrière, la vidéo de Volodymyr Zelinsky, président ukrainien appelant son peuple à « rendre les armes ». Ce deepfake9 a été diffusé le 16 mars 2022 sur la chaîne nationale Ukraine 24 alors piratée. « La vidéo, devenue virale, a été supprimée par Facebook » déclare BFMTV.

Si les deepfakes ne relèvent pas d’une énonciation humaine, ils font signe malgré tout car ils émergent d’intentionnalités humaines manipulatoires. En effet, les manipulations technologiques mises en œuvre servent des manipulations communicationnelles ; chercher à faire croire, faire-faire quelque chose à autrui par exemple, respectivement aux exemples ci-dessus, faire croire au pouvoir artistique des « I.A », provoquer une indignation. En ce sens, ils disent la vérité de la force manipulatoire, communicationnelle des images et des énoncés en général ; agir sur autrui, sur le co-énonciateur.

L’affranchissement de l’énoncé par rapport à son énonciateur premier, à la situation d’énonciation dans laquelle il a émergé est donc au cœur de la praxis énonciative. Plus encore, chez Roland Barthes, le sens que le co-énonciateur trouve dans l’énoncé participe d’une déconstruction ; c’est le « signifier » même du texte, de l’image qui se trouve mis en question avec le « recul infini du signifié » face à la liberté interprétative (1984 : 74). Chacun peut interpréter les énoncés selon les signes, ou ensembles de signes, sur lesquels il focalise son attention, selon ce qu’il sélectionne, pioche, et ce qu’il tisse à partir de cela. La thèse de Barthes pose une question éthique que le socio-sémioticien Eric Landowski nomme « éthique de la lecture » (Landowski, 2004 : 23) : jusqu’où le co-énonciateur peut-il s’affranchir de l’Autre, de l’instance énonciative qui, via un énoncé, fait signe et signifie ? Pour le socio-sémioticien « selon cette perspective, tout lecteur est en somme invité à se poser en petit souverain en matière de construction du sens ». (Landowski, id.). Or, ce qui peut nourrir le co-énonciateur, n’est-ce pas le fait de se frotter au monde de l’Autre, d’en éprouver les replis, s’en trouver dérangé dans son propre confort, s’en trouver grandi ? Pour Landowski, l’attention portée à l’Autre dans un texte, une image ou tout autre énoncé est fondatrice du lien social, elle fait société, elle requiert la faculté à accueillir « l’effet de sens global, lié à la présence de l’autre [qui sous-tend] ce qu’il énonce ». (Id.). La vérité de l’image n’est plus dans la liberté interprétative de chacun mais dans le soin porté à l’Autre, dans la rencontre finalement, dans la coénonciation. Dans quelles mesures les deepfakes mettent-ils l’énonciation à l’épreuve et inversement dans quelles mesures l’énonciation met-elle les deepfakes en question ?

3. Quand les deepfakes nous amènent à reconsidérer l’acte éco-techno-symbolique de l’énonciation

Les deepfakes mettent pleinement en scène les questions éthiques au sens de ce qui fonde le mieux-être individuel et collectif : ils posent la question de la liberté de manipulation des énoncés, de leur réénonciation tout comme celle de la liberté interprétative des énoncés.

3.1. Accueillir le monde de l’Autre ou en jouir ?

Note de bas de page 10 :

Cf. https://www.numerama.com/pop-culture/946703-en-interrogeant-les-morts-lemission-hotel-du-temps-prouve-que-les-deepfakes-peuvent-etre-cool.html

Jusqu’où le monde de l’Autre va-t-il résister aux manipulations technologiques, énonciatives, interprétatives ? Par exemple, le décalage entre les mouvements de bouche du personnage à qui l’on fait tenir des propos qu’il n’a jamais tenus et le son dans la majorité des vidéos deepfakes peut être considéré comme une résistance de l’Autre ; son image ne se laisse pas faire facilement, elle ne se prête pas facilement aux manipulations qu’on lui fait subir. Mais si la technologie le permet, qu’a-t-on à gagner ou à perdre tant collectivement qu’individuellement à ne pas, ou plus, se donner de limite dans la reprise et manipulation d’images de l’Autre ? Faire converser les morts comme le propose l’animateur et producteur Thierry Ardisson dans son émission « Hôtel du temps » sur France 3 où il interroge les images de Jean Gabin, Dalida10, … et leur fait dire ce qu’il a envie. La « jouissance » de l’image pour reprendre le terme de Landowski, son appropriation selon ses propres visées tiennent dans cet hommage ludique d’une ambivalence entre le jeu de la coprésence sensible entre le vivant et le mort et le fait de pouvoir jouir de l’Autre, avoir son image à sa merci car le rapport entre les coénonciateurs est foncièrement inégalitaire. L’un décide, Thierry Ardisson et son équipe, l’autre subit ; l’image est instrumentalisée.

D’un point de vue sémiotique, ce n’est pas une question morale qui se pose à nous ; est-ce bien ou est-ce mal de faire parler les morts, de faire tenir à des personnes défuntes ou vivantes des propos qu’elles n’auraient jamais tenus ? Mais une question de sens, celui éthique et sémiotique que portent les concepts d’énonciation, de coénonciation. Coénoncer, c’est le contraire du « socio-centrisme » (Landowski, 2004 : 35) que fustige Eric Landowski ; au lieu de jouer avec l’image de l’Autre à volonté, selon ses propres visées et en ne se donnant que les seules limites technologiques, c’est procéder d’« une mise à l’épreuve » (Id.) réciproque des instances énonciatives, co-énonciatives. Le co-énonciateur donne corps au texte, à l’image en devant s’ajuster au rythme, à la plasticité avec lesquels l’énoncé se donne en partage. Cet ajustement nécessite d’accueillir le monde de l’Autre tel qu’il s’énonce, il nécessite l’empathie et ce faisant, travaille l’être du co-énonciateur. Réciproquement, l’énoncé se réénonce dans la rencontre avec le co-énonciateur, il chemine dans la vie sociale. Dans le cas des deepfakes, ce sont les IA qui jouent le rôle du co-énonciateur, qui sont censées s’ajuster à l’Autre. Mais le peuvent-elles sémiotiquement parlant ?

3.2. Pourquoi les « I.A. » ne peuvent-elles pas (co-)énoncer ?

Note de bas de page 11 :

A.J. Greimas distingue clairement l’intention et Intentionnalité. Pour lui, l’Intentionnalité permet de concevoir l’acte d’énonciation « comme une tension qui s’inscrit entre les deux modes d’existence : la virtualité et la réalisation ». La notion d’intention, quand elle est utilisée comme exclusive pour définir l’acte de communication lui « paraît critiquable dans la mesure où la communication est alors envisagée comme un acte volontaire-ce qu’elle n’est pas toujours – et comme un acte conscient-ce qui relève d’une conception psychologique par trop simpliste de l’homme ». (1993 [1979]: 190).

S’ajuster à l’Autre, dans la coénonciation, requiert la part vivante de la perception. Dans un article intitulé « Le design de l’« I.A. » à l’épreuve du vivant » (Pignier, 2020a), nous avons précisé les liens entre la coénonciation et les matrices organisatrices de la perception. Ces dernières sont des schèmes, c’est-à-dire des tensions appréciatives qui nous relient, en tant qu’être vivants, à la Terre, l’oikos en grec, la maison qui accueille la vie. Les schèmes sont des tensions entre pôles complémentaires et contradictoires, ceux de la vie et de la mort, du féminin et du masculin – respectivement l’anima, l’animus selon les termes de Carl Gustav Jung repris, redéfinis par Gaston Bachelard (Bachelard, 1986 : 52-57) –, du haut et du bas, du local et du global, du continu et du discontinu fondateurs du rythme. Les dynamiques schémiques, matrices organisatrices de la perception s’ancrent dans notre corps biologique en tant qu’organisme vivant parmi le reste du vivant dans l’oikos. C’est à partir d’elles et en interaction avec les esthésies, à savoir les sensibilités culturelles ou manières d’être au monde spécifiques à une communauté, puis avec les esthèsis ou sensibilité plus singulière, propres à chacun, que nous apprécions les lieux de la Terre. La perception est un processus non pas calculatoire, non pas de détection-réponse mais éco-biologico-appréciatif. Les schèmes se prolongent, se manifestent en situation, en lieu, dans nos gestes, nos paroles, nos langues, nos arts de façon technique et symbolique. De ces capacités à nous ajuster aux autres, aux autres vivants, à nous mettre à leur épreuve sont nés les arts, les langues, les techniques. Nos aptitudes symboliques nous permettent de rendre présent en d’autres temps, autres lieux, ce qui n’est plus, pas encore, ce qui n’est pas. Cela, par le pouvoir suggestif des images, des mots, des arts. La présence sensible, rendre présent quelque chose ou quelqu’un d’absent, le présenter à nouveau, se rendre présent à l’autre, s’y ajuster, cela relève de ce que nous sommes des vivants doués de symbolisme. C’est cela qu’engage la coénonciation humaine ; une relation éco-techno-symbolique à l’autre, aux autres vivants qui eux aussi sont capables d’apprécier leur milieu, de manifester des signes synesthésiques aux autres vivants, dans un degré de symbolisme inexistant pour les plantes, les bactéries, les virus, variable chez les animaux, moindre il est vrai par rapport aux humains (Pignier, 2020a ; 2021). Les êtres vivants non-humains énoncent eux-aussi ; certains animaux manifestent des signes symboliques, tous ainsi que les végétaux manifestent des signes ambiants, « sans intention mais toujours avec intentionnalité » (2018 : 72-73) c’est-à-dire avec une tension appréciative singulière11.

4. Conclusion

Les entrées sémiotiques retenues dans cette contribution nous amènent à ce constat : on ne peut pas sémiotiquement opposer la fausseté des deepkakes et la vérité des autres images. En effet, chez Saussure, les énoncés ne consistent pas à dire une vérité conforme aux choses réelles mais à dire la vérité du système sémiologique auquel elles appartiennent. Si les deepfakes ne reprennent pas toujours la matérialité des supports de l’image, par exemple quand ce sont des visuels produits à partir de peintures, ils continuent à signifier possiblement pour celles et ceux qui les regardent, dans un système sémiologique visuel. Ainsi, les deepfakes ne mentent pas mais ils ne disent pas non plus totalement la vérité.

Chez Benveniste, c’est le « faire signe » qui prime avec le concept d’énonciation. La force d’un énoncé, sa vérité, c’est de donner en partage une expérience re-présentée c’est-à-dire présentée à nouveau par et dans l’énonciation. Si l’on suit sa thèse, les deepfakes ne peuvent dire la vérité énonciative ; ils ne donnent en partage qu’une énonciation feinte. En revanche, les deepfakes expriment la vérité de la praxis énonciative ; ils prouvent plus que jamais qu’un énoncé, au fil de sa circulation dans la vie sociale, est prêté à une multitude possible d’opérations, de manipulations pratiques qui ont des effets communicationnels sur le faire-faire, le faire-croire. Ces manipulations détachent les énoncés de leur énonciation première et entrent en compte dans le processus d’interprétation toujours renouvelé. Les deepfakes s’inscrivent également dans le jeu de libertés interprétatives telles que décrites par Roland Barthes ; libre à chacun de nous de trier, de hiérarchiser les signes d’un énoncé et à partir de là, de l’interpréter à sa guise.

Mais ce faisant, elles nous amènent à réinterroger ce qu’énoncer, coénoncer veut dire … L’ajustement technologique auxquelles elles peuvent prétendre n’est pas l’ajustement sensible, existentiel, symbolique qu’Eric Landowski accorde à la coénonciation, interaction fondatrice du lien social. Il n’est pas non plus, selon notre approche écosémiotique, l’expression de ce qui dans notre perception, nous relie à la Terre, aux autres vivants. Une « I.A. » ne peut énoncer, co-énoncer car elle détecte, pousse des signes, fait des opérations a-sémiotiques, vides de sens. (Pignier, 2020b : 166-167).

Plus encore, les capacités toujours croissantes des deepfakes à réduire la présence sensible concrète, existentielle, symbolique en présence sensorielle hyperréaliste accompagnent une idéologie techno-symbolique coupée de l’oikos, de cette part vitale, vivante qui nous travaille dans nos actes de perception et de coénonciation. Nous immerger par la présence sensible des énoncés, dans le monde de l’Autre pour lui rendre hommage, pour en comprendre les expériences de vie, cela nécessite-t-il des prouesses technologiques qui nous subjuguent par leur hyperréalisme mais ce faisant effondrent nos expériences symboliques ? Dans Deep earnings. Le néolibéralisme au cœur des réseaux de neurones, le physicien Pablo Jensen explique comment le design des « I.A », dès le départ, loin d’être neutre, tient d’une finalité spécifique accompagnant une vision de la société bien circonscrite, celle du marché dont il faut soutenir, accompagner la complexité pour favoriser sa croissance. Cela nécessite des technologies aptes à dompter les gens, corps et âmes en les extrayant « de leur tissu de relations vitales pour les mobiliser dans [un] vaste réseau technique et commercial hors-sol » (Jensen, 2021 : 89).

Note de bas de page 12 :

Cf. https://www.sudradio.fr/medias/thierry-ardisson-hotel-temps-dalida-jean-gabin-deepfake

La visée éthique néolibérale du traçage, de l’interconnexion, du numérique comme milieu semble échapper à Thierry Ardisson qui déclare : « Avec le deepfake je suis ravi de pouvoir recréer de l’émotion, ce n’est pas juste une prouesse techniqueJ’explique toujours aux gens : le deepfake est un outil, il n’a pas d’idéologie. »12

En effet, Pablo Jensen ajoute :

« Les réseaux de neurones représent[ent] le dernier avatar de ces outils de contrôle centralisé typiques du modernisme. Ils permettent au GAFAM de s’approprier certaines de nos compétences […] et de les transformer en nombres (les valeurs des influences entre neurones) détachables du contexte, transportables dans le temps et dans l’espace, pour être combinées dans des centres de calcul afin de tracer nos comportements » (Id.).

En mettant à l’épreuve ce qu’énoncer veut dire, les deepfakes sont à leur tour mis à l’épreuve. En effet, ils n’énoncent pas mais ils interviennent dans le processus de manipulation communicationnelle entre humains dont les objectifs peuvent être multiples ; tromper, surprendre, faire réagir, distraire, renforcer l’idéologie du numérique comme milieu. Saurons-nous user des deepfakes pour sortir de l’anesthésie ambiante et redonner tout son sens éco-techno-symbolique à l’énonciation, à la coénonciation ?