Vin et voix : vers une inter-esthésique des qualités sensorielles

Parret, Herman

doi:10.25965/visible.185

Vin et voix : vers une inter-esthésique des qualités sensorielles

Herman Parret

https://doi.org/10.25965/visible.185

Publié en ligne le 18 novembre 2022
Année d’édition : 2005

Sommaire

La syntaxe figurative canonique de la dégustation du vin

La qualification phénoménologique de la voix

Quelques observations descriptives et méthodiques

Essai inchoatif d’homologation

Texte intégral

Note de bas de page 1 :: Nous trouvons une belle description de cette alliance dans un article du Monde consacré à Alejandro Robaina, « fumeur cubain de légende » : « [...] Le havane et le rhum se respirent et s’évaluent à l’oeil et au nez. Ils se toisent et se tâtent, avant d’être têtés. Un chromatisme commun les apparente. [...] Un rhum cubain sur un corona, c’est un parfum de femme au regard noir qui jaillit, avec l’expression même de la douceur mâtinée de ce rien de pointu dans la tripe [...] C’est ici que commence le voyage de noces. Dès que vous avez trempé la tête d’un cigare dans le verre et aspiré la douce chaleur de l’un avec la fraîcheur odoriférante et nerveuse de l’autre, vous quittez la table pour le salon de musique intérieure. Vous êtes dans le lit d’une rivière et vous faites la planche » (Le Monde, 18 décembre 2001, p. VII).

L’analyse tentative que nous proposons s’inscrit dans le cadre d’une sémio-esthésique, c’est-à-dire d’une sémiotique qui a comme objet la sensorialité globale du corps. La question précise qui se pose concerne l’attribution de la qualité au niveau de deux registres sensoriels : le gustatif et l’auditif, le vin et la voix. L’opération évaluative de la dégustation qualitative du vin est analysée en oeno-esthésique, l’opération appréciative de la saisie qualitative de la voix en phono-esthésique. Notre but est d’esquisser quelques lignes de force d’une inter-esthésique comparant, voire homologuant ces deux types d’opérations. Comparer et homologuer le gustatif et l’auditif est une tâche qui sort des chemins battus. La classification classique des cinq sens propose l’ordre suivant : la vue, l’ouïe, l’odorat, le goût et le toucher. La vue et l’ouïe s’amalgament facilement dans des synesthésies bien connues comme celle de l’audition colorée, et l’odorat, le goût et le toucher, les soi-disant « sens intimes », s’entrelacent spontanément dans nombre d’expériences sensorielles. L’odeur d’un bon cigare et le goût d’un verre de rhum font une alliance maintes fois chantée par bien de poètes sensualistes¹. La gastronomie cultive de toute évidence ces synesthésies « faciles » et nul ne doute qu’elles nous procurent des jouissances ardentes et subtiles. Toutefois, la vue et l’ouïe d’une part, et l’odorat, le goût et le toucher de l’autre semblent séparer par un abîme difficile à traverser. C’est pourtant ce que nous proposons en construisant une inter-esthétique de l’auditif et du gustatif, de la voix et du vin. Cette inter-esthétisue « compare » par conséquent l’évaluation de la qualité du vin et l’appréciation de la qualité de la voix.

Note de bas de page 2 :: Brillat-Savarin, La physiologie du goût, [1825], Paris, Flammarion, 1986, p. 54 et sv.
Note de bas de page 3 :: Dans A. Hénault, Questions de sémiotique, Paris, Presses Universitaires de France (Coll. Formes sémiotiques), 2002, p. 639-665.
Note de bas de page 4 :: Art.cit., 654.

Brillat-Savarin, dans sa Physiologie du goût, compare en effet le goût et l’ouïe en remarquant que « le goût n’est pas si richement doté que l’ouïe »². Il explique cette constation par le fait que le goût est « simple en actualité », i.e. ne peut être impressionné par deux saveurs en même temps, tandis que l’ouïe peut entendre et comparer plusieurs sons à la fois. C’est dire que le goût n’est que linéaire tandis que l’ouïe en même temps linéaire et harmonique. Cette linéarité ou temporalité est soulignée également par Jean-François Bordron dans un texte que nous citerons souvent, Perception et énonciation dans l’expérience gustative. L’exemple de la dégustation d’un vin³ : « Il est remarquable que la dégustation utilise un lexique tout à fait comparable [...] à celui de la critique musicale ou à celui des parfumeurs. Le langage de description des objets visuels ou tactiles est en revanche bien différent. Une hypothèse serait que le goût, l’odorat et l’ouïe ont besoin de temps pour constituer leur objet, la vue et le tact paraissant en disposer dans l’immédiateté. Dans les trois premiers cas, il semble que l’on ne puisse décrire une perception sans introduire des « morphologies temporelles »⁴. C’est certainement la cas parce que l’auditif et le gustatif ont une dimension temporelle, fondamentale pour la spécificité de ces deux expériences sensorielles mais, comme on le verra dans l’analyse qui suit, le temps de la dégustation qualitative du vin et le temps de la saisie qualitative de la voix sont d’une tout autre nature.

Nous progressons de la façon suivante. Dans une première section la syntaxe figurative de la dégustation du vin sera brièvement présentée, et ensuite dans une seconde section quelques aspects d’une qualification phénoménologique de la voix. Une troisième section « compare » les résultats de ces deux types de « qualifications » tandis qu’un effort inchoatif d’homo-logation partielle est esquissée dans la quatrième section.

La syntaxe figurative canonique de la dégustation du vin

Note de bas de page 5 :: Op.cit., 52.
Note de bas de page 6 :: J. Fontanille et Cl. Zilberberg, Tension et signification, Bruxelles, Mardaga, 1998.

Cette syntaxe a été parfaitement élaborée par Jean-François Bordron dans l’article mentionné et nous ne faisons qu’en reprendre quelques éléments en la dissociant de l’enchâssement dans une sémiotique de l’énonciation. Même si une « syntaxe figurative » est préfigurée, elle consiste essentiellement dans une taxinomie lexicale ou une taxinomie de prédicats servant d’étiquettes de certaines propriétés qualitatives du vin en dégustation. S’il y a syntaxe, c’est que la dégustation du vin est « linéaire », se déploie dans une temporalité fortement aspectualisée. Les prédicats s’organisent autour des trois « aspects sémiotiques » canoniques : l’inchoativité, la durativité et la terminativité, que Bordron réintitule : attaque, évolution, finale. D’autres triades ont été proposées pour ces mêmes aspects. Brillat- Savarin, sans être sémioticien, travaille avec la triade suivante : sensation directe, sensation complète et sensation réfléchie⁵. La sensation directe est non médiatisée, spontanée et immédiate. La sensation complète est constituée comme un conglomérat de saveurs de base. La sensation réfléchie indique cet « aspect » du goût qui, en s’évanouissant, se retourne sur lui-même dans une dernière évaluation réflexive. Cette idée d’une évaluation réflexive mérite certainement d’être retenue. Une autre triade encore a été proposée, celle de Fontanille et Zilberberg : émanation, diffusion, pénétration⁶. Les quatre triades relevées n’indiquent pas le même positionnement sémiotique, mais, si elles ne sont pas globalement homologables, elles ne sont pas exclusives non plus. Tenons-nous à la triade attaque, évolution, finale, en proposant quand-même de remplacer évolution par constitution, terme qui nous paraît plus adéquat.

L’évaluation de la qualité de l’attaque dans la dégustation se fait à l’aide de termes (ou de prédicats) impliquant une idée de résistance (rond, souple, tendre), une idée d’intensité ou de force (intense, présent, solide, puissant, fin, mince, plein), une idée de style, de « séduction » (rude, charmant, élégant, simple, frais). Ce dernier groupe de prédicats forment en fait le registre modal. Il faut noter que tous ces termes conçoivent l’attaque comme indicielle : quelque chose s’annonce, et les prédicats de ce groupe pointent donc vers la présence de quelque chose qui n’est encore véritablement là.

Le goût se constitue dans une seconde phase aspectuelle, celle où la sensation se complète (Brillat-Savarin), « se diffuse » (Fontanille/Zilberberg), exploite une certaine durativité. La constitution du goût se réalise comme une mise en balance des saveurs ou des qualités sensibles de base, toujours selon leur degré relatif de présence. La distribution se fait par conséquent en fonction d’un certain équilibre entre les saveurs de base que sont l’acide, le sucré et l’amer. Bordron parle avec bonheur de « déploiement des qualités sensibles » et « d’exfoliation des données indicielles » relevées au moment de l’attaque. Quelques prédicats des saveurs acides sont : vert, nerveux, acidulé, frais, rond ; des saveurs sucrées : moelleux, mielleux, onctueux, pâteux, gras ; des saveurs amères/astringentes : âpre, rêche, rude, tannique, charpenté. Jean-François Bordron introduit à partir de ces taxinomies quelques généralisations sémiotiques intéressantes. C’est ainsi, affirme-t-il, que le registre de l’acidité fournit le lexique de l’intensité, de la tonicité, de la vitesse et du tempo : vert, vif, etc. ; le registre du sucré le lexique de la lenteur, de l’espacement, mais aussi de la substantialité : gras, pâteux, etc. ; le registre de l’amer le lexique du resserrement, du contact avec une matière résistante : âpre, etc. Mais il est surtout nécessaire de constater qu’après l’indexicalité de l’attaque, la constitution, second aspect constitutif de la dégustation, nous livre l’iconisation de l’objet dynamique du goût.

Suit en conclusion l’aspect de la finale qui, dans la taxinomie de Bordron, s’exprime dans le lexique de la durée : long, court, interminable ; le lexique de la finesse et de la subtilité quand on indique une qualité sensible comme évanescente, entre autres ; le lexique de la décadence et du délitement, quand on appelle la finale sableuse ou poussiéreuse, par exemple.

La qualification phénoménologique de la voix

Note de bas de page 7 :: Nous reprenons dans cette seconde section des passages du Chap. II de notre livre La voix et son temps, Bruxelles, Editions de Boeck, 2002.
Note de bas de page 8 :: John Laver, parmi les phonéticiens, s’intéresse de fçon systématique à la description phonétique de la qualité de la voix. Nous reprenons ici sa typologie des étiquettes dans « Labels for Voices », repris dans The Gift of Speech : Papers in the Analysis of Speech and Voice, Edingburgh, Edingburgh U.P., 1991, Chap. 11, p. 171-183.

On qualifie la spécificité d’une voix, dans le langage ordinaire, par des centaines de prédicats et d’étiquettes, souvent intraduisibles d’une langue à l’autre⁷. La voix est qualifiée de mille façons, de douce, triste, civilisée, métallique, sans couleur, méridionale, soporofique, plaisante, sépulchrale... La phonétique ne fait pas grand cas de ces qualifications phénoménologiques et intuitives. Ce domaine est trop intensément subjectif et ne génère pas aisément les invariants et les universaux dont la théorie phonétique a besoin. En effet, il se révèle extrêmement ingrat de construire des corrélats phonétiques de toutes ces qualifications. Par contre il n’est pas impossible d’identifier le type de référent que ces qualifications ou ces étiquettes évoquent. Quel est le principe référentiel selon lequel l’intuition qualifie phénoménologiquement une voix ? La distinction la plus fondamentale qui gouverne l’étiquetage des voix est celle entre une étiquette référant aux sons produits par un locuteur et une étiquette référant aux caractéristiques de la personne qui produit ces sons. On parlera ainsi d’une part d’une étiquette descriptive et de l’autre d’une étiquette indexicale⁸.

Les étiquettes descriptives sont de deux espèces, les étiquettes impressionnistes et les étiquettes phonétiques. Ces dernières, étant les corrélats des premières, font partie du vocabulaire phonétique et elles tendent à la définition univoque et précise. Les déterminations phonétiques, en général, évitent la description holistique puisqu’elles identifient de préférénce les composantes pertinentes constituant la qualité globale de la voix. En plus, elles font abstraction des différences interpersonnelles qui ne sont que des variantes pour la théorie phonétique universelle. Les étiquettes impressionnistes, par contre, ne sont accordées que sur la base d’une démonstration audible effective d’une voix in vivo dont la spécificité ne peut être saisie qu’approximativement. Deux autres différences entre les deux types de qualifications peuvent être notées. En premier lieu, le nombre des étiquettes à la disposition dans les deux cas est different. La liste des termes phonétiques est limitée mais elle permet un très grand nombre de combinaisons, tandis que la taxinomie des termes impressionnistes est beaucoup plus riche, surtout parce que, pour la qualification impressionniste des voix, on fait appel aux ressources métaphoriques de la langue. En second lieu, l’attribution des termes phonétiques est rigoureuse, explicite et universelle, tandis que l’attribution des termes impressionnistes est dépendante des conventions du langage ordinaire tout comme des intuitions individuelles, ce qui les rend moins communicables et moins efficaces. C’est pourtant cette terminologie « impressionniste » qui intéressera l’approche phénoménologique de la qualité vocale.

L’étiquettage impressionniste de la voix, dans le langage quotidien, se réfère en fait à trois types de traits : des traits segmentaux, des traits se référant au dynamisme vocal, et des traits se référant plus spécifiquement au processus physiologique de la production vocale.

La première classe, celle des traits se référant à la segmentation, est la moins productive. Elle ne nous livre qu’une petite liste d’étiquettes : sifflant, larmoyant, net, distinct, clair, sussurant, zozotant, emphatique, empoulé, précis, brouillé, gazouillant, écorhcé, estropié, gras, embarassé, etc. Il est d’emblée évident que ces étiquettes sont vraiment « impressionnistes » et que même leur appartenance à la classe des traits segmentaux est discutable.

La situation n’est pas très différente pour les autres classes comme celle des traits qui concerne le dynamisme de la voix où on trouve des adjectifs ayant comme référent la portée de la hauteur (pitch-range), le mouvement de la hauteur (pitch movement), le volume (loudness-range), le tempo, la continuité, et le registre phonatoire. La tessiture (pitch-range) est une échelle où on distingue généralement cinq positions : très profond, profond, position médiane, haut, très haut. Ces positions ont évidemment des affinités canoniques avec des registres phonatoires particuliers : le registre d’une « voix falsetto » est ainsi combiné tout naturellement avec une grande hauteur (high pitch). Voici quelques listes de la deuxième classe. Tessiture : bêlant, oiseleur, léger, bas, pâle, rosâtre, criard, riche, flûté, roulant, gargouillant, sépulchral, perçant, aigre, argentin, sombre, sonore, gazouillant, plaintif, dolent, terne, pâle, grinçant, craquant, enroué, rauque, graveleux, grave, pesant, bourru, brusque, rude, rébarbatif. Mouvement de la hauteur : bourdonnant, mélodieux, monotone, musical, tremblant, chevrotant, plaintif, maussade, mielleux, doucereux. Volume : gros, retentissant, sans couleur, pâle, grinçant, qui porte loin, plein, graveleux, bourru, brusque, rude, cossu, enroué, fort, haut, grand, profond, bas, sonore, emphatique, ampoulé, perçant, pénétrant, plaintif, maussade, rauque, résonnant, gargouillant, aigu, mou, délicat, doux, tendre, sombre, sonore, staccato, strident, solide, ferme, infime, effronté. Tempo : traînant, bourdonnant, rapide, pesant, grave, prompt, agile, leste, sombre, indolent, staccato, gazouillant. Continuité : écorché, estropié, bourdonnant, saccadé, irrégulier, doux, poli, lisse, coulant, courant, disert, fluide, liquide. Registre phonatoire : respirant, soupirant, haletant, fendu, fêlé, timbré, craquelé, rissolé, craquant, enroué, rauque, grinçant, discordant, choquant, désagréable, graveleux, grumuleux, bourru, brusque, rébarbatif, brutal, grossier, qui gronde, gargouillant, aigu, aigre, mince, maigre, faible, grêle, guttural, velouté, chuchotant.

La dernière classe des qualifications impressionnistes est celle des traits qui réfèrent directement à la base physiologique du processus de production vocale. Un premier groupe est formé par des termes techniques indiquant les types de voix de chant : ténor, baryton, basse, soprano, alto, contralto, etc. Le second groupe offrent des termes se référant à la location et au fondement physique de la production vocale, comme le mode de vibration des cordes vocales et la tension musculaire. Location physiologique de production : bourdonnant, nasal, sonore, gémissant, pleurnichant, ricanant, étranglé, relâché, détendu. Tension musculaire : effronté, impudent, hébété, stupide, lourd, ennuyeux, dur, métallique, affublé, voilé, emmitouflé, retentissant, strident, grinçant, âpre, rauque, résonant, sonore, mou, délicat, doux, strident, minuscule. Mode de vibration des cordes vocales : oiseleux, soufflant, respirant, haletant, fendu, timbré, fêle, craquelé, grinçant, enroué, rauque, doux, harmonieux, flûté, fruité, corsé, grinçant, désagréable, choquant, graveleux, bourru, brusque, rude, rébarbatif, âpre, rude, dur, enroué, rauque, mielleux, doucereux, moelleux, fondant, mûr, mélodieux, métallique, emmitouflé, assourdi, musical, sifflant, agité, raboteux, épais, gros, solide, mince, faible, grêle, velouté, chuchotant. Deux remarques en guise de conclusion à ces taxinomies. Les prédications les plus intéressantes sont sans doute réalisées par les termes iconiques, comme en anglais, booming, rumbling, staccato, tinkling, twittering, ou en français, chuchotant, soufflant, grinçant, bêlant, sifflant, et les termes métaphoriques où la qualification employée transpose synesthésiquement un canal sensoriel, la vision ou le tact en particulier, vers l’auditif comme dans voix d’or, voix pâle (ou en anglais, bleary, golden, colourless), pour la vision, ou voix dure, liquide, raboteuse, de soie, moelleuse, veloutée (ou en anglais, brittle, hard, liquid, rough, silky, soft, velvety), pour le tact. Et ensuite, n’oublions quand même pas que toutes ces qualifications sont culturellement déterminées de sorte que la saisie de la spécificité d’une voix à l’aide de ces étiquettes impressionnistes présuppose une certaine familiarité avec le vocabulaire d’une langue particulière, voire avec la culture qui sert de contexte à ces spécifications. Familiarité également, pour certaines occurrences, avec le vocabulaire technique d’une terminologie scientifique, comme dans voix nasale, voix gutturale, et même voix baryton.

La qualification indexicale de la spécificité d’une voix réfère à des caractéristiques que l’interprétant attribue au producteur du son vocal, de sorte que le son produit fonctionne comme indice de ces caractéristiques. Deux sous-types sont à distinguer : des traits intrinsèques qui sont de indices de certains caractéristiques physiques du producteur, comme le sexe, l’âge et la santé, et des traits extrinsèques qui sont des indices de certains choix idiosyncratiques que le locuteur effectue dans le domaine de la segmentation, du dynamisme vocal et de la mise en scène consentie d’une certaine psychologie. La frontière entre les deux sous-types est vague et incertaine : le statut social et la profession, par exemple, et même la provenance régionale sont à moitié intrinsèques et à moitié extrinsèques, en ce que le statut social et la profession produisent des indices qui sont à moitié voulus et à moitié involontaires. Peu d’étiquettes sont purement intrinsèques et elles sont d’ailleurs assez peu intéressantes. On parle ainsi d’une voix virile, voix d’enfant, voix robuste, voix enrhumée ou voix faible (référant à la voix d’un malade). Il semble y avoir dans l’interprétation une corrélation générale entre le physique, surtout la taille d’une personne, et la hauteur de sa voix : si on entend au téléphone une voix profonde et volumineuse, on imagine le producteur comme étant une personne forte et robuste. Les étiquettes extrinsèques ou semi-extrinsèques sont bien plus intéressantes. Si on évoque une voix bourgeoise (upper-middle class voice), la qualification ne concerne pas uniquement des caractéristiques phono-esthétiques, mais également des spécificités syntaxiques, lexicales et pragmatiques. On voit que la construction d’un corrélat phonétique est beaucoup plus compliquée quand il s’agit d’une qualification indexicale que d’une qualification impressionniste. On pourrait dire que tout le style du locuteur-producteur de sons est dans ces traits extrinsèques qui sont vraiment des indices de sa personnalité. Même les étiquettes semi-extrinsèques contribuent à l’identification de ce style. Prenons le cas de la provenance régionale : une voix parisienne, une voix d’étranger, une voix campagnarde, évoquant des caractéristiques mi-volontaires mi-involontaires d’une personnalité. La classe sociale (voix éduquée, voix ouvrière) et la profession (voix militaire, voix professorale) basculent sans doute du côté extrinsèque puisque les effets sont mieux contrôlés par le producteur de sons. Prendre un certain accent est un geste qui sert d’indice de la volonté d’appartenir à une certaine classe sociale ou au club auquel on s’identifie. Imiter la voix du Roi Albert de Belgique ou de Jacques Chirac est l’indice extrinsèque d’une volonté psycho-sociale.

Toutefois, le groupe le plus subtil (où les corrélations sont les plus vagues et les moins rigoureuses) est sans doute celui des étiquettes indexicales concernant les traits psychologiques. Plus importante sans doute que l’identification du référent de toutes ces étiquettes, est la détermination du degré de leur force perlocutionnaire, étude qui mènerait tout droit à une pragmatique de la voix. L’effet interactionnel s’intensifie, par exemple, si l’on va de voix condescendante ou voix flatteuse, à voix ennuyeuse, irritante, intéressante, persuasive, soporifique. Tous ces indices perlocutionnaires et pleinement interactionnels sont plus psychologiques que sociaux. On peut les caractériser davantage en les groupant en deux sous-classes : les étiquettes indexicales se référant à des états-d’âme (moods), à court terme, et les étiquettes se référant au tempérament, à long terme. Selon ces critères, on trouve dans la première liste : voix amusée, sèche, fâchée, excitée, irritée, sarcastique, sardonique, et dans la seconde liste : voix assurée, dominante, efféminée, névrotique, nerveuse, etc. Il faudra admettre que toutes les corrélations sont relatives puisque culturelles : on associe dans notre culture une voix rauque avec un tempérament agressif, dominant et autoritaire, tandis que la voix gémissante est corrélée avec un tempérament effacé, soumis et faible.

Note de bas de page 9 :: J. Tarneaud, Traité pratique de phonologie et de phoniatire, Paris, Maloine, 1941, donne une excellente présentation de ce point de vue.
Note de bas de page 10 :: Voir J. Martin, Voice in Modern Theatre, London/New York, Routledge, 1991.
Note de bas de page 11 :: A. Cruttenden, Intonation, Cambridge/New York : Cambridge U.P., 1986 ; M. Rossi et al., L’inronation. De l’acoustique à la sémantique, Paris, Klienchsieck, 1981 ; D. Bolinger, Intonation and its Uses. Melody in Grammar and Discourse, Stanford, Stanford U.P., 1989.

Qu’en est-il de la qualité phono-esthésique de la voix ? On se place d’emblée au plan de la « substance de l’expression » en employant un terme de la stratification hjelmslevienne. Des considérations concernant le mécanisme physico-physiologique de production vocale ne sont pas pertinentes à cet égard. Techniquement, ce mécanisme vocal est composé de quatre systèmes : la respiration, la phonation, la résonance et l’articulation. Ce n’est pas que ces quatre composantes ne génèrent pas de propiétés phono-esthésiques : la beauté d’une voix n’est pas indépendante de la façon de respirer, de la physiologie spécifique d’un appareil phonatoire, surtout des cordes vocales, de la façon d’articuler et surtout de la résonance, elle-même physiolo-giquement contrainte⁹. Toutefois, si l’on se place dans la perspective analytique de la « substance » de la voix, on distinguera d’autres propriétés : le volume (loudness), la hauteur (pitch), l’intonation, la mélodie, l’accent, le rythme. Le volume est l’effet de l’énergie, de l’amplification ou de l’intensité de l’effort vocal, et c’est une composante parfaitement contrôlable par le producteur et aisément décodable par le récepteur. La voix « chantante » comparée à la voix « disante » est beaucoup plus volumineuse, et de subtils détails dans le volume font un grand acteur ou chanteur d’opéra¹⁰. La hauteur est plus difficile à contrôler et à décoder. Toutes les voix ont une hauteur (pitch) optimale et une hauteur habituelle, et les voix sont tout naturellement limitées par leur échelle. La hauteur peut être définie comme la position d’un son vocal sur une échelle musicale. Il va sans dire que les limitations physico-physiologiques sont déterminantes dans ce domaine, même si on peut y développer une certaine discipline autorégulatoire. L’intonation est une troisième propriété, et elle est sans doute moins « naturelle » que la hauteur et le volume, plus « culturelle », plus motivée par la spécificité de la langue que par la spécificité de la voix d’un individu. Ce domaine très étudié en linguistique¹¹, et récemment en pragmatique linguistique, manifeste des régularités qui ne peuvent être décrites adéquatement sans prendre en considération une certaine intentionnalité communicationnelle chez le locuteur. Que l’acte de poser une question met en oeuvre une intonation conventionnelle a la force d’une règle, mais les séquences conversationnelles comportent parfois des intonations qui ne sont que quasi-systématiques, parfois difficiles à décoder, possédant des effets esthétiques certains. On peut qualifier la mélodie comme l’intonation radicalement subjective : l’interven-tion du sujet, et de ses états intentionnels et émotionnels, est nécessaire pour que l’on puisse parler de mélodie. Même si on peut accepter qu’une langue spécifique est particulièrement mélodieuse, comme l’anglais britannique et le portugais du Brésil par exemple, il faut admettre quand même que la « mélodification » de la parole par l’exploitation de certaines virtualités vocales dépende largement de l’attitude intentionnelle et volitive des interlocuteurs, même si l’intention et la volition ne sont pas globalement conscientes. A la propriété mélodique s’ajoutent encore le rythme, l’accent et le tempo, qui ont tous plus ou moins le même statut subjectif, même s’il y a une norme idéale de rythmisation et d’accentuation dictée par les grammairiens des langues.

Toutefois, une voix n’est pas décrite par l’observateur ni surtout « analysée » par l’oreille dans la totalité de ses propriétés, si l’on ne tient compte que des composantes mentionnées (volume, hauteur, intonation, mélodie, rythme, accent). Il y a en outre la qualité de la voix, cet aspect de la sonorité et de la tonalité d’une voix qui la rend distincte de toutes les autres. Cette qualité, on l’appelle également la couleur ou le timbre d’une voix. La qualité vocale est le produit tonal complexe résultant d’une série de facteurs hétérogènes, allant de l’anatomie la plus objective (les cavités pharyngales, par exemple, qui déterminent la richesse des résonances) jusqu’à l’esthétique la plus intuitive. Pourtant, il a été indiqué en phonétique expérimentale qu’aucune anatomie spécifique prédispose une voix à la qualité. Il y a, par contre, des contraintes physiologiques évidentes, comme la coordination musculaire, et même le simple mouvement musculaire corrigeant la longueur et la largeur des cordes vocales. Il est également admis que surtout la résonance est responsable de la « couleur » (métallique, chaude, mielleuse, sombre, douce, aigue). Même si cette résonance est ancrée dans une physique extrêmement complexe, il faut pour qu’il y ait qualité, également des déterminants psychologiques concernant la personnalité, l’émotivité, le tempérament, le goût, et même une certaine évaluation esthétique largement influencée par la norme culturelle. Et pourtant cette qualité est perçue et « sentie » comme l’élément le plus « naturel » de la voix, l’élément qui est le moins manipulable et le moins contrôlé de la voix.

Note de bas de page 12 :: I. Fonagy est parmi les linguistes celui qui est le plus sensible à ce niveau musical et « timbrique » du langage en acte. Voir son livre La vive voix. Essai de psychophonétique, Paris, Payot, 1983.
Note de bas de page 13 :: Voir C. Bologna, Flatus vocis. Metafisica e antropologia della voce, Bologna, Il Mulino, 1992, surtout le Chap. 9, p. 89-100.

La qualité de la voix ou son timbre consiste certainement en traits suprasegmentaux et paralinguistiques¹². Le timbre est perçu par l’interprétant comme le style d’un corps-fait-voix. Dans ce sens, le timbre n’appartient pas à la « substance de l’expression » mais à sa « matière », pour reprendre la terminologie de Hjelmslev. Reconnaître un timbre, c’est projeter une source derrière la voix, le corps animé d’une personne, et on ne sait pas trop bien si le style est le style de la voix ou le style de la personne qui fait résonner la voix. En plus, la saisie de la qualité de la voix signifie toujours un certain abandon à la séduction. Les sirènes séduisent et les muses inspirent par le timbre de leur voix : l’enchantement est en même temps philtron et pharmakon, et le incantare est précisément l’effet de la musique « timbrée » de la voix¹³. Concluons en affirmant que le holisme du phénomène qualitatif qu’est le timbre d’une voix, est également dû au fait que le timbre se déploie dans une durée, dans un temps qui ne peut être segmenté. C’est précisément cet enchevêtrement de la voix et du temps qui fait obstacle à une simple analyse componentielle et quantitative. On dirait que le timbre de la voix est le territoire des poètes et des amoureux plutôt que des phonéticiens.

Quelques observations descriptives et méthodiques

L’oeno-esthésique conçue par Jean-François Bordron fait l’inventaire d’une quarantaine de prédicats déterminant la qualité du vin lors des dégustations (quinze pour l’attaque, quinze pour l’évolution/constitution, une dizaine pour la finale). Le nombre de prédicats déterminant l’identité qualitative de la voix lors de la saisie de son timbre est de loin supérieure. La taxinomie, d’ailleurs assez arbitraire et certainement non achevée, comme elle est proposée en phono-esthésique, est très abondante puisqu’elle depasse les deux cent cinquante. Comment expliquer la plus grande canonicité des prédicats pour le vin, et cette prolifération en ce qui concerne la voix ? Il semble qu’il y ait moins de contraintes « objectives » pour déterminer la qualité de la voix, et surtout un jeu plus frivole de l’imagination qui se manifeste dans cette tendance plus productive à la métaphorisation. Il est vrai que les qualifications indexicales (intrinsèques et extrinsèqus) de la voix sont plutôt suspectes puisqu’elles ne sont pas vraiment des prédicats de qualité : elles renvoient indiciellement à une réalité extérieure, physique, psychologique ou sociale. Une qualification du timbre de la voix ne puisse renvoyer à une réalité extérieure. Mais même en enlevant les étiquettes soi-disant indexicales, il reste une grande asymétrie dans les deux groupes de prédicats entre d’une part une canonicité restreinte et de l’autre une prolifération productive sans limites.

Il est encore intéressant de noter que la plupart des termes oeno-esthésiques sont facilement transférables dans le domaine de la qualification de la voix. Dans les taxinomies proposées, on trouve déjà des termes identiques comme rude, âpre, moëlleux, mielleux mais cette présence n’est même pas importante vu le fait que quasiment tous les termes sont transférables, ceux de l’attaque (comme rond, souple, tendre, rude, frais) tout comme ceux de l’évolution/constitution (comme nerveux, âpre). Quelques termes resistant : tannique, entre autres, étant sans doute le prédicat le plus objectivant dans le domaine de la dégustation des vins. Le transfert dans l’autre direction est moins facile et moins spontané pour des dizaines de termes, comme pour chuchotant, sifflant, aigu, enroué que l’on ne prédiquerait jamais dans le domaine des vins. Il est vrai que ce sont en général des termes qui ou bien réfèrent à la base physico-physiologique de la production vocale ou bien des termes iconisants (qui ont par conséquent un rapport de ressemblance avec le son produit).

Note de bas de page 14 :: J. Fontanille et Cl. Zilberberg, Tension et signification, Bruxelles, Mardaga, 1999.

Le problème méthodique qui nous confronte consiste dans le fait que les deux taxinomies (pour le vin et pour la voix) ne sont rien de plus que des listes de lexèmes ou de prédicats. La valorisation qualitative du vin et de la voix, jusqu’à maintenant, a été produite et en même temps contrainte par des virtualités discursives. On n’est pas sorti des possibilités de qualification qui nous sont proposées par le discours, en fait par la richesse du lexique des langues. Il faut trouver un moyen pour organiser nos taxinomies de façon plus abstraite, non plus comme des prédicats (des termes ou des sèmes) mais comme des procédures. Appliquons à ce propos une tripartition proposée par Fontanille et Zilberberg¹⁴, celle entre les sèmes généralisants, les sèmes particularisants et les catégories (ou prédicats catégoriaux de temps et d’espace). Cette tripartition est intéressante puisqu’elle nous libère de tout renvoi au type de référent. Le référent « objectif » pour le vin sont les catégories physico-chimiques de l’acide, de l’amer et du sucré, tandis que pour la voix toute l’infra-structure physiologique déterminante (entre autres, la composante acoustique avec ses caractéristiques de hauteur, de volume, de tempo, de vibration, etc.). Il y aurait donc selon Fontanille et Zilberberg des prédicats/sèmes à tendance particularisante, d’autres prédicats/sèmes à tendance généralisante ayant une fonction d’unification du domaine sensoriel, et des prédicats/sèmes catégoriaux qui sont hiérarchiquement supérieurs puisqu’ils dominent l’organisation des deux autres niveaux et puisqu’ils déterminent la forme générale d’un objet dans l’espace-temps.

Parmi les sèmes particularisants, il y aurait les termes difficilement transférables, en général des termes que l’on ne peut détacher que difficilement des bases physique, chimique ou physiologique, comme tannique pour le vin, et sifflant, chuchotant pour la voix. Les sèmes généralisants inciteraient plutôt à la production d’un domaine intersensoriel bien que la réalisation de ce domaine reste tout relative. Tous les prédicats de l’attaque s’intègrent facilement dans le domaine intersensoriel : le goût du vin est rond, rude, frais tout comme la qualité d’une voix. On note d’ailleurs que les saveurs sucrées (comme mielleux et onctueux) semblent moins généralisable que les saveurs acides... Les prédicats catégoriaux ou topolo-giques ne sont pas généraux mais universels. Puisqu’ils « nomment »la forme générale de n’importe quel objet dans l’espace et le temps, et par conséquent également des sensibles qui sont les corrélats de nos expériences sensorielles, ils sont bien facilement transférables d’un domaine à l’autre. En tant que mise en forme spatiale, ils déterminent l’architecture et le volume. La structure-architecture est fusionnée ou jonctionnelle : charpenté ou mou, fondu, pâteux. Le volume est rond, carré, etc. En tant que mise en forme temporelle, elle est omniprésente dans la qualification de la voix, mais également bien présente dans la phase aspectuelle finale de la dégustation du vin : long, court, interminable, évanescent, etc.

Essai inchoatif d’homologation

Il nous semble qu’un effort honnête et sérieux d’homologation menant à une inter-esthésique productive bute contre des obstacles insurmontables. Enregistrons les oppositions théorématiques les plus importantes entre les deux types d’esthésies sous discussion : d’une part le gustatif dans la détermination de la qualité du vin, et l’auditif dans la détermination de la qualité de la voix de l’autre.

Note de bas de page 15 :: Art.cit., 647, et Bordron poursuit : « Sa logique par ailleurs s’apparente beaucoup plus [...] à celle d’une constitution en diagramme qu’au schéma narratif traditionnellement programmatique ».

Comme le remarque Bordron, « le temps du goût est en réalité plus aspectuel que temporel »¹⁵, ou autrement dit, la temporalité du goût est hautement aspectualisée. La syntaxe figurative canonique de la dégustation du vin est en effet un « déploiement », une spatialisation, une « exfoliation » iconisante, une activité analytique où l’aspectualité impose non seulement le rythme mais également la qualité elle-même du vin. Cette activité est si hautement analytique, donc spatialisante, que le moment de séduction est confiné à l’attaque : la séduction n’est qu’indicielle, on l’a vu, et elle est vite transcendée par le moment analytique et iconisant de la constitution du goût dans la seconde phase. De l’autre côté, la temporalité de l’ouïe confronté avec la qualité d’une voix, cette temporalité-là est non-aspectualisée. On a pu noter que le timbre de la voix est un phénomène holistique et que sa qualité est donnée dans l’immédiateté. La temporalité de la voix est celle de la durée et non pas celle d’une durativité aspectuelle. Et en plus, la séduction n’est pas seulement inchoative comme pour le goût du vin, mais elle est pleine et globale quand il s’agit d’une voix : elle est dans la subjugation, dans la passivité du sujet saississant la qualité d’une voix, d’un sujet qui n’agit pas ou plus mais qui est subjugué par un affect qui n’est pas marqué par une temporalité qui commence, dure et s’achève. Ainsi la temporalité de l’ouïe qui saisit la qualité de la voix, est non-aspectualisée.

Nous passons à un second paramètre d’homologation. La qualité du vin est construite dans sa linéarité tandis que la qualité du vin dans sa résonance ou profondeur. En ce qui concerne la qualité du vin, la « mesure » est bien linéaire, et la procédure se réalise de façon adaptative. Il y a un moment de prise de contact qui crée une attente qui doit se vérifier ou se falsifier par une analyse qui « organise » les qualités sensibles (acide, sucré, amer) à partir d’une forme catégorielle. Donc attente, analyse ou exfoliation, et puis écroulement. L’analyse spatialisante transforme la qualité attendue (vérifiée ou falsifiée) en icône. Même si l’écroulement menace, le goût du vin est architectonique : la qualité du vin est avant tout « monumentale » et les qualités sensibles construites ou analysées peuvent être vues comme les briques du monument. Tout autre est la saisie de la qualité d’une voix. La qualité de la voix est dans sa résonance, ses harmoniques qui créent un effet de profondeur. Une voix est proche ou lointaine mais la distance est en profondeur. La qualité de la voix se détache de la matérialité du son en tant que qualité sensible. En fait, l’infra-structure physico-acoustique n’est pas vraiment analysée ou interprétée dans la saisie de la qualité. Et il se révèle qu’ainsi la plupart des prédicats énumérés sont symboliques. La dépendance des virtualités linguistiques est grande - il suffit d’examiner le degré de métaphoricité de la plupart d’entre eux. Mais, à travers la langue ou le discours, c’est bien la faculté d’imagination poétisante et mythisante qui est à l’oeuvre. Si on dit que la qualité d’une voix est avant tout musicale, c’est dire aussi que la subjugation temporalisante du sujet séduit s’ouvre vers un approfondissement où le Temps ne dure que pour durer sans commencement ni fin.

Notre troisième paramètre d’homologation concerne les deux types de présence sous discussion : la présence d’un vin, la présence d’une voix. Le régime énonciatif de la présence du vin est celui de l’énonciation énoncée. Le sensible est énoncé, voire analysé et connu dans sa structure « architecturale ». Le régime énonciatif de la présence d’une voix est celui de l’énonciation énonçante. On n’y supporte aucune objectivation, aucune structuration. Pour utiliser une polarisation chère à Merleau-Ponty, nous voudrions opposer vin et voix comme le corps et la chair : le corps du vin, la chair de la voix. Le corps du vin est une surface qui ne comporte aucun renvoi à l’origine. La chair de la voix est une profondeur qui renvoie constamment à son origine où un Autre est projeté sans être nécessairement un sujet. Et on a pu souligner déjà que le style ou la séduction n’est inchoatif quand il s’agit de goûter la qualité du vin. Certes, le style forge une certaine attente mais la vérification ou falsification dans le second moment de la constitution exige une « déstylisation » par l’exploitation iconisante des qualités sensibles. Tout autre est la présence du style dans le timbre d’une voix. Dans la saisie de la qualité de la voix, c’est l’iconisation elle-même qui est marquée par le style puisqu’il y a de toute nécessité renvoie à l’origine, i.e. l’Autre identitaire.

Même si on rassemble vin et voix comme deux types de présences, une simple homologation paraît impossible. Nous nous permettons de dramatiser quelque peu la situation en énumérant cinq diapasons de comparaison. D’abord, si la qualité est un signifiant sémiotique, nous dirions que la qualité du vin est le signifiant d’une signification spatialisante tandis que la qualité de la voix le signifiant d’une signifiance temporalisante. Ensuite, dans l’analyse de la qualité du vin, la sémiose est finalisée (il y a un interprétant final) tandis que dans la saisie de la qualité d’une voix, la sémiose est non-finalisée, ouverte, insaississable (il n’y a pas d’interprétant final). En troisième lieu, si le noème gustatif est un plan d’expression, le noème auditif est un plan de matière. Encore, pour le vin, la « donation », au sens phénoménologique, est maîtrisée, contrôlée, calculable même, tandis que pour la voix, la « donation » ne peut être maîtrisée ni objectivée puisqu’elle se retire vers son origine. Et enfin, la dégustation de vin résulte dans un jugement -évaluation tandis que la saisie de la qualité de la voix dans un « jugement » -apprécation. Evaluer et apprécier, voilà deux formes du jugement, deux formes marquées par une thymique bien différente.

La construction d’une inter-esthésique est une ambition légitime de la sémio-esthétique. L’exercice que nous venons de livrer montre les risques des essais d’homologation. Même si le désir d’une théorisation globalisante est puissant, nous devons nous imprégner d’une grande modestie devant la fascinante richesse de notre vie sensorielle.

Notes

1 Nous trouvons une belle description de cette alliance dans un article du Monde consacré à Alejandro Robaina, « fumeur cubain de légende » : « [...] Le havane et le rhum se respirent et s’évaluent à l’oeil et au nez. Ils se toisent et se tâtent, avant d’être têtés. Un chromatisme commun les apparente. [...] Un rhum cubain sur un corona, c’est un parfum de femme au regard noir qui jaillit, avec l’expression même de la douceur mâtinée de ce rien de pointu dans la tripe [...] C’est ici que commence le voyage de noces. Dès que vous avez trempé la tête d’un cigare dans le verre et aspiré la douce chaleur de l’un avec la fraîcheur odoriférante et nerveuse de l’autre, vous quittez la table pour le salon de musique intérieure. Vous êtes dans le lit d’une rivière et vous faites la planche » (Le Monde, 18 décembre 2001, p. VII).

2 Brillat-Savarin, La physiologie du goût, [1825], Paris, Flammarion, 1986, p. 54 et sv.

3 Dans A. Hénault, Questions de sémiotique, Paris, Presses Universitaires de France (Coll. Formes sémiotiques), 2002, p. 639-665.

4 Art.cit., 654.

5 Op.cit., 52.

6 J. Fontanille et Cl. Zilberberg, Tension et signification, Bruxelles, Mardaga, 1998.

7 Nous reprenons dans cette seconde section des passages du Chap. II de notre livre La voix et son temps, Bruxelles, Editions de Boeck, 2002.

8 John Laver, parmi les phonéticiens, s’intéresse de fçon systématique à la description phonétique de la qualité de la voix. Nous reprenons ici sa typologie des étiquettes dans « Labels for Voices », repris dans The Gift of Speech : Papers in the Analysis of Speech and Voice, Edingburgh, Edingburgh U.P., 1991, Chap. 11, p. 171-183.

9 J. Tarneaud, Traité pratique de phonologie et de phoniatire, Paris, Maloine, 1941, donne une excellente présentation de ce point de vue.

10 Voir J. Martin, Voice in Modern Theatre, London/New York, Routledge, 1991.

11 A. Cruttenden, Intonation, Cambridge/New York : Cambridge U.P., 1986 ; M. Rossi et al., L’inronation. De l’acoustique à la sémantique, Paris, Klienchsieck, 1981 ; D. Bolinger, Intonation and its Uses. Melody in Grammar and Discourse, Stanford, Stanford U.P., 1989.

12 I. Fonagy est parmi les linguistes celui qui est le plus sensible à ce niveau musical et « timbrique » du langage en acte. Voir son livre La vive voix. Essai de psychophonétique, Paris, Payot, 1983.

13 Voir C. Bologna, Flatus vocis. Metafisica e antropologia della voce, Bologna, Il Mulino, 1992, surtout le Chap. 9, p. 89-100.

14 J. Fontanille et Cl. Zilberberg, Tension et signification, Bruxelles, Mardaga, 1999.

15 Art.cit., 647, et Bordron poursuit : « Sa logique par ailleurs s’apparente beaucoup plus [...] à celle d’une constitution en diagramme qu’au schéma narratif traditionnellement programmatique ».