La Comparaison de deux auteurs à l’aide du logiciel Hyperbase
de Margareta Kastberg SjöblomCentre national de la recherche scientifique, UMR 6039 (Nice, France)
Le logiciel Hyperbase, conçu et développé par Étienne Brunet, repose sur les lois statistiques et les techniques lexicométriques; il autorise un ensemble de traitements sur des corpus de textes prédéfinis ou saisis par l’utilisateur (1). Les fonctions statistiques du logiciel donnent la possibilité d’analyses diverses notamment sur la richesse lexicale, l’étude des hapax, l’accroissement lexical, la distance (ou connexion) lexicale, la corrélation chronologique et les spécificités internes et externes (en s’appuyant sur les données de Frantext). Une fonction thématique recense tous les termes situés dans l’environnement immédiat d’un mot donné. L’analyse factorielle des listes et du dictionnaire permet, grâce à la représentation graphique, une vision synthétique des multiples accords d’une analyse complexe.
Ces différentes analyses permettent non seulement d’étudier le vocabulaire et le style d’un écrivain, l’écriture d’une époque, etc., mais aussi de comparer différents auteurs entre eux. Afin de procéder à une comparaison de deux écrivains contemporains, nous avons créé un corpus numérisé englobant la quasi-totalité de l’oeuvre de Julien Gracq et les principaux ouvrages de Le Clézio, corpus que nous avons par la suite traité avec le logiciel Hyperbase; nous avons ainsi tenté de distinguer les points communs et les divergences des deux oeuvres, aux niveaux de la structure, du style et du contenu lexical.
Quel est l’intérêt d’une telle analyse? L’oeuvre de Le Clézio aussi bien que celle de Gracq ont déjà fait l’objet de diverses études et nombreux sont les signes d’une institutionnalisation en cours de la création littéraire de ces auteurs. Ces critiques ont porté principalement sur l’analyse de certains textes, sur leurs aspects stylistiques, mais peut-être surtout sur des thématiques représentatives de l’oeuvre ou d’une partie de l’oeuvre: la critique de la société moderne, l’exotisme géographique, la dimension mythique, etc. Ces analyses se sont inspirées de différentes sources, notamment de la critique littéraire «classique», de l'approche bachelardienne, ou encore de l’école psychocritique.
Mais peut-être les contenus de ces analyses ne rendent-ils pas encore suffisamment compte de la spécificité des oeuvres, dont l’unité est au demeurant difficile à cerner. C’est pourquoi aborder l’oeuvre à partir de son vocabulaire, des mots eux-mêmes, dans une démarche endogène et non à partir d’une thématique artificiellement préétablie, peut se révéler fructueux.
La lexicométrie et le traitement informatique des textes permettent en effet une description contrôlée et chiffrée du vocabulaire et de la syntaxe, ouvrant ainsi la voie à un traitement exact et impartial du corpus. Lorsque celui-ci est important, comme l’est notre corpus, l’aide de l’ordinateur devient indispensable pour saisir les nuances, les structures et les évolutions de la langue et de son usage, qui servent ici à la comparaison de deux auteurs. L’ordinateur et les logiciels appropriés permettent une description rigoureuse et objective du corpus, sur laquelle une réflexion et une analyse précises peuvent alors être faites, ouvrant ainsi la voie à l’analyse qualitative, à une réflexion sur l’utilisation des mots, à un travail de recherche sur le vocabulaire et le langage.
L’oeuvre de Jean-Marie Gustave Le Clézio s’étend sur une quarantaine d’années et compte aujourd’hui plus de trente titres. Rappelons que Le procès verbal, son premier roman, pour lequel il s’est vu attribuer le prix Renaudot, a été publié en 1963. Le Clézio a été aussitôt rattaché à l’Ecole du «nouveau roman» par la critique. Depuis l’auteur s’est imposé dans la littérature française, avec une oeuvre importante et variée, comprenant non seulement des romans et des nouvelles mais aussi des essais littéraires, des ouvrages ethnologiques et biographiques ainsi que des livres pour enfants. Le succès de romans comme Désert, Le chercheur d'or, Onitsha et Etoile errante - qui ont fait de Le Clézio un auteur «grand public» - tend à éclipser les titres plus anciens. Aujourd'hui ses livres figurent aux programmes des écoles et des universités et se maintiennent en tête des meilleures ventes: on aime sa manière de mêler une histoire simple, insérée dans le temps, et une aventure mystique à valeur d’éternité.
Les critiques ont souvent rapproché l’écriture de J.M.G. Le Clézio de celle de Julien Gracq, deux auteurs contemporains français qui s’expriment tous les deux dans différents genres littéraires et qui ont derrière eux une longue carrière. Il est vrai que Julien Gracq et J.M.G. Le Clézio ont de nombreux points communs, notamment leur grande discrétion, le fait de n’appartenir à aucun clan ou formation littéraire, et que leurs oeuvres sont souvent classées comme à part, hors de toute mode.
Un autre point commun entre ces deux écrivains très productifs est celui de la difficulté de classer leurs ouvrages dans des genres littéraires traditionnels. Le Clézio a toujours refusé la classification traditionnelle en genres littéraires et il tentait même dans ses premiers livres des expériences en transgressant les catégories et les genres, composant des oeuvres qu’il qualifiait comme «ni essais, ni romans, ni poèmes, et pourtant tout cela à la fois». Quant à Gracq, la critique évite souvent de prendre position ou d’effectuer une classification générique quelconque, en qualifiant tous les textes de palimpsestes.
Louis Poirier publie à compte d’auteur, sous le nom de Julien Gracq, son premier roman Au château d’Argol en 1938. L’ouvrage passe inaperçu, mais quelques esprits et non des moindres sont de ses rares lecteurs, ce qui offre à l’écrivain un certain succès d’estime et lui permet de continuer son oeuvre. Gracq obtient en 1951 le prix Goncourt, pour Le rivage des Syrtes, qu’il refuse. En cinquante ans d’écriture, l’auteur n’a jamais voulu participer aux débats qui agitent «le bel air de la littérature d’aujourd’hui».
Notre corpus Gracq, englobe pratiquement la totalité de la production de l’auteur avec 17 ouvrages et rassemble plusieurs genres littéraires, notamment les essais littéraires qui sont richement représentés dans ce corpus:
- Romans: Au château d’Argol, Un beau ténébreux, Le rivage des Syrtes, Un balcon en forêt et La presqu’île.
- Critiques, essais ou mélanges (2): André Breton. Quelques aspects de l’écrivain, Préférences, Lettrines 1, Lettrines 2, Les eaux étroites, En lisant, en écrivant, La forme d’une ville, Autour des sept collines et Carnets du grand chemin.
- Poèmes en prose: Liberté grande.
- Théâtre: Le Roi-pêcheur et Penthésilée.
Afin de procéder à une comparaison adéquate et de répondre à des critères d’homogénéité, nous avons extrait un sous-corpus de notre grand corpus Le Clézio qui englobe la quasi-totalité de son oeuvre (3). Ce corpus contient aussi 17 ouvrages: 13 romans et 4 essais:
- Romans classés comme appartenant à l’Ecole du «nouveau roman»: Le procès-verbal, Le déluge, Le livre des fuites, La guerre et Voyages de l’autre côté.
- Romans, considérés par les critiques comme «traditionnels»: Désert, Le chercheur d’or, Voyage à Rodrigues (écrit sous forme de journal personnel), Onitsha, Etoile errante, La quarantaine, Poisson d’or, et Hasard.
- Essais littéraires: L’extase matérielle, L’inconnu sur la terre, Trois villes saintes et Le rêve mexicain ou la pensée interrompue.
Le corpus numérisé obtenu des deux oeuvres contient 2.650.081 occurrences et 64.802 formes graphiques réparties dans les oeuvres du corpus. Le tableau ci-dessous récapitule les données numériques attachées au corpus et rend compte de la distribution des occurrences et des formes ainsi que de leur étendue:
Figure 1. Le Corpus «Comparaison Gracq - Le Clézio» (formes graphiques).
Le tableau regroupe les occurrences de chaque oeuvre constitutive dans le corpus, celles-ci étant classées par ordre chronologique. La deuxième colonne regroupe le nombre d’occurrences et la troisième celui des formes distinctes. La proportion P est présentée dans la quatrième colonne, suivie de Q dans la cinquième colonne. Dans la sixième colonne apparaît l’année de parution de l’ouvrage et finalement, dans la septième, le code que nous avons donné à chaque oeuvre dans cette étude.
Dans les études statistiques les fréquences absolues ne suffisent pas; pour effectuer des analyses quantitatives différentes notamment de la fréquence et des hapax, il est important de connaître l’étendue de son corpus et de ses parties. Or, les calculs effectués par le logiciel Hyperbase permettent de mesurer l’étendue des textes dans le corpus en prenant en compte ces contraintes. Les calculs du poids relatif, c’est-à-dire l’espérance mathématique de l’événement - occurrence d’un mot dans le texte considéré (P) et non-occurrence de ce mot dans le même texte (Q=1-P) -, permettent l’emploi des lois classiques de la lexicométrie, principalement la loi normale et la loi binomiale (4), et elles servent aux calculs de pondération dans les différents traitements statistiques.
Le traitement statistique des données pondérées permet d’étudier la structure du vocabulaire d’un corpus, une étude qui comporte l’observation des fréquences et l’analyse des rapports que ces fréquences tissent entre elles. L’étude de la structure lexicale, qui en principe est indépendante des éléments qu’elle contient et ignore le contenu sémantique du discours, s’intéresse en général à la distribution des fréquences, aux basses et aux hautes fréquences et à leurs rapports, à l’étude des hapax, à la richesse lexicale, à la diversité du vocabulaire ainsi qu’à l’accroissement lexical.
Les Hapax
L’étude des hapax est peut-être la plus traditionnelle et la plus «simple» à effectuer. Les fluctuations de la fréquence d’hapax ont non seulement une influence considérable quant aux études sur la richesse lexicale, mais l’analyse de ces vocables présente également d’autres aspects. Les critiques littéraires ont souvent évoqué l’intérêt de l’étude des hapax car ils y trouvent de nombreux substantifs et des noms propres qu’ils considèrent comme les unités les plus parlantes et les plus explicites dans les études stylistiques. L’histogramme ci-dessous illustre la distribution relative des hapax dans les différentes oeuvres de notre corpus (5).
Figure 2. La Distribution relative des hapax.
C’est dans la partie gauche du graphique représentant en ordre chronologique les ouvrages de Gracq que nous trouvons les valeurs excédentaires et dans la partie droite recensant les oeuvres lecléziennes que sont rassemblées les valeurs déficitaires. L’oeuvre de Julien Gracq a donc plus souvent recours aux hapax tandis que leur emploi faible chez Le Clézio semble témoigner d’un lexique plus limité. A l’intérieur du corpus gracquien le taux d’hapax augmente au fur et à mesure que l’oeuvre progresse. Les valeurs négatives sont uniquement relevées dans les pièces de théâtre. Cette opposition générique est également observable à l’intérieur de l’oeuvre leclézienne. Les valeurs excédentaires se trouvent dans les essais littéraires et plus précisément dans les ouvrages qui traitent du monde amérindien. La découverte par l’auteur d’un nouvel univers, d’une culture tout à fait différente de celle narrée auparavant, requiert des mots très précis et spécifiques qui sont souvent des hapax.
Le mouvement général émanant de l’analyse des hapax est-il vraiment représentatif de la structure lexicale des deux auteurs? L’étude d’autres aspects fondamentaux de la structure d’un vocabulaire, comme celui de l’analyse de la richesse lexicale, permet d’en savoir plus.
On n’a pas attendu les études quantitatives pour qualifier de «riche» ou de «pauvre» le vocabulaire d’un écrivain ou d’une oeuvre littéraire. «Appréciation toute subjective d’ailleurs, écrit Charles Muller (6), qui ne se fonde généralement sur aucune donnée sûre, et qui traduit plutôt la présence dans le texte de quelques vocables jugés rares, ou au contraire l’absence de tels éléments du lexique.»
En fait, un nombre relativement élevé de vocables rares dans un corpus n’indique pas nécessairement un vocabulaire riche, même s’il y a souvent une bonne corrélation entre les deux phénomènes. Ainsi, Étienne Brunet (7) a constaté que tous les termes techniques rares et spectaculaires chez Zola, qui pouvaient donner l’impression d’un vocabulaire riche, ne compensaient pas, en nombre, le grand déficit des vocables abstraits, notamment créés à l’aide d’affixes. Une abondance de ces vocables pouvait par contre, chez d’autres auteurs, contribuer à un vocabulaire nuancé et varié. La richesse du vocabulaire d’un texte ne dépend pas seulement de l’étendue supposée du lexique de son auteur, de sa «culture». Elle est également influencée par le genre dans lequel il s’inscrit et par la spécialisation du vocabulaire en fonction du thème traité dans tel ou tel passage de ce texte, toutes les études lexicométriques témoignant de ce phénomène.
Quand on est en face de deux oeuvres, il est compliqué et délicat d’établir, de manière précise, la richesse lexicale de corpus contenant des textes de longueurs différentes. Pour ce faire, on dispose de plusieurs calculs, notamment le calcul d’un vocabulaire théorique fondé sur la loi binomiale (8). Les vocabulaires de nos deux auteurs sont-il «riches» ou «pauvres» (9)? La figure ci-dessous, qui illustre la richesse lexicale dans le corpus, montre une différence entre les deux écrivains.
Figure 3. Richesse lexicale du corpus.
L’histogramme permet en effet d’observer, comme dans l’étude des hapax, un clivage entre les deux auteurs: Gracq semble avoir un usage plus étendu du vocabulaire tandis que Le Clézio s’exprime en règle générale avec un vocabulaire plus restreint. C’est dans la partie gracquienne que nous constatons des valeurs excédentaires et plus précisément dans la dernière partie ainsi que dans les essais, les pièces de théâtre étant nécessairement pauvres. La figure témoigne donc d’un vocabulaire dont la richesse augmente vers la fin de l’oeuvre. Chez Le Clézio nous observons la même dynamique, avec une distinction de l’oeuvre en trois périodes: une période initiale plus «riche» en vocabulaire, une deuxième période extrêmement «pauvre» suivie par une période où la richesse lexicale augmente sans pour autant atteindre les valeurs des débuts de la production. C’est uniquement dans cette période initiale «nouveau roman» que la richesse lexicale atteint les valeurs que nous observons chez Julien Gracq.
Avant de tirer des conclusions définitives sur la richesse lexicale, il convient aussi de prendre en compte un autre facteur important pour caractériser l’évolution dans le temps du vocabulaire: la mesure de l’accroissement lexical.
L’étude de l’accroissement lexical permet d’observer cette différence sous un autre angle, en s’intéressant aux apports lexicaux dans le corpus. L’étude de l’accroissement lexical détermine en effet l’apport du vocabulaire au fil du temps; cet accroissement est, pour un segment déterminé du texte, le nombre d’unités nouvelles, c’est-à-dire n’ayant pas été employées antérieurement, qui apparaissent dans ce segment. Pour effectuer cette mesure, on découpe le corpus en tranches.
Le calcul d’accroissement du vocabulaire peut être fondé sur différents modèles. Il peut avoir recours au même modèle que celui de la richesse lexicale; la formule binomiale. Le logiciel Hyperbase calcule l’accroissement par un simple ajustement de courbe en choisissant pour marques les césures naturelles, c’est-à-dire les différents livres du corpus. Les décomptes sont établis chaque fois que l’on passe d’un texte à un autre. La représentation des données permet de localiser les ruptures thématiques dans le corpus, là où se produit un afflux de vocables nouveaux. A l’inverse, les fragments où l’accroissement est inférieur aux valeurs théoriques signalent l’épuisement d’un thème. Les événements thématiques interviennent en effet toujours dans la structure du vocabulaire en modifiant l’apport lexical.
Le tableau ci-dessous rend compte de l’accroissement du vocabulaire dans l’ordre chronologique. Ici le calcul fait appel à un ajustement des deux séries parallèles (vocabulaire cumulé et étendue cumulée) grâce à une fonction-puissance de type: «y = axb» pour «x = vocabulaire cumulé» et «y = étendue cumulée théorique». L’écart entre étendue théorique et étendue réelle est alors calculé pour chaque texte, puis pondéré par l’étendue de chaque texte. Cette représentation graphique permet une observation plus aisée de l’accroissement lexical du corpus.
Figure 4. Accroissement lexical calculé sur V (écarts réduits).
Il convient, avant d’interpréter cet histogramme, de souligner le fait que ce corpus n’est pas chronologique, et en postposant un écrivain à l’autre, cette étude désavantage évidemment le deuxième auteur. Toutefois, notons que le récit Liberté grande et les essais de Gracq, comme Lettrines I et II ainsi que Autour des sept collines et Carnets du grand chemin, introduisent régulièrement de nouveaux thèmes dans le corpus. Mais le plus frappant est peut-être l’extraordinaire impact de l’apport lexical qui advient avec l’introduction du monde amérindien dans le corpus, ici avec Le rêve mexicain de Le Clézio.
Si nous faisons le compte à rebours, en calculant l’accroissement lexical à l’envers, nous constatons une situation différente.
Figure 5. Accroissement lexical calculé sur N (écarts réduits).
Cet histogramme met en évidence la richesse lexicale importante des débuts littéraires de Le Clézio, influencés par l’Ecole du «nouveau roman», où nous assistons, après la période significativement déficitaire de la fin du corpus Le Clézio, à une véritable explosion lexicale dans, par exemple, Le déluge et Le procès-verbal. Le corpus Gracq n’amène pas de vocabulaire, au moins de façon significative, avant Le rivage des Syrtes où l’apport est considérable.
Un balcon en forêt est publié en 1958, une année après La jalousie d’Alain Robbe-Grillet et La modification de Michel Butor. Nous sommes donc, dans cette période qui précède les débuts de Le Clézio, en plein essor du mouvement du «nouveau roman». Or Julien Gracq n’est pas intéressé par les recherches formelles des nouveaux romanciers, et sa position marginale relative vis-à-vis des courants dominants induit, chez les critiques de l’époque, une attitude négative, voire méprisante, qui consiste à le considérer comme un écrivain d’un autre siècle. Nous ne trouvons pas en effet chez Gracq les mêmes excès de vocabulaire que ceux que nous avons pu constater chez Le Clézio durant cette période; bien au contraire c’est durant l’époque du «nouveau roman» que nous pouvons observer le vocabulaire le plus restreint.
Nous avons pu constater, dans les diverses études statistiques effectuées sur notre corpus, jusqu’ici s’appuyant uniquement sur les critères formels, externes, non seulement le clivage important entre les deux auteurs mais aussi l’influence importante des différents genres littéraires. Cette opposition est-elle également observable lorsque l’on s’intéresse au contenu lexical et plus précisément à l’étude de la distance entre les vocabulaires des différents textes du corpus? Partagent-ils les mêmes thèmes? Y a-t-il une connexion thématique entre les oeuvres d’un même genre littéraire chez les deux écrivains?
Notes
1 - Pour une description détaillée du logiciel, voir l’article d’Etienne Brunet dans l’encyclopédie de l'Astrolabe, «Le logiciel Hyperbase», 2001.
2 - Gracq donne souvent la dénomination de «fragments» à ces ouvrages.
3 - Voir M. Kastberg Sjöblom, L’écriture de J.M.G. Le Clézio, une approche lexicométrique, Université de Nice Sophia Antipolis, 2002.
4 - La méthode binomiale résout le problème de la longueur inégale des textes en raccourcissant le plus long aux dimensions du plus court. Connaissant la distribution des fréquences du texte le plus long, on peut calculer le vocabulaire d’un fragment théorique de ce texte qui aurait la même longueur que le texte le plus court tout en conservant sa propre structure lexicale. Le vocabulaire théorique de ce fragment peut ensuite être directement comparé au vocabulaire du texte le plus court et ainsi permettre de déterminer lequel des deux textes a le vocabulaire le plus riche.
5 - Pour l’interprétation du graphique, la zone délimitée par les deux traits pointillés indique l’intervalle de fluctuation «normale», celle pour laquelle on ne peut pas écarter l’hypothèse que les fluctuations sont dues au hasard. Plus on s’écarte de cette zone, en dessous et en dessus, plus les écarts sont significatifs (du point de vue probabiliste).
6 - Ch. Muller (1977), p. 115.
7 - E. Brunet (1985), p. 25-27.
8 - Ch. Muller (1970), «Sur la mesure de la richesse lexicale», in Langue française et linguistique quantitative, Genève, Slatkine, 1979, p. 281-307.
9 - Rappelons ici qu’il n’y a aucune connotation dans les termes «riche» ou «pauvre» dans ce contexte. Naturellement, il n’y a aucune péjoration dans «pauvre» ni valorisation dans «riche», mais ces termes se sont imposés. Il ne s’agit que de mesurer des styles et des manières d’utiliser ou de ne pas utiliser l’étendue considérable du lexique de la langue.