Formalisation et quantification des textes.

III - Les traitements statistiques

d'Etienne Brunet

Institut national de la langue française (Nice, France)

 

bullet

I - Les Textes

bullet

II - La Formalisation

bullet

III - Les Traitements statistiques
bullet

L'Analyse de Cordial

bullet

La Distance lexicale

bullet

Convergences

 

1 - Cordial qu'on a proposé, dans la deuxième partie de cet article, pour modèle de formalisation, pourrait aussi revendiquer la première place pour la quantification. On y trouve en effet le relevé de quelque 200 codes grammaticaux différents, et  de quelques classes sémantiques, ce qui donne lieu à une multitude d'indices et de pourcentages, dont on essaie de tirer des conclusions d'ordre stylistique ou thématique, en s'appuyant sur une typologie des genres et des domaines constituée à partir d'un large corpus de référence (de 2000 ouvrages). C'est là prendre quelque risque, en l'absence d'une véritable théorie des genres, en l'absence aussi d'une classification universelle des représentations. Là encore nous proposerons l'Évangile (traduction Maredsous) à l'analyse de Cordial, en restituant l'un des quatre tableaux de résultats qu'il fournit, celui qui rend compte des types grammaticaux. On notera sur la marge gauche la légende qui précise l'échelle des observations sur la carte des genres.

Figure 14. Les types grammaticaux analysés par Cordial dans l'Évangile  



Parmi les genres distingués, l'Evangile semble se rapprocher du genre littéraire avec une propension marquée pour le verbe et ses acolytes, adverbes et pronoms personnels, au détriment du substantif et de l'adjectif. Ce constat peut paraître satisfaisant mais l'appréciation synthétique qui résume la leçon des comptages l'est nettement moins:

Figure 15. L'appréciation stylistique de Cordial  

Ce texte est accessible. Le vocabulaire est courant mais comporte quelques raretés. La complexité sémantique est plutôt élevée. Les expressions figées sont peu nombreuses. On relève une proportion de noms propres importante. Les phrases ont une longueur habituelle. Le nombre de phrases par paragraphe est très réduit. Si ce texte ne comporte pas de listes ou de titres et de sous-titres, vous devriez grouper certains paragraphes. Les phrases ont une structuration grammaticale simplifiée. Ce texte offre un niveau d'abstraction très élevé.  Le langage utilisé est efficace mais peu descriptif. Votre texte comporte quelques mots grossiers ou injurieux. Si ce n'est pas voulu, mieux vaudrait les supprimer! Ce texte comporte quelques mots argotiques ou populaires. Sont-ils utiles ici ? Ce texte comporte quelques mots ou tournures familières. Avec une proportion réduite de mots très usuels, ce texte est plutôt difficile; le nombre élevé de mots rares enlève de la lisibilité, sauf s'il s'adresse à un public spécialisé. La très faible proportion de noms communs rares améliore encore la lisibilité. La proportion très réduite d'adjectifs de ce texte indique une volonté d'objectivité et de non description. La proportion de verbes, nettement supérieure à la moyenne, dénote un style efficace et dynamique.  

On souhaite que  le Saint Esprit - qui passe pour avoir inspiré le texte sacré - ne prenne pas connaissance des appréciations que la machine a portées sur sa copie.

 

L'appréciation relative au contenu n'est pas plus heureuse, même si les thèmes qui parcourent l'Évangile sont reconnus grossièrement. Mais les termes pour les caractériser sont mal choisis: le mot "agriculture" convient mal pour désigner les coutumes pastorales de l'époque, la "chirurgie" intervient peu dans les guérisons miraculeuses et la "cinétique" est une notion étrange pour caractériser le mouvement du récit. Il ne suffit pas non plus qu'un texte appartienne à l'Écriture sainte, pour qu'on parle à son propos de grammaire et de littérature. Sans doute l'impropriété des termes tient-elle à l'anachronisme et au décalage entre un univers antique et une terminologie moderne. Mais des bévues semblables sont à redouter pour bien des textes, même contemporains.

Figure 16. L'appréciation thématique de Cordial

Le domaine «religion» est un second domaine prédominant. Le domaine «agriculture» est le troisième domaine saillant. Le domaine «chirurgie» est un quatrième domaine remarquable. Dans la thématique de ce texte, l'individu, par opposition à l'univers et à la collectivité, occupe une place particulière. D'une façon plus précise, l'analyse des thèmes généraux de ce texte indique une prédominance des thèmes suivants : «La spiritualité», «Le langage», «La société», «Le pouvoir» et «La cinétique». Une analyse plus fine encore de la thématique de ce texte fait apparaître comme thèmes centraux : * judaïsme (catégorie : Les religions) * mot (catégorie : La grammaire) * famille (catégorie : La famille) * parole (catégorie : Le discours) * littérature (catégorie : La littérature) * arrivée (catégorie : Le mouvement) * divination (catégorie : La sacralité) * croyance (catégorie : Les croyances) Parmi les noms propres, on relève une nette prédominance des mots «Jésus», «Jean» et «Galilée».

Cet échec relatif de la quantification dans Cordial est en réalité imputable à la communauté scientifique qui n'a pas su créer une théorie stylistique appuyée sur des dénombrements (1), non plus qu'un modèle sémantique réellement exploitable. L'imprudence des uns est liée à la timidité des autres. On note pourtant des avancées dans certains domaines de la discipline. Par exemple dans la mesure du temps. Sur ce point je laisse le champ libre à A.Salem qui a consacré sa thèse au temps lexical. En mesurant texte après texte le renouvellement du vocabulaire, les ajouts, les abandons, les retours, on peut saisir le mouvement d'une pensée, l'évolution d'une œuvre ou d'une société. Avec les précautions requises, on peut aborder ainsi les questions de datation ou d'attribution. Aucun indice quantitatif n'est en soi une preuve, mais une présomption, au moins quand les indices convergent.

 

2 - Il en est un toutefois qui acquiert une force particulière en cela qu'il envisage tous les mots d'un texte pour aboutir à une mesure unique et globale. En réalité cette mesure met en rapport deux textes dont on souhaite apprécier la distance. Un raisonnement simple, proposé il y a bien longtemps par Ch. Muller, présume que deux textes sont d'autant plus proches qu'ils ont plus de mots en commun. Le rapport entre la part privative ou exclusive de chacun et la zone partagée du vocabulaire donne la mesure de cette distance. Certes cette mesure  pourrait être faussée quand les deux textes sont de longueur inégale, le quotient pour une même paire se rapprochant de 0 quand il s'agit du plus petit et de 1 pour le plus étendu. Mais il suffit de faire la somme ou la moyenne des deux quotients pour corriger automatiquement la distorsion. On obtient ainsi un tableau des distances des textes deux à deux. Un tel tableau se prête à une analyse globale qui projette sur une carte l'ensemble des points comme ferait une carte géographique à partir d'un relevé des distances de ville à ville. Le résultat de cette analyse factorielle est illustré dans la figure 17.

Figure 17. Analyse factorielle de la distance lexicale

La hiérarchie des variables mises en cause est ici clairement établie: l'auteur compte plus que le traducteur. Le premier facteur oppose en effet l'évangile de Jean ,  qui réunit sur la gauche les trois traductions de ce texte, aux autres évangiles, tous situés sur la droite. Le second facteur pourrait isoler un autre évangile, si l'influence des sources était souveraine. Or tel n'est pas le cas: ce qui distingue le haut et le bas du graphique fait référence à la traduction: celle de Chouraqui impose sa marque puissante aux textes auxquels elle s'applique (MathieuCH, MarcCH, LucCH et même JeanCH), tandis que les autres traductions sont reléguées au bas du graphique.

L'analyse arborée (méthode Luong)  rend encore plus nette la représentation des forces d'attraction qui s'exercent dans le champ lexical. Ici  les distances s'apprécient directement en parcourant le chemin qui mène d'un point à un autre. L'analyse (figure 18) souligne l'irrédentisme de Jean qui s'écarte violemment des autres textes, concentrés  sur la branche opposée. Cependant à mi-chemin une déviation conduit, du côté de Chouraqui, tous les textes qu'il traduit et qui portent sa marque.

Le calcul des distances s'appuie ici sur la présence ou l'absence des mots, sans considérer leur fréquence. Or Dominique Labbé a proposé récemment un nouvel algorithme qui tient compte, pour chaque mot, de la fréquence réelle et théorique dans chacun des deux textes considérés (2). Les enseignements sont à peu près les mêmes: la branche la plus excentrique du graphique 19 isole les trois traductions de Jean, dont le message apparaît irréductible aux autres évangiles. Les trois autres évangiles apparaissent peu différenciés et laissent le champ libre à l'influence du traducteur, les groupements proposés s'ordonnant autour de Chouraqui, Maredsous et Tob respectivement. On doit observer toutefois que même en considérant tous les mots sans exception ni filtrage les deux  mesures ne leur donnent pas le même poids. La première donne l'avantage aux mots de faible fréquence, la seconde aux mots courants. La première est plus sensible aux variations thématiques, la seconde aux particularités stylistiques.

D'autres mesures encore peuvent rendre compte de la distance intertextuelle. Bénédicte Pincemin a consacré à la question une bonne partie de sa thèse dont la publication est imminente. Comme elle connaît les dessous d’Internet, les moteurs et méta-moteurs mis en place sur les serveurs du Web, elle peut mettre en lumière leurs défauts et proposer une approche nouvelle qui ne reposerait plus seulement sur les mots-clés proposés par l’utilisateur mais sur le profil qui caractérise ce dernier à travers les textes définis par lui comme représentant ses préoccupations. Il s’agit ici d’une vraie révolution, qui établit un calcul de distance sémantique entre deux textes, et qui n’est pas un rêve, puisque l’application en a été faite, en Intranet, à Électricité de France, au bénéfice de quelques centaines de chercheurs.

3 - On peut regretter la multiplicité des formats et des codages et craindre que la statistique, s'appliquant aux uns puis aux autres, aboutisse à des résultats incohérents. En réalité la statistique est bonne fille et s'accommode de ce qu'on lui donne. Quand on considère un corpus d'une certaine étendue pour un examen global, il importe assez peu que le texte soit lemmatisé ou non, que l'objet d'étude porte sur les formes (V) ou les occurrences (N), qu'on utilise telle ou telle méthode d'analyse multidimensionnelle, ou qu'on fasse appel à un logiciel plutôt qu'à  un autre. On vient de voir la convergence des graphiques 17 et 18  qui partagent le même objet (la distance intertextuelle calculée sur V), mais non la même méthode (analyse de correspondance vs analyse arborée). Même accord des graphiques 18 et 19 qui partagent la même méthode (analyse arborée), appliquée à des objets différents (V vs N).

Plus surprenante est l'indifférence des résultats aux variations du codage. Le même texte évangélique traité successivement avec et sans lemmatisation donne la même image des distances intertextuelles. Qu'on traite 9622 formes graphiques ou 5014 vocables, les résultats restent stables, et les deux représentations de la figure 20 sont superposables.

Figure 20. La convergence des codages(avec et sans lemmatisation)


Figure 21. Découpage du texte en chaînes arbitraires


 



Cette stabilité ne laisse pas d'étonner lorsqu'on dénature le texte en faisant éclater la structure du mot. Remplaçons tous les blancs par un caractère arbitraire, par exemple le signe @, et découpons la chaîne en tronçons de quatre lettres, qu'on va considérer comme des "mots", même s'ils n'ont ni queue ni tête, ni forme ni sens. En cela nous reprenons la démarche que A. Lelu applique aux N-grammes. Au lieu d'ajouter une information (ce que fait l'étiquetage), nous retranchons un élément essentiel: la segmentation en unités lexicales. Pis encore: le continuum  graphique (3) est rompu et perverti par de fausses coupures, comme si on voulait crypter le texte. On  peut en juger à partir des premières lignes de l'Évangile qu'on a ainsi transcrites au haut de la figure 20. Et pourtant, dans cette eau boueuse où aucun mot n'est reconnaissable, la décantation des évangélistes et des traducteurs se fait limpide, qu'on envisage les 400 000 occurrences (partie gauche du graphique 20) ou les 16000 "mots" découpés (partie droite). La conclusion de cette expérience est encourageante: à l'heure d'Internet, où circulent tant de textes de qualité médiocre, les méthodes multidimensionnelles  sont assez puissantes et robustes pour souffrir sans dommage les impuretés et les erreurs (4).

Dernière expérience, positive aussi: la stabilité des résultats ne dépend guère des logiciels utilisés. Le même texte évangélique a été  proposé à plusieurs logiciels que leurs auteurs ont bien voulu me confier. On montrera ci-dessous ( figure 22) l'analyse que fournit Sphinx à partir des 50 mots les plus fréquents. La disposition des textes y reproduit celle du graphique 17 qui avait été obtenu avec Hyperbase, en attribuant à Jean le premier axe, et à la traduction de Chouraqui le second. On a essayé successivement Lexico  et  Alceste et constaté la même convergence. Il est vrai que tous ces logiciels (on aurait pu ajouter SPADT de L. Lebart) partagent un module commun d'analyse de correspondance dont l'origine remonte à J.P. Benzécri.

Figure 22. Analyse factorielle des 50 mots les plus fréquents (logiciel Sphinx)
 


L'algorithme utilisé par Alceste est cependant original, en cela qu'il ne repose pas sur une segmentation préétablie. L'analyse constitue d'abord des classes, indépendamment des grandes divisions du corpus. Celles-ci ne prennent place que lorsque le cadre a été établi. On voit dans le graphique 23 que ces classes recouvrent ce que recouvraient les facteurs dans l'analyse précédente: la première est dévolue à l'évangéliste Jean (triangle à droite), la seconde au traducteur Chouraqui (triangle à gauche), tandis que Marc s'impose dans la classe 3 (triangle inférieur).

Figure 23. Les classes distinguées par Alceste

 


On n'insistera pas sur le fait que la liste des spécificités (5) est semblable dans  tous ces logiciels, qu'il s'agisse de comparaison interne ou externe, même lorsque le corpus de référence est différent. «Jésus» étant omniprésent dans le texte sacré, c'est lui qui arrive en  tête de liste, le corpus externe de Cordial confirmant celui de Frantext.

En conclusion, il reste à expliquer pourquoi le texte évangélique nous a servi de prétexte, au risque de passer pour sacrilège. Ce n'était pas seulement pour répondre à la plaisanterie peu respectueuse de Zola (6). Nous ne cherchions pas non plus à apporter quelque lumière nouvelle sur un texte dont chaque verset a été abondamment commenté. Au reste dès 1979 une analyse factorielle fondée sur le texte grec avait paru dans les Cahiers d'analyse qui concluait pareillement à l'irrédentisme de Jean, seul face aux trois synoptiques (7). Voir figure 24.

  Figure 24. Analyse des mots employés au moins 50 fois dans le texte grec de l'Évangile
  


Notre intention était autre. Partant du fait que les textes sont difficilement comparables quand trop de variables les séparent ( l'auteur, le sujet, le genre, la taille, la date, le public, la langue), nous avons estimé que l'Évangile pouvait offrir l'occasion d'une expérience de laboratoire, où toutes ces variables seraient neutralisées. Comme la culture est ce qui reste, dit-on, quand on a tout oublié, la variation que nous voulions mesurer est ce qui reste quand on a tout enlevé, ou presque. Dans le cas présent les sources sont semblables, comme aussi la matière racontée, et le public visé. Peu de différences quant à l'étendue, l'état de langue ou  - ce qui est plus dangereux - le genre littéraire. Car de toutes les forces qui s'exercent sur un texte, le genre semble la plus pesante  et la plus pressante. Ne restait qu'une variable à mesurer: la double signature de l'auteur et du traducteur. Et les conditions exceptionnelles offertes par un texte familier, contrôlable et calibré, pouvaient servir à étalonner les méthodes et les instruments.

Notes

1 - Saluons pourtant les travaux de D. Biber qui contribuent grandement à éclairer les registres et les genres (Variations across speech and writing, 1988; Dimensions of register variation: a cross-linguistic comparison, 1995, Corpus linguistics, 1998).

Retour

2 - D.Labbé, D. Monière, La connexion intertextuelle, in JADT 2000, École Polytechnique de Lausanne, p.85-94.

Retour

3 - Les conditions se rapprochent de celles de l'oral et du continuum sonore. L'invention du blanc à l'écrit est d'ailleurs relativement récente et beaucoup d'inscriptions anciennes se présentent sans espace entre les mots.

Retour

4 - Bien entendu ce n'est pas une invite à la paresse: on tirera toujours plus d'un texte propre et enrichi. Là où manquent les codes, l'information qu'ils véhiculent manquera toujours.

Retour

5 - Quand le corpus a une taille suffisante la loi normale et la loi hypergéométrique se rejoignent.

Retour

6 - Il est temps d'expliquer la signification du graphique 1, laissée en suspens. L'excédent systématique des "s" observé dans Mathieu et le déficit symétrique constaté chez Jean sont à mettre en relation avec la catégorie du nombre. Là où Mathieu considère les groupes et les foules assemblés autour du Christ, Jean ("le disciple que Jésus aimait") maintient une intimité personnelle et mystique avec Jésus. Le graphique 9 confirme cette distribution orientée du singulier et du pluriel.

Retour

7 - B. de Solages et J.M. Vacherot,  Le Vocabulaire des Évangiles, analyse des similitudes entre chapitres de Jean.  

Retour

 

2001

 

Voir dans l'encyclopédie de l'Astrolabe:

La Lemmatisation des grandes bases de textes

Le Logiciel Hyperbase