Statistique et lemmatisation.

L'exemple de Rabelais

d'Etienne Brunet

Institut national de la langue française (Nice, France)

 

bullet

Rabelais, Hyperbase et Cordial

bullet

Le Travail d'Hyperbase

bullet

L'Analyse factorielle

bullet

L'Etude des spécificités

 

bullet Rabelais, Hyperbase et Cordial

Nous avons eu l'occasion d'aborder l'oeuvre de Rabelais au moment du cinquième centenaire célébré en 1994. Sur l'initiative de Marie-Luce Demonet et sous son contrôle, nous avions alors assuré la réalisation technique d'un cédérom, consacré à l'auteur de Gargantua (1). Les fonctions documentaires et statistiques (2) se donnent libre cours dans cet hypertexte, dont la version Internet est toujours disponible, sur le serveur ancilla.unice.fr, (page d'accueil reproduite dans la figure 1).


Figure 1. La Base Rabelais sur Internet


 

Si nous ravivons aujourd'hui cette recherche, c'est qu'en quelques années d'étonnants progrès ont vu le jour, non seulement dans l'appareillage informatique, mais aussi dans les approches méthodologiques. Jusqu'ici les résultats dont la lexicométrie pouvait s'honorer ne concernaient guère que le vocabulaire, entendu dans son acception la plus pauvre et la plus fruste: un ensemble de graphies rencontrées dans un texte. Malgré les recommandations et l'exemple de Charles Muller, rares étaient les études qui traitaient des données lemmatisées et qui ouvraient ainsi l'accès à la syntaxe, à la sémantique et aux faits de style. De telles données existent maintenant, et Frantext, par exemple, permet des interrogations qui tiennent compte des parties du discours et de la structure de la phrase, au moins lorsque les textes sont modernes. La lemmatisation est en effet plus épineuse quand les textes sont anciens.

Un détour simple et pratique peut être d'utiliser une version moderne d'un texte ancien à étudier. Désireux d'appliquer les nouvelles méthodes statistiques à l'oeuvre de François Rabelais, et comme je ne suis pas spécialiste de la langue du XVIe siècle (et encore moins des siècles antérieurs), je ferai comme si Rabelais vivait à notre époque (il serait moins surpris que beaucoup d'autres) et je proposerai à la machine l'orthographe moderne de son texte. Quand on considère en effet l'ossature syntaxique d'une phrase, il importe assez peu que les éléments constitutifs de la structure soient ou non habillés à l'ancienne. Quand les accents sont instables, le mot élève peut se présenter de multiples façons selon la distribution des graves et des aigus (on a compté neuf variantes du mot chez Rousseau, parmi beaucoup d'autres combinaisons). Mais au niveau syntaxique, on n'aura le choix qu'entre le substantif et le verbe, quelle que soit la forme orthographique.

Le texte ainsi normalisé peut être soumis à un logiciel de lemmatisation prévu pour les textes modernes. Le marché des correcteurs d'orthographe a produit des outils d'analyse suffisamment élaborés pour réaliser un étiquetage à peu près correct. Sans doute un codage automatique génère automatiquement quelques erreurs. Mais la statistique est faite pour les situations de ce genre où l'entropie trouble un peu la transparence. Mieux vaut ce flou uniforme, qu'un défaut dans l'optique, qui produirait une image déformée - ce qui peut arriver quand le codage est humain et que la conscience des faits linguistiques varie d'un individu à l'autre et parfois même d'un moment à l'autre chez le même analyste.

Après avoir essayé - sans grande satisfaction - le lemmatiseur Winbrill, nous avons utilisé Cordial (3). Cordial est un correcteur d'orthographe, qui est reconnu comme le meilleur sur le marché français (4), et dont une version particulière est destinée aux professionnels des industries de la langue. Cette version - nommée «Analyseur» - décompose un texte à raison d'une ligne par mot, chaque ligne précisant la graphie du mot analysé, le lemme de rattachement, un codage grammatical aussi précis que possible, la fonction dans la phrase et même une étiquette sémantique qui classe le mot dans le catalogue des concepts. Notre logiciel Hyperbase reprend le fichier créé par Cordial et distribue les données dans des champs appropriés, dévolus aux graphies, aux lemmes, aux codes et aux structures syntaxiques (figures 2 et 3).
 

Figure 2. Graphies, lemmes

 

Figure 3. Codes grammaticaux


La figure 2 qui met en regard les graphies et les lemmes montre que l'analyse de Cordial ne recule pas devant la forme «que», qui décourage tant de lemmatiseurs. Non seulement les formes «que» et «qu'» sont regroupées, mais aussi leurs emplois sont différenciés selon qu'il s'agit de la conjonction (code 8) ou du pronom relatif (code 5). Quant à la profondeur d'analyse elle est maximale dans le cas des verbes, où sont précisés le statut (auxiliaire ou non), le mode, le temps, la personne et le nombre. Ainsi le dernier mot de la figure 3 («aviez»), est analysé sous la forme «Vmii2p», c'est à dire verbe non auxiliaire indicatif imparfait deuxième personne du pluriel.

Cordial est capable de produire l'analyse en arbre de toute phrase qu'on lui propose. Mais cette possibilité n'est pas étendue à l'ensemble du texte et le fichier d'étiquetage perd cette information, dont, au reste, la statistique tirerait peu de profit. Car les combinaisons étant si nombreuses, on trouverait peu de schémas de phrase répétés, et l'effectif pour chacun serait très faible et donc inexploitable. On a préféré réduire la profondeur d'analyse et, en prenant appui sur la ponctuation, segmenter la phrase en unités plus courtes, où chaque mot est représenté par un code grammatical simplifié (un seul caractère symbolisant la catégorie concernée). On obtient ainsi, non pas un arbre hiérarchique, mais une séquence horizontale dans la chaîne du discours, comme dans l'exemple de la figure 4, où la structure «brvdn» représente le texte «que ne promettait la boîte», soit la combinaison subordination + adverbe + verbe + déterminant + substantif.
 

Figure 4. Les Structures syntaxiques

 

 

bulletNotes

1 - Les Électro-chroniques de François Rabelais, éditions Les Temps qui courent, Paris, 1995. Un autre cédérom sur le même auteur, pour lequel notre concours a été sollicité, est paru en 1998, aux éditions Champion, Paris.

2 - L'exposé de ces méthodes figure dans notre article «Le CD-Rom Rabelais», Travaux du Cercle linguistique de Nice, no 16, 1994, p. 43-79.

3 -  Nous disposons aussi du prototype réalisé en 2002 par Dominique Labbé. L'analyse y est moins détaillée et les codes moins précis, mais comme l'étiquetage peut être semi-automatique, la correction manuelle apporte une sécurité accrue.

4 - Le succès de Cordial est sans doute moindre au Québec, où des produits locaux comme Correcteur 101 et Hugo plus lui font concurrence.

 

Si vous ne voyez pas les boutons de navigation: Suite