Le Logiciel Hyperbase

d'Etienne Brunet

Institut national de la langue française (Nice, France)

 

 

Livrée sur cédérom, la présente version d'Hyperbase (5.3) comprend non seulement le logiciel d'exploitation, mais aussi les programmes de préparation et d'indexation. L'utilisateur peut donc se débarrasser des données initiales, préparées pour l’apprentissage, et traiter les siennes propres.

Le programme d'exploitation répond, par les méthodes de l'hypertexte, aux besoins classiques du traitement automatique des textes: index sélectifs ou systématiques, dictionnaires des fréquences, concordances, sélection de contextes élargis, cooccurrences, recherche des parties ou groupes de mots. Hyperbase, qui entre dans la famille des hypertextes, se distingue toutefois des produits traditionnels par l'orientation statistique donnée au produit. Une comparaison est faite avec le corpus du Trésor de la langue française. Une autre, interne, met en relation les textes de la base, ce qui engendre des courbes, des listes de spécificités, des analyses factorielles, et des mesures diverses appréciant la richesse lexicale, l'évolution du vocabulaire, la distance ou connexion des textes, etc.

Hyperbase est à l'origine destiné aux analyses lexicologiques, domaine réservé aux littéraires, aux linguistes, aux historiens, aux philosophes dont la matière première est le texte. Des sociologues, des psychologues, voire des instituts de sondages, utilisent aussi Hyperbase pour l'analyse des enquêtes en texte libre ou des études de marché.

Le logiciel est prévu pour les deux standards Macintosh et Windows. Les deux versions fonctionnent sur toute la gamme des machines disponibles, avec ou sans microprocesseur PowerPC, G3 ou G4 sur Mac, avec les systèmes Windows 3.xx , Windows 95/98/ME et Windows NT/2000 sur compatibles PC. Ses limites sont celles de la machine utilisée, de la mémoire disponible et de la capacité du disque dur. À titre d’exemple, une base a été réalisée qui donne un accès hypertextuel à l'intégralité de la Comédie Humaine de Balzac (soit plus de 20000 pages). D’autres monographies, consacrées à Proust, Rimbaud, Pascal, Rabelais, ont fait appel à Hyperbase, et sont commercialisées principalement aux Éditions Champion électronique.

En douze années de développement le logiciel a beaucoup évolué. Il propose des fonctions nouvelles, notamment thématiques, et permet une exploitation plus souple et plus fine du corpus, où l’on peut isoler ou réunir librement les textes et les sous-ensembles. Pour un examen plus complet des potentialités du logiciel, non seulement une base pourvue de données est livrée aux exercices de l’utilisateur, mais aussi d’autres bases sont fournies gratuitement qui donnent accès à l’œuvre intégrale de Molière, La Fontaine, Marivaux, Rousseau, Voltaire (contes), Chateaubriand, Hugo (poésie), Flaubert, Maupassant, etc. D’autres, plus larges encore, et pareillement gratuites, puisent leurs données quantitatives dans Frantext ou ailleurs, et permettent une étude contrastive du français selon les auteurs, les genres, les époques ou les régions. Pour plus de détails, consulter Internet à l’adresse http://ancilla.unice.fr (ou à l’adresse http://lolita.unice.fr). Sur ces deux sites on trouvera non seulement le manuel d’utilisation du logiciel, mais aussi deux bases, l’une sur Rabelais et son temps, l’autre sur l'oeuvre de Balzac, qui ont été réalisées avec Hyperbase et qui sont en libre accès. Les mêmes sites offrent en outre le téléchargement du logiciel, en version de démonstration, et quelques exemples des résultats qu’on peut attendre dans des applications à grande échelle.

Plutôt que de répéter ici ce qui a été exposé ailleurs et que les sites évoqués ci-dessus maintiennent à la disposition de l'utilisateur, nous nous proposons d'exposer les fonctions nouvelles qu'offre la dernière version d'Hyperbase.

 

1 - L'Indexation

Le programme «Créer» du menu principal conduit à une page spéciale où l'utilisateur peut suivre les différentes étapes de la création d'une base nouvelle. La plus importante est l'indexation du texte. Cette phase était la plus longue dans la version précédente et représentait la moitié du temps de traitement. Comme la mémoire des ordinateurs actuels est plus étendue que dans le passé, on a pris le risque d'indexer en une seule fois chaque texte du corpus et non plus chaque page. Le gain en rapidité s'accroît ainsi d'un facteur 10. L'interclassement des index a été maintenu, car on a craint que le traitement d'un gros corpus, en un seul passage, excède les capacités de la mémoire sur les machines plus anciennes. Le compromis adopté permet ainsi de traiter de grandes masses de texte (on a fait l'expérience d'un fichier de 50 millions de caractères, sans rencontrer la limite).

L'algorithme de l'indexation est dû à Jean-Pierre Anfosso et extrait de sa thèse. Écrit en langage C, le programme «P112b.exe» est appelé de façon répétitive, autant de fois que le corpus compte de textes. Il ne lui faut guère qu'une ou deux secondes pour indexer un texte et constituer un fichier où chaque mot est enregistré avec sa fréquence et ses adresses. Pour assurer le synchronisme des opérations, l'utilisateur est invité à donner le signal de départ pour chaque texte, dès que le programme a calculé son étendue en nombre de mots. Il vaut mieux pour les traitements statistiques que les textes ne soient pas d'étendue trop inégale, même si des calculs de pondération redressent la perspective. On prendra garde aussi à ne pas accorder au même texte une place trop exagérée. Il ne servirait à rien de fragmenter un corpus en textes indépendants si l'un de ces textes occupait la quasi totalité du corpus. Dans la pratique on évitera de dépasser la limite de 500000 mots pour un même texte.

 


Si vous ne voyez pas les boutons de navigation:
Suite