TACT et TACTweb
de Russon Wooldridge
Université de Toronto (Canada)
| TACT | |
| TACTweb | |
| TACTweb et TACTxml | |
| Perspectives |
TACT |
TACT fut développé vers la fin des années 1980 et le début des années 1990 à l'Université de Toronto par John Bradley, comme successeur du programme COGS du même auteur. Alors que COGS fonctionnait sur un gros ordinateur et produisait des fichiers de concordance sur bande magnétique pour sortie sur microfiche ou papier, TACT fut conçu pour l'interrogation interactive de bases textuelles sur le disque dur d'un micro-ordinateur. La deuxième et dernière version de TACT, 2.1.4, faite par J. Bradley avec l'aide de Lidio Presutti et Michael Stairs, sortit en 1995. TACT est un logiciel qui permet d'indexer un texte - c'est-à-dire d'indexer tous les mots (en gros, séquences de lettres ou de chiffres précédées et suivies d'un espace ou signe de ponctuation) qui le composent - et d'interroger la base ainsi créée pour réunir les occurrences des unités indexées.
Au moyen du balisage, on peut expliciter les structures explicites ou
implicites du texte. Par exemple, dans un roman les pages et les chapitres sont
normalement explicitement indiqués, alors que le récit et le dialogue ne le sont
que partiellement - ambiguïté des séquences commençant par des guillemets
ouvrants, etc. (cf. aussi
K.B.
Steele 1991, sur la structuration explicite du théâtre de Shakespeare, et
W.
McCarty 1991, sur les structures implicites chez Ovide). Pour illustrer les
structures de la pagination, de la mise en chapitres et du niveau de discours,
regardons le début du chapitre 10 du Chien jaune de Georges Simenon (cf.
la base du
Chien jaune en ligne):
|
X. LA «BELLE-EMMA »
«Vous m'avez prié de venir,
commissaire?...» |
On peut ajouter au texte à indexer des balises pour les pages (p),
chapitres (c) et les niveaux de discours (n), ces derniers
distinguant titre (T), récit (R) et dialogue (D). Le texte
apparaîtra désormais comme suit (mise en relief ajoutée):
| <p 157><c 10><n T>X.
LA «BELLE-EMMA »
<n D>«Vous m'avez
prié de venir, commissaire?...» |
Un affichage KWIC (keyword in context) des deux premières occurrences
dans le chapitre 10 du mot par donnera ceci:
(10:157 R) son chapeau mou sur ses yeux et, par crainte des photographes, (10:157 D) devant le bas de son visage. « Par ici! dit Maigret aux |
Le soulignement en bleu à l'endroit des mots-clés correspond dans la base
active à un lien vers l'affichage du mot dans un contexte plus étendu. Il va
sans dire que l'indexeur peut varier la forme des variables et des valeurs,
ainsi que l'affichage de celles-ci, mais la forme retenue doit être
systématique: par exemple, <ch 10>, <niv titre>, etc.
Les deux principaux programmes de TACT sont MakeBase, qui indexe un texte en
format ASCII-DOS, et UseBase, qui permet l'interrogation interactive de la base
créée par MakeBase. La description des fonctionnalités de UseBase est développée
plus loin dans le présent texte, dans la section consacrée à TACTweb. Parmi
d'autres programmes de l'ensemble TACT qui produisent des documents statiques à
partir de la base, on peut signaler:
-
TactStat, qui donne différentes mesures statistiques dont le nombre de types
et d'occurrences, la distribution des fréquences des mots, la longueur des mots
et la fréquence et distribution des lettres dans différentes positions
(initiale, finale, globale).
- TactFreq, qui permet de générer trois listes: mots de texte par ordre
alphabétique avec fréquences, mots par ordre alphabétique inverse avec
fréquences, mots par ordre de fréquence.
- Anagrams, qui crée un fichier des anagrammes textuels (par exemple,
parisien et aspirine, promet et trompe dans Le Chien
jaune).
Un document assez détaillé consacré à TACT et TACTweb, et conçu comme tutoriel, est déjà consultable en ligne (voir R. Wooldridge et E. Devriendt, «TACT et TACTweb, logiciels de recherche de données textuelles structurées», 2001). Il explique le principe de la structuration, implicite ou explicite, d'un texte et celui du balisage explicite, en prenant comme exemple le début du Prince travesti de Marivaux. À l'aide de captures d'écran, il décrit les étapes nécessaires pour indexer un texte (programme MakeBase) et les maniements de base pour l'interrogation de la base résultante (programme UseBase). Le document se termine en proposant des liens vers des bases interrogeables en ligne sous TACTweb, d'autres vers des pages à partir desquelles on peut décharger les deux gratuiciels, TACT et TACTweb, et un dernier vers une page expliquant comment commander le manuel de TACT, publié par la MLA en 1996.
| TACTweb |
TACTweb, créé vers 1995-6 par John Bradley et Geoffrey Rockwell (Université McMaster, Hamilton), est une version en ligne du programme UseBase de TACT. Il a presque toutes les fonctionnalités de UseBase et dans sa deuxième version, TACTxml, quelques-unes de plus. Le grand intérêt de TACTweb, par rapport à UseBase de TACT, est qu'il permet via le Web de mettre des bases interactives à la disposition de quiconque.
Dans les requêtes, TACT et TACTweb offrent un usage sophistiqué des
expressions régulières et des opérateurs booléens (voir un
traitement détaillé de la syntaxe sur le site de
TACTweb), dont:
-
Joker: ex. .*tion.* (= mots qui
contiennent -tion-).
- Lettres diacrisées, considérées comme variantes de la lettre non diacrisée:
méthode 1, \donne (= donne, donné);
méthode 2, .*ite.* (= mots qui contiennent
-ite- ou -ité-); on peut aussi se servir du système «Alt» pour taper
les lettres diacrisées (ex. Alt+130 = é).
- Cooccurrence: ex. aimable & jeune (=
aimable et jeune);
aimable ~ jeune
(= aimable et non jeune).
- Liste: ex. aimable, jeune (= aimable
ou jeune).
- Syntagme: ex. faut | pas | > (=
syntagmes dont le premier terme est faut, le deuxième pas,
affichés selon le troisième terme).
- Requête conditionnelle: ex.
beau; when
titre=arlequin (= occurrences de beau dans Arlequin poli
par l'amour).
Attardons-nous un peu sur l'opérateur
simil,
très utile pour la découverte de variantes graphiques. Soit le verbe
cognoistre, ses différentes formes et ses dérivés dans les dictionnaires de
la Renaissance (RenDico).
La requête simil cognoistre 70% demande au
programme de retrouver toutes les formes du texte qui ressemblent au moins à 70%
à cognoistre. On élimine rapidement le bruit dans le résultat affiché
comme «Liste de mots» (voir, dans le premier tableau ci-dessous, la zone des mots
en cogn-) pour faire le bilan de ce qui concerne la famille lexicale
française cognoistre (donc sans compter la famille latine cognoscere).
Les 62 formes en question (sur un total de 212 formes différentes) sont celles
qui se trouvent ci-dessous dans le second tableau:
|
|
| cognois cognoissable cognoissance cognoissant cognoissants cognoisse cognoissent cognoisses cognoissez cognoissiez cognoissoit cognoissoy cognoist cognoistra cognoistras cognoistray |
cognoistre cognoit congnois congnoissant congnoisse congnoissent congnoisses congnoissez congnoissiez congnoissoie congnoissoit congnoissoye congnoist congnoistra congnoistre congnoistront congnoistroy |
congnoit connestre conoistre conoit conoitre descognoist descognoistre entrecognoistre entrecongnoistre mescognoistra mescognoistre mescognoit mescongnoistra precognoistre precognoistront precongnoistre recognoist |
recognoistra recognoistre recognoistront recognoit recongnoisse recongnoist recongnoistra recongnoistre recongnoistront recongnoit reconoistre |
[Nota: 1) est marqué en gras le début de chaque zone alphabétique;
2) sont exclues des résultats des formes comme cogneu qui sont
similaires à cognoistre à moins de 70%; 3) ces tableaux sont dérivés
de l'affichage «Liste de mots», qui contient aussi (a) une indication de la
fréquence de chaque forme et (b) des liens permettant de voir les occurrences
d'une forme donnée en contexte.]
Ayant noté la forme précoce connestre, on peut interroger la
base du
Dictionnaire de l'Académie française de 1694 pour y examiner
le même verbe. Soit la requête
simil connoitre 70%,
qui livre un résultat différent, bien entendu, mais qui comprend la forme
archaïque cognoistre. Voici, une fois le bruit écarté, les formes
pertinentes:
| cognoistre connois connoissant connoisse connoissent connoisseur connoissez connoissoit connoist connoistra connoistray connoistre |
connoistrez connoistrois connoître meconnoistre méconnoistre mesconnoist mesconnoistre reconnoisse reconnoist reconnoistray reconnoistre reconnoistrez |
Pour les analyses sémantiques, on préférera l'affichage KWIC (voire
le Contexte
étendu de plusieurs lignes). Ainsi, à la date de juillet 2000, pour les
occurrences de lettres dans
LexoTor (base de données textuelles interactive des ouvrages des collections
de la Bibliothèque électronique de Lisieux), on pouvait faire l'analyse suivante
(cf.
l'analyse complète donnée sur le site LexoTor):
Le mot lettres (pluriel de lettre) a plusieurs sens: a) caractères d'alphabet (cf. «écrit [...] en grosses lettres»), b) écrits de correspondance (cf. «elle reçut des lettres de l'armée»), c) culture littéraire (cf. «gens de lettres»; ce dernier sens ne vaut que pour le pluriel lettres). Les contextes illustrent bien ces trois sens:
| a) | (PicVei1885) écrit en grosses lettres (SarPer1862) signe son nom en toutes lettres (SteNot1893) quatre ou cinq de ces lettres initiales |
| b) | (SarPer1862) quelques centaines de lettres (LaFCom1664) les lettres de son amant (LaFCom1664) elle reçut des lettres de l'armée (BauJeu1846) il y avait des lettres à bord (BauJeu1846) ayant lu ses lettres (ChaCon1857a) Réponse ordinaire aux lettres d'un ami (ChaCon1857a) le roman par lettres (ChaCon1857a) dans la loge en prenant ses lettres (BauCoe1887) classement de toutes mes lettres (MerVic1944) une douzaine de lettres de recommandation (MerHb1850) Ses lettres sont charmantes (MerHb1850) Il datait ses lettres (MerHb1850) les lettres de B ........ |
| c) | (VadPip1758) gens de distinction, de goût, et de Lettres (BauCoe1887) homme de lettres (BauCoe1887) hommes de lettres (BauCoe1887) écumeur de lettres (LecDej1748) gens de distinction, de goût et de lettres» (MonRue1881) teinturier qui avait un peu de lettres (MerHb1850) gens de lettres |
(La base LexoTor, qui croît chaque mois au rythme de la
Bibliothèque
électronique de Lisieux, contenait 509 occurrences de lettres en mai
2003.)
On peut afficher les résultats d'une recherche selon la distribution par variable balisée. Ainsi, pour lettres ou lettre(s), on trouve les valeurs suivantes pour (a) les rayons de la BEL, (b) les genres de Maupassant (voir la base Maupassant) et (c) les dramaturges de l'Ancien régime (voir la base des Théâtres complets):
a) Rayons de LexoTor-BEL (Bibliographies, Fonds local, Travaux du Lycée Marcel Gambier, Rayon documentaire, Rayon littéraire, Sélections du mois):
b) Genres de Maupassant (Chroniques, Contes et nouvelles, Correspondance,
Récits de voyage, Romans, Théâtre):
c) Dramaturges des XVIIe-XVIIIe siècles (Beaumarchais, Corneille, Marivaux,
Molière, Racine):
Ce sont là des valeurs absolues. Les valeurs relatives, mesurées selon la
taille des sous-corpus, sont données par l'affichage «Distribution normalisée»
(propre à la deuxième version de TACTweb). Cela donne:
|
|
|
Les distributions normalisées montrent que lettres est en fait plus important dans le rayon «Bibliographie» de LexoTor-BEL que, par exemple, dans le «Fonds local» ou le «Rayon documentaire» (pourcentages respectifs par rapport au nombre de mots de texte total: 0,13%, 0,04%, 0,03%); que lettre(s) pèse plus dans les Chroniques de Maupassant que dans ses Contes et nouvelles (0,07% vs. 0,03%) ou que lettre(s) compte davantage chez Beaumarchais que chez Marivaux (0,11% vs. 0,04%).
Complétons ce bref tour d'horizon de TACTweb en jetant un coup d'oeil sur une utilisation particulière de la condition when. Dans le théâtre complet de cinq auteurs de l'Ancien régime, on a balisé les voix, c'est-à-dire les matières préfatoires, les didascalies et les paroles des personnages. On peut ainsi faire une interrogation transversale du vocabulaire d'un même personnage ou personnage homonyme apparaissant dans différentes pièces ou chez différents auteurs. Dorante, par exemple, figure dans trois pièces de Corneille, trois pièces de Molière et neuf pièces de Marivaux. On pourra observer chez Dorante qu'une lettre (requête lettre.*; when voix=doran) est deux fois reçue, trois fois portée, qu'une lettre fâche ou déplaît:
Un autre mot associé à lettre, plus fréquent, est amour, dont
le genre est le plus souvent non marqué. On peut observer, dans le but de savoir
dans quelle mesure le genre est variable ou sémantiquement distinctif, que chez
Dorante amour est qualifié dans le théâtre de Corneille de premier
(x 1), cet (x 1), cette (x 2), une (x 1), le (x 1),
alors que dans les pièces de Marivaux il est toujours masculin quand il est
marqué, étant qualifié de seul (x 1), cet (x 2), un (x 1),
fait (x 1).
| TACTweb et TACTxml |
Les deux versions de TACTweb ont l'avantage, par rapport à des systèmes lourds et coûteux comme Philologic du Projet ARTFL (Chicago) ou Stella de Frantext (Nancy) nécessitant une gestion permanente par des équipes techniques, d'être gratuites et gérables par un non-technicien ayant une compétence de maniement de programmes DOS et une bonne maîtrise de l'indexation de textes (c'était le cas du computing humanist de naguère).
La deuxième version de TACTweb, TACTxml, malheureusement non diffusée pour installation, ajoute à la première la possibilité de construire de grosses bases faites de collections de petites bases pour offrir à l'usager l'interrogation d'ensembles quantitativement importants. Par exemple, TACT est capable d'indexer le Dictionnaire de l'Académie de 1694 en quatre parties et celui de 1835 en quatre bases aussi. Depuis le formulaire de requête du Dictionnaire de l'Académie française 1694 et 1835, l'interface de TACTxml envoie toute requête à chacune des huit bases individuelles pour afficher les résultats en un seul bloc comme si on interrogeait une base unique des deux éditions du DAF. Le même principe vaut pour les bases RenDico, LexoTor, Théâtres des XVIIe-XVIIIe siècles et Maupassant (on peut aussi sélectionner un seul, ou plusieurs, dictionnaire, rayon, auteur ou genre).
| Perspectives |
TACT et TACTweb sont très puissants mais leurs jours sont vraisemblablement comptés. TACT ne fonctionne que sur des plateformes qui reconnaissent le système d'opération DOS; si TACT fonctionne bien sous Windows 98, il marche mal ou pas du tout sous les versions ultérieures de Windows. TACTweb ne fonctionne que sur des serveurs Windows ou NT. On attend toujours leur remplaçant multi-plateforme, décrit dans «Eye-ConTact: Towards a New Design for Text-Analysis Tools» de Geoffrey Rockwell et John Bradley (1998).
![]()
| Références |
FREBase, Dictionnaire de l'Académie française, http://www.chass.utoronto.ca/~wulfric/dico_tactweb/acad.htm
FREBase, RenDico, Dictionnaires de la Renaissance, http://www.chass.utoronto.ca/~wulfric/dico_tactweb/tiden.htm
FREBase, Georges Simenon, Le Chien jaune, http://www.chass.utoronto.ca/~wulfric/frebase/chien/
LexoTor, http://www.chass.utoronto.ca/epc/langueXIX/lexotor/
LexoTor, «Exemple d'affichage de résultats et bref commentaire», http://www.chass.utoronto.ca/epc/langueXIX/lexotor/lettres.htm
NEFbase, «Maupassant, Oeuvres, sous TACTweb», http://www.etudes-francaises.net/nefbase/maupassant.htm
NEFbase, «Théâtres complets, en base de données
interactive sous TACTweb»,
http://www.etudes-francaises.net/nefbase/theatre/
TACTweb, «Help on the Query Syntax», http://tactweb.humanities.mcmaster.ca/tactweb/doc/query.htm
Willard McCarty, «Finding Implicit Patterns in Ovid's Metamorphoses with TACT», http://www.chass.utoronto.ca/epc/chwp/mccarty/
Geoffrey Rockwell et John Bradley, «Eye-ConTact: Towards a New Design for Text-Analysis Tools», http://www.chass.utoronto.ca/epc/chwp/rockwell/
Kenneth B. Steele, «'The Whole Wealth of thy Wit in an Instant': TACT and the Explicit Structures of Shakespeare's Plays», http://www.chass.utoronto.ca/epc/chwp/steele/
Russon Wooldridge et Émilie Devriendt, «TACT et TACTweb, logiciels de recherche de données textuelles structurées», http://www.chass.utoronto.ca/~wulfric/articles2/poitiers2001/
2003
Voir dans l'encyclopédie de l'Astrolabe: