TACT et TACTweb

de Russon Wooldridge

Université de Toronto (Canada)

 

bulletTACT
bulletTACTweb
bulletTACTweb et TACTxml
bulletPerspectives

 

bullet

TACT

TACT fut développé vers la fin des années 1980 et le début des années 1990 à l'Université de Toronto par John Bradley, comme successeur du programme COGS du même auteur. Alors que COGS fonctionnait sur un gros ordinateur et produisait des fichiers de concordance sur bande magnétique pour sortie sur microfiche ou papier, TACT fut conçu pour l'interrogation interactive de bases textuelles sur le disque dur d'un micro-ordinateur. La deuxième et dernière version de TACT, 2.1.4, faite par J. Bradley avec l'aide de Lidio Presutti et Michael Stairs, sortit en 1995. TACT est un logiciel qui permet d'indexer un texte - c'est-à-dire d'indexer tous les mots (en gros, séquences de lettres ou de chiffres précédées et suivies d'un espace ou signe de ponctuation) qui le composent - et d'interroger la base ainsi créée pour réunir les occurrences des unités indexées.

Au moyen du balisage, on peut expliciter les structures explicites ou implicites du texte. Par exemple, dans un roman les pages et les chapitres sont normalement explicitement indiqués, alors que le récit et le dialogue ne le sont que partiellement - ambiguïté des séquences commençant par des guillemets ouvrants, etc. (cf. aussi K.B. Steele 1991, sur la structuration explicite du théâtre de Shakespeare, et W. McCarty 1991, sur les structures implicites chez Ovide). Pour illustrer les structures de la pagination, de la mise en chapitres et du niveau de discours, regardons le début du chapitre 10 du Chien jaune de Georges Simenon (cf. la base du Chien jaune en ligne):
 

        X. LA «BELLE-EMMA »

        «Vous m'avez prié de venir, commissaire?...»
        Maigret n'avait pas eu le temps de répondre qu'on voyait entrer dans
la cour deux inspecteurs qui encadraient Jean Goyard, tandis qu'on devinait
dans la rue, des deux côtés de la poterne, une foule agitée.
        Le journaliste paraissait plus petit, plus grassouillet entre ses gardes
du corps. Il avait rabattu son chapeau mou sur ses yeux et, par crainte des
photographes, sans doute, il tenait un mouchoir devant le bas de son visage.
        «Par ici! dit Maigret aux inspecteurs. Vous pourriez
peut-être aller nous chercher des chaises, car j'entends une voix
féminine...»


On peut ajouter au texte à indexer des balises pour les pages (p), chapitres (c) et les niveaux de discours (n), ces derniers distinguant titre (T), récit (R) et dialogue (D). Le texte apparaîtra désormais comme suit (mise en relief ajoutée):
 

        <p 157><c 10><n T>X. LA «BELLE-EMMA »

        <n D>«Vous m'avez prié de venir, commissaire?...»
        <n R>Maigret n'avait pas eu le temps de répondre qu'on voyait entrer dans
la cour deux inspecteurs qui encadraient Jean Goyard, tandis qu'on devinait
dans la rue, des deux côtés de la poterne, une foule agitée.
        Le journaliste paraissait plus petit, plus grassouillet entre ses gardes
du corps. Il avait rabattu son chapeau mou sur ses yeux et, par crainte des
photographes, sans doute, il tenait un mouchoir devant le bas de son visage.
        <n D>«Par ici ! <n R>dit Maigret aux inspecteurs. <n D>Vous pourriez
peut-être aller nous chercher des chaises, car j'entends une voix
féminine...»


Un affichage KWIC (keyword in context) des deux premières occurrences dans le chapitre 10 du mot par donnera ceci:
 

(10:157 R)   son chapeau mou sur ses yeux et, par crainte des photographes,
(10:157 D)     devant le bas de son visage. « Par ici! dit Maigret aux


Le soulignement en bleu à l'endroit des mots-clés correspond dans la base active à un lien vers l'affichage du mot dans un contexte plus étendu. Il va sans dire que l'indexeur peut varier la forme des variables et des valeurs, ainsi que l'affichage de celles-ci, mais la forme retenue doit être systématique: par exemple, <ch 10>, <niv titre>, etc.

Les deux principaux programmes de TACT sont MakeBase, qui indexe un texte en format ASCII-DOS, et UseBase, qui permet l'interrogation interactive de la base créée par MakeBase. La description des fonctionnalités de UseBase est développée plus loin dans le présent texte, dans la section consacrée à TACTweb. Parmi d'autres programmes de l'ensemble TACT qui produisent des documents statiques à partir de la base, on peut signaler:
- TactStat, qui donne différentes mesures statistiques dont le nombre de types et d'occurrences, la distribution des fréquences des mots, la longueur des mots et la fréquence et distribution des lettres dans différentes positions (initiale, finale, globale).
- TactFreq, qui permet de générer trois listes: mots de texte par ordre alphabétique avec fréquences, mots par ordre alphabétique inverse avec fréquences, mots par ordre de fréquence.
- Anagrams, qui crée un fichier des anagrammes textuels (par exemple, parisien et aspirine, promet et trompe dans Le Chien jaune).

Un document assez détaillé consacré à TACT et TACTweb, et conçu comme tutoriel, est déjà consultable en ligne (voir R. Wooldridge et E. Devriendt, «TACT et TACTweb, logiciels de recherche de données textuelles structurées», 2001). Il explique le principe de la structuration, implicite ou explicite, d'un texte et celui du balisage explicite, en prenant comme exemple le début du Prince travesti de Marivaux. À l'aide de captures d'écran, il décrit les étapes nécessaires pour indexer un texte (programme MakeBase) et les maniements de base pour l'interrogation de la base résultante (programme UseBase). Le document se termine en proposant des liens vers des bases interrogeables en ligne sous TACTweb, d'autres vers des pages à partir desquelles on peut décharger les deux gratuiciels, TACT et TACTweb, et un dernier vers une page expliquant comment commander le manuel de TACT, publié par la MLA en 1996.

 

bulletTACTweb

TACTweb, créé vers 1995-6 par John Bradley et Geoffrey Rockwell (Université McMaster, Hamilton), est une version en ligne du programme UseBase de TACT. Il a presque toutes les fonctionnalités de UseBase et dans sa deuxième version, TACTxml, quelques-unes de plus. Le grand intérêt de TACTweb, par rapport à UseBase de TACT, est qu'il permet via le Web de mettre des bases interactives à la disposition de quiconque.

Dans les requêtes, TACT et TACTweb offrent un usage sophistiqué des expressions régulières et des opérateurs booléens (voir un traitement détaillé de la syntaxe sur le site de TACTweb), dont:
- Joker: ex.
.*tion.* (= mots qui contiennent -tion-).
- Lettres diacrisées, considérées comme variantes de la lettre non diacrisée: méthode 1,
\donne (= donne, donné); méthode 2, .*ite.* (= mots qui contiennent -ite- ou -ité-); on peut aussi se servir du système «Alt» pour taper les lettres diacrisées (ex. Alt+130 = é).
- Cooccurrence: ex.
aimable & jeune (= aimable et jeune); aimable ~ jeune (= aimable et non jeune).
- Liste: ex.
aimable, jeune (= aimable ou jeune).
- Syntagme: ex.
faut | pas | > (= syntagmes dont le premier terme est faut, le deuxième pas, affichés selon le troisième terme).
- Requête conditionnelle: ex.
beau; when titre=arlequin (= occurrences de beau dans Arlequin poli par l'amour).

Attardons-nous un peu sur l'opérateur simil, très utile pour la découverte de variantes graphiques. Soit le verbe cognoistre, ses différentes formes et ses dérivés dans les dictionnaires de la Renaissance (RenDico). La requête simil cognoistre 70% demande au programme de retrouver toutes les formes du texte qui ressemblent au moins à 70% à cognoistre. On élimine rapidement le bruit dans le résultat affiché comme «Liste de mots» (voir, dans le premier tableau ci-dessous, la zone des mots en cogn-) pour faire le bilan de ce qui concerne la famille lexicale française cognoistre (donc sans compter la famille latine cognoscere). Les 62 formes en question (sur un total de 212 formes différentes) sont celles qui se trouvent ci-dessous dans le second tableau:
 

cognatisve
cognie
cognita
cognitae
cogniti
cognitore
cognitorem
cognitores
cognitoris
cognoi
cognois
cognoissable
cognoissance
cognoissant
cognoissants
cognoisse
cognoissent
cognoisses
cognoissez
cognoissiez
cognoissoit
cognoissoy
cognoist
cognoistra
cognoistras
cognoistray
cognoistre
cognoit
cognominare
cognominas
cognominatur
cognomine
cognominis
cognoscant
cognoscat
cognoscens
cognoscere
cognoscerem
cognosces
cognoscet
cognoscis
cognoscite
cognoscitne
cognoscuntur
cognossem
cognoueris
cognouerit
cognoui
cognouimus
cognouit
 
















 
cognois
cognoissable
cognoissance      
cognoissant
cognoissants
cognoisse
cognoissent
cognoisses
cognoissez
cognoissiez
cognoissoit
cognoissoy
cognoist
cognoistra
cognoistras
cognoistray
cognoistre
cognoit
congnois
congnoissant
congnoisse
congnoissent
congnoisses
congnoissez
congnoissiez
congnoissoie
congnoissoit
congnoissoye      
congnoist
congnoistra
congnoistre
congnoistront
congnoistroy
congnoit
connestre
conoistre
conoit
conoitre
descognoist
descognoistre
entrecognoistre
entrecongnoistre      
mescognoistra
mescognoistre
mescognoit
mescongnoistra
precognoistre
precognoistront
precongnoistre
recognoist
recognoistra
recognoistre
recognoistront
recognoit
recongnoisse
recongnoist
recongnoistra
recongnoistre
recongnoistront
recongnoit
reconoistre


[Nota: 1) est marqué en gras le début de chaque zone alphabétique; 2) sont exclues des résultats des formes comme cogneu qui sont similaires à cognoistre à moins de 70%; 3) ces tableaux sont dérivés de l'affichage «Liste de mots», qui contient aussi (a) une indication de la fréquence de chaque forme et (b) des liens permettant de voir les occurrences d'une forme donnée en contexte.]

Ayant noté la forme précoce connestre, on peut interroger la base du Dictionnaire de l'Académie française de 1694 pour y examiner le même verbe. Soit la requête simil connoitre 70%, qui livre un résultat différent, bien entendu, mais qui comprend la forme archaïque cognoistre. Voici, une fois le bruit écarté, les formes pertinentes:
 

cognoistre
connois
connoissant
connoisse
connoissent
connoisseur
connoissez
connoissoit
connoist
connoistra
connoistray
connoistre
connoistrez
connoistrois
connoître
meconnoistre
méconnoistre
mesconnoist
mesconnoistre
reconnoisse
reconnoist
reconnoistray
reconnoistre
reconnoistrez


Pour les analyses sémantiques, on préférera l'affichage KWIC (voire le Contexte étendu de plusieurs lignes). Ainsi, à la date de juillet 2000, pour les occurrences de lettres dans LexoTor (base de données textuelles interactive des ouvrages des collections de la Bibliothèque électronique de Lisieux), on pouvait faire l'analyse suivante (cf. l'analyse complète donnée sur le site LexoTor):

Le mot lettres (pluriel de lettre) a plusieurs sens: a) caractères d'alphabet (cf. «écrit [...] en grosses lettres»), b) écrits de correspondance (cf. «elle reçut des lettres de l'armée»), c) culture littéraire (cf. «gens de lettres»; ce dernier sens ne vaut que pour le pluriel lettres). Les contextes illustrent bien ces trois sens:
 

a)
(PicVei1885)                    écrit en grosses lettres
(SarPer1862)             signe son nom en toutes lettres
(SteNot1893)               quatre ou cinq de ces lettres initiales
b)
(SarPer1862)               quelques centaines de lettres
(LaFCom1664)                                 les lettres de son amant
(LaFCom1664)                      elle reçut des lettres de l'armée
(BauJeu1846)                      il y avait des lettres à bord
(BauJeu1846)                        ayant lu ses lettres
(ChaCon1857a)              Réponse ordinaire aux lettres d'un ami
(ChaCon1857a)                       le roman par lettres
(ChaCon1857a)        dans la loge en prenant ses lettres
(BauCoe1887)            classement de toutes mes lettres
(MerVic1944)                     une douzaine de lettres de recommandation
(MerHb1850)                                  Ses lettres sont charmantes
(MerHb1850)                        Il datait ses lettres
(MerHb1850)                                  les lettres de B ........
c)
(VadPip1758) gens de distinction, de goût, et de Lettres
(BauCoe1887)                            homme de lettres
(BauCoe1887)                           hommes de lettres
(BauCoe1887)                          écumeur de lettres
(LecDej1748)  gens de distinction, de goût et de lettres»
(MonRue1881)      teinturier qui avait un peu de lettres
(MerHb1850)                              gens de lettres


(La base LexoTor, qui croît chaque mois au rythme de la Bibliothèque électronique de Lisieux, contenait 509 occurrences de lettres en mai 2003.)

On peut afficher les résultats d'une recherche selon la distribution par variable balisée. Ainsi, pour lettres ou lettre(s), on trouve les valeurs suivantes pour (a) les rayons de la BEL, (b) les genres de Maupassant (voir la base Maupassant) et (c) les dramaturges de l'Ancien régime (voir la base des Théâtres complets):

a) Rayons de LexoTor-BEL (Bibliographies, Fonds local, Travaux du Lycée Marcel Gambier, Rayon documentaire, Rayon littéraire, Sélections du mois):


b) Genres de Maupassant (Chroniques, Contes et nouvelles, Correspondance, Récits de voyage, Romans, Théâtre):


c) Dramaturges des XVIIe-XVIIIe siècles (Beaumarchais, Corneille, Marivaux, Molière, Racine):


Ce sont là des valeurs absolues. Les valeurs relatives, mesurées selon la taille des sous-corpus, sont données par l'affichage «Distribution normalisée» (propre à la deuxième version de TACTweb). Cela donne:

 

     
 
      

Les distributions normalisées montrent que lettres est en fait plus important dans le rayon «Bibliographie» de LexoTor-BEL que, par exemple, dans le «Fonds local» ou le «Rayon documentaire» (pourcentages respectifs par rapport au nombre de mots de texte total: 0,13%, 0,04%, 0,03%); que lettre(s) pèse plus dans les Chroniques de Maupassant que dans ses Contes et nouvelles (0,07% vs. 0,03%) ou que lettre(s) compte davantage chez Beaumarchais que chez Marivaux (0,11% vs. 0,04%).

Complétons ce bref tour d'horizon de TACTweb en jetant un coup d'oeil sur une utilisation particulière de la condition when. Dans le théâtre complet de cinq auteurs de l'Ancien régime, on a balisé les voix, c'est-à-dire les matières préfatoires, les didascalies et les paroles des personnages. On peut ainsi faire une interrogation transversale du vocabulaire d'un même personnage ou personnage homonyme apparaissant dans différentes pièces ou chez différents auteurs. Dorante, par exemple, figure dans trois pièces de Corneille, trois pièces de Molière et neuf pièces de Marivaux. On pourra observer chez Dorante qu'une lettre (requête lettre.*; when voix=doran) est deux fois reçue, trois fois portée, qu'une lettre fâche ou déplaît:


Un autre mot associé à lettre, plus fréquent, est amour, dont le genre est le plus souvent non marqué. On peut observer, dans le but de savoir dans quelle mesure le genre est variable ou sémantiquement distinctif, que chez Dorante amour est qualifié dans le théâtre de Corneille de premier (x 1), cet (x 1), cette (x 2), une (x 1), le (x 1), alors que dans les pièces de Marivaux il est toujours masculin quand il est marqué, étant qualifié de seul (x 1), cet (x 2), un (x 1), fait (x 1).

 

bulletTACTweb et TACTxml

Les deux versions de TACTweb ont l'avantage, par rapport à des systèmes lourds et coûteux comme Philologic du Projet ARTFL (Chicago) ou Stella de Frantext (Nancy) nécessitant une gestion permanente par des équipes techniques, d'être gratuites et gérables par un non-technicien ayant une compétence de maniement de programmes DOS et une bonne maîtrise de l'indexation de textes (c'était le cas du computing humanist de naguère).

La deuxième version de TACTweb, TACTxml, malheureusement non diffusée pour installation, ajoute à la première la possibilité de construire de grosses bases faites de collections de petites bases pour offrir à l'usager l'interrogation d'ensembles quantitativement importants. Par exemple, TACT est capable d'indexer le Dictionnaire de l'Académie de 1694 en quatre parties et celui de 1835 en quatre bases aussi. Depuis le formulaire de requête du Dictionnaire de l'Académie française 1694 et 1835, l'interface de TACTxml envoie toute requête à chacune des huit bases individuelles pour afficher les résultats en un seul bloc comme si on interrogeait une base unique des deux éditions du DAF. Le même principe vaut pour les bases RenDico, LexoTor, Théâtres des XVIIe-XVIIIe siècles et Maupassant (on peut aussi sélectionner un seul, ou plusieurs, dictionnaire, rayon, auteur ou genre).

 

bulletPerspectives

TACT et TACTweb sont très puissants mais leurs jours sont vraisemblablement comptés. TACT ne fonctionne que sur des plateformes qui reconnaissent le système d'opération DOS; si TACT fonctionne bien sous Windows 98, il marche mal ou pas du tout sous les versions ultérieures de Windows. TACTweb ne fonctionne que sur des serveurs Windows ou NT. On attend toujours leur remplaçant multi-plateforme, décrit dans «Eye-ConTact: Towards a New Design for Text-Analysis Tools» de Geoffrey Rockwell et John Bradley (1998).

 

 

bulletRéférences

FREBase, Dictionnaire de l'Académie française, http://www.chass.utoronto.ca/~wulfric/dico_tactweb/acad.htm

FREBase, RenDico, Dictionnaires de la Renaissance, http://www.chass.utoronto.ca/~wulfric/dico_tactweb/tiden.htm

FREBase, Georges Simenon, Le Chien jaune, http://www.chass.utoronto.ca/~wulfric/frebase/chien/ 

LexoTor, http://www.chass.utoronto.ca/epc/langueXIX/lexotor/

LexoTor, «Exemple d'affichage de résultats et bref commentaire», http://www.chass.utoronto.ca/epc/langueXIX/lexotor/lettres.htm

NEFbase, «Maupassant, Oeuvres, sous TACTweb», http://www.etudes-francaises.net/nefbase/maupassant.htm

NEFbase, «Théâtres complets, en base de données interactive sous TACTweb»,
http://www.etudes-francaises.net/nefbase/theatre/

TACTweb, «Help on the Query Syntax», http://tactweb.humanities.mcmaster.ca/tactweb/doc/query.htm

Willard McCarty, «Finding Implicit Patterns in Ovid's Metamorphoses with TACT», http://www.chass.utoronto.ca/epc/chwp/mccarty/

Geoffrey Rockwell et John Bradley, «Eye-ConTact: Towards a New Design for Text-Analysis Tools», http://www.chass.utoronto.ca/epc/chwp/rockwell/

Kenneth B. Steele, «'The Whole Wealth of thy Wit in an Instant': TACT and the Explicit Structures of Shakespeare's Plays», http://www.chass.utoronto.ca/epc/chwp/steele/

Russon Wooldridge et Émilie Devriendt, «TACT et TACTweb, logiciels de recherche de données textuelles structurées», http://www.chass.utoronto.ca/~wulfric/articles2/poitiers2001/

 

2003

 

Voir dans l'encyclopédie de l'Astrolabe:

Le Logiciel Hyperbase

Le Logiciel SATO