Le Logiciel SATO

de Suzanne Bertrand-Gastaldy

Université de Montréal (Canada)

avec la collaboration de Paul Marchand

École de technologie supérieure (Montréal, Canada)

 

 

Le logiciel SATO, conçu et développé par François Daoust, est disponible gratuitement, dans la version Internet, sur le site du Centre d’analyse de textes par ordinateur de la Faculté des sciences humaines à l’Université du Québec à Montréal (http://www.ling.uqam.ca/sato ). Il est, depuis longtemps, utilisé dans des disciplines faisant un fort usage de textes, tels la sociologie (1), le droit (2) ou la linguistique (3). C’est un outil privilégié en bibliothéconomie et sciences de l’information pour des fins d’analyse documentaire et d’indexation assistées par ordinateur (4). Comme les textes littéraires se retrouvent en nombre grandissant sur support électronique, l’assistance d’un tel logiciel pour en faire l’analyse devient, à divers degrés selon le type d’approche mis de l’avant (sémiotique, thématique, stylistique, sociocritique, d’inspiration psychanalytique, etc.), une entreprise porteuse de promesses et de renouvellement de problématiques (5).

En prenant nos exemples dans un recueil de poèmes, Regards et jeux dans l’espace, d'Hector de Saint-Denys Garneau (6), nous illustrerons comment le logiciel aide à constituer des corpus, à visualiser les textes selon deux dimensions: le lexique et le texte, à annoter les unités lexicales et textuelles à l’aide de catégories multiples prédéfinies dans le logiciel et ajoutées selon les intérêts, hypothèses et besoins des chercheurs. Nous montrerons aussi le type de requêtes possibles pour approfondir le sens du texte littéraire.

SATO constituant une boîte à outils génériques, nous ne pouvons illustrer ni toutes les commandes ni toutes les combinaisons de commandes possibles. Notre objectif consiste simplement à introduire le lecteur au potentiel et limites du logiciel. À lui ensuite de se risquer à quelques explorations si l’aventure le tente.

 

SATO est d’abord un gestionnaire de textes. La version Internet donne accès à un certain nombre de corpus déjà générés en format approprié (chacun peut les analyser selon ses propres objectifs) et permet aussi de soumettre ses propres textes qui sont alors stockés dans un répertoire personnel. La soumission d’un nouveau texte ne nécessite pas de grande préparation préliminaire ni d’objectif bien arrêté de traitement. Il suffit d’indiquer la langue et le titre du texte à l’aide d’un logiciel de traitement de texte. Guidé par les découvertes issues des premières explorations, par les intuitions et la connaissance du corpus et de l’auteur, les analyses de critiques, on peut par la suite raffiner progressivement le travail de formatage et d’annotation, par exemple ajouter des indications de subdivisions ou catégoriser le lexique sur le plan grammatical, sémantique ou cognitif. On peut aussi constituer préalablement un corpus raisonné, soumettre les textes séparément et les subordonner à un fichier de commandes unique. Un formulaire guide l’utilisateur tout au long de ses démarches.



  • Les possibilités d’exploitation du corpus sont fonction d’une part de la représentation du texte par le logiciel à la fois sous la forme linéaire d’une succession d’occurrences et sous la forme d'un lexique, c’est-à-dire le catalogue de l’ensemble des formes lexicales différentes (mots, ponctuations, nombres, etc.), d’autre part des opérations permises sur chacun de ces deux objets ainsi que des objets associés comme les propriétés et les dictionnaires. Dans l’interface, les objets figurent dans le bandeau horizontal supérieur et les opérations qu’il est possible d’effectuer sur chacun des objets sélectionnés s’affichent dans la colonne de gauche.

    Le nombre de formes lexicales différentes est accessible par une commande très simple: «Lexique Décrire». Le parcours du lexique par ordre de fréquence décroissante (on peut demander un affichage par ordre alphabétique ou par ordre de longueur décroissante des lexèmes), permet de repérer immédiatement, parmi les mots grammaticaux, les mots de signification les plus fréquents, ceux que Guiraud (7) a appelés mots-thèmes et qui font office de para-lexique susceptible de guider les explorations futures. Ainsi peut-on constater, dans la figure 1, que le mot-thème dominant du corpus de Saint-Denys Garneau, est «mort» avec 20 occurrences. Il est suivi de «ciel» et «yeux» avec chacun 18 occurrences, puis viennent «vent» (17), «moi» (16), «deux» (14), «nuit» (10).

    Figure 1. Extrait de l’affichage du lexique par ordre de fréquence décroissante


    Le chercheur n’est pas limité à cette vision verticale du lexique. Il dispose de plusieurs moyens pour retourner à la forme séquentielle du texte. S’il désire élucider certaines ambiguïtés dues à l’absence de contexte, un simple clic sur un lexème, puis sur «K KWIC» dans la fenêtre de gauche déclenche l’apparition de courts segments textuels dans la partie inférieure de l’écran. C’est évidemment à l’analyste que revient la tâche de remarquer et d’interpréter les phénomènes dignes d’intérêt. Par exemple, le déroulement de la liste des contextes de «comme» (38 occurrences) dont on ne voit que le début dans la figure 2 attire l’attention sur la fréquence de l’expression «comme si». Cela peut laisser entrevoir une certaine irréalité propre à la poésie ou peut évoquer la brisure, la séparation, la privation et même l’auto-privation, hypothèse qu’il faudra confirmer par d’autres indices.

    Figure 2. Affichage des contextes du lexème «comme» sous forme d’index KWIC



    Parallèlement à la richesse du lexique, nous pouvons obtenir d’emblée la longueur du corpus exprimée en nombre d’occurrences, de lignes, de pages et de documents, le cas échéant, avec la commande «Texte Décrire».

    Le texte et des sous-textes, selon les subdivisions déjà codifiées, peuvent être visionnés. Par défaut, tout corpus est séparé en pages. Les phrases graphiques (suites de chaînes de caractères terminées par un point) et les paragraphes peuvent servir de contextes d’affichage, de même que tout contexte numérique dont la longueur par défaut de 5 occurrences avant et 5 après le (ou les) lexème demandé peut être modifié au gré des besoins. Ceci ajoute de la souplesse par rapport au visionnement des contextes à partir du lexique illustré à la figure 2. Ainsi, pour explorer encore davantage la veine de la privation, pouvons-nous faire apparaître les contextes de la préposition «sans» et déjà examiner si des concentrations se manifestent dans certaines parties du texte (les références avec poèmes et pages numérotés sont visibles). Nous ne reproduisons qu’un extrait des résultats dans la figure 3 (contexte numérique de 3).

    Figure 3. Extrait de l’affichage de contextes autour de «sans»



    Appelés aussi patrons de fouille, les filtres constituent le dispositif syntaxique de description des objets sur lesquels porte la recherche. Ils s’appliquent à la forme des mots ou à leurs propriétés. Par défaut, le caractère «$» indique que l’on veut tous les mots (du lexique ou du texte). Mais nous pouvons sélectionner des sous-ensembles du lexique et du texte à partir de caractéristiques communes, qu’elles relèvent de propriétés purement morphologiques, de propriétés attribuées d’office par SATO ou encore de propriétés de toute nature rajoutées par le chercheur. Ainsi, à l’aide de troncatures et de masques, il est possible de chercher n’importe quelle chaîne de caractères et, par exemple, de faire apparaître les lexèmes commençant par «il$», «im$», «in$», ce qui permet, dans le corpus qui sert d’illustration, de vérifier si le nombre d’unités lexicales avec préfixe privatif vient confirmer l’impression précédente (c’est effectivement le cas). On peut introduire des patrons alternatifs, chercher des caractères spéciaux comme des points, des majuscules, et combiner tous ces dispositifs dans une seule requête. On peut visualiser, par exemple les lexèmes dont la fréquence est comprise entre 30 et 15, égale à 12, différente de 18 mais dont la longueur est comprise dans une fourchette de 5 à 7 caractères, etc. On peut également demander l’affichage du texte de telle ou telle page, de tous les lexèmes qui ont telle et telle valeur de propriété, ou au contraire tous ceux qui ne l’ont pas; par exemple, on peut vouloir rechercher tous les mots qui sont des noms communs et qui se trouvent dans un titre, ou au début d’un paragraphe. Cela accroît donc les possibilités heuristiques. Le chercheur n’est pas obligé de nommer les objets qu’il veut analyser, il peut travailler sur des classes de mots partageant une caractéristique commune parmi lesquels, il pourra peut-être trouver des sous-classes sur la base d’autres propriétés auxquelles il n’avait pas pensé. D’où l’avantage de doter les objets des propriétés qui semblent utiles pour l’exploration du corpus et qui vont bien au-delà de la surface des signes, de leurs propriétés purement graphiques.

    Tous les analyseurs sont disponibles dès le départ (Comparaison, Comptage, Distance, Lisibilité, Participation, Segmentation, Tamisage), mais la richesse des explorations permises dépend en grande partie des propriétés assignées. Nous illustrerons dans la suite de cet article l’utilisation de certains d’entre eux.

     

     

    Notes

    1 - Les travaux de J. Duchatel et G. Bourque en sont un exemple éloquent. Plusieurs de leurs publications sont disponibles sur le site Visibilité du Centre ATO.

    Retour

    2 - Bertrand-Gastaldy, Suzanne. 1993. «Analyse documentaire et intertextualité», dans Les Sciences du texte juridique: le droit saisi par l'ordinateur, sous la direction de Claude Thomasset, René Côté et Danièle Bourcier, Cowansville, Editions Yvon Blais, p. 139-173.

    Retour

    3 - On peut consulter sur le site Visibilité les résultats de certaines recherches de Monique Lemieux pour l'ancien français.

    Retour

    4 - Bertrand-Gastaldy, Suzanne et Pagola, Gracia. 1992. «L'Analyse du contenu textuel en vue de la construction de thésaurus et de l'indexation assistées par ordinateur; applications possibles avec SATO (système d'analyse de textes par ordinateur)», Documentation et bibliothèques, no 38 (2), p. 75-89.

    Retour

    5 - Bertrand-Gastaldy, Suzanne et Marchand, Paul. 1999. «L'Analyse du texte littéraire assistée par ordinateur: essai d'illustration avec Regards et jeux dans l'espace, de Saint-Denys Garneau, traité avec le logiciel SATO», Documentation et bibliothèques, p. 55-66. Cet article est aussi disponible en texte intégral dans la base de données Repère accessible sur le Web (abonnement nécessaire).

    Retour

    6 - Le recueil est tombé dans le domaine public en 1993.

    Retour

    7 - Guiraud, Pierre. 1975. «Les Caractères statistiques du vocabulaire», dans La Stylistique: lectures de Pierre Guiraud et Pierre Kuentz, Paris, Klincksieck, p.222-224.

    Retour

     

    Si vous ne voyez pas les boutons de navigation: Suite.