SATO offre une grande flexibilité pour la manipulation des propriétés. Une interface conviviale permet d’en créer de nouvelles avec le nom de leurs valeurs, de les modifier, de les supprimer, de paramétrer leur affichage en contexte et hors contexte. Il est possible de paramétrer l’affichage du lexique et du texte de façon à faire disparaître ou apparaître à volonté les propriétés souhaitées. Celles-ci peuvent être affichées en couleurs, en gras, en souligné au besoin, et la largeur des colonnes correspondant à chaque propriété dans le lexique peut être ajustée.

Les propriétés sont soit entières (comme la fréquence totale ou la fréquence relative que l’on peut créer en la faisant dériver de la précédente et en commandant son affichage en pourcentage), soit symboliques (comme la propriété «Gramr» pour laquelle on attribue une valeur symbolique par partie du discours), soit libres (par exemple, pour renvoyer à des lexèmes génériques ou encore pour attribuer une adresse URL qui renvoie à une définition, comme nous l’avons fait dans un autre contexte pour un texte dans lequel ont été marqués tous les termes appartenant à la Terminologie d’Internet de l’Office de la langue française) (8). Elles peuvent s’appliquer au texte ou au lexique, aux deux par héritage de l‘un à l’autre et être d’origines très diverses: grammaticales, thématiques, éditoriales, statistiques, etc.

Les propriétés prédéfinies pour le texte sont au nombre de quatre: 1) propriété «NoOcc entière» pour texte; 2) propriété «Page référentielle» pour texte; 3) propriété «Édition» qui comporte des valeurs pour distinguer les mots en capitales, en début de paragraphe, ceux qui sont des noms propres, ceux qui figurent au début d’une tabulation de niveau 2, 3, etc.; 4) propriété «Commentaire libre» pour texte (de façon à faciliter l’inclusion des notes documentant le corpus ou les traitements). Les propriétés prédéfinies pour le lexique comportent : 1) la propriété «Alphabet symbolique» pour lexique (jusqu’à quatre alphabets peuvent être gérés pour le même corpus); 2) la propriété «Fréqtot entière» pour lexique; la propriété «Longueur entière» pour lexique; 3)la propriété «NoLex entière» pour lexique.

Là où la liberté et l’intuition du chercheur peuvent s’exprimer, c’est évidemment dans l’attribution de propriétés supplémentaires, dans la façon de les nommer et de déterminer leurs valeurs et ce, de façon itérative au fur et à mesure qu’il pénètre plus avant dans l’approfondissement de son corpus. Les valeurs de propriété jouent le rôle d’interprétants au sens de Peirce (9) et permettent de vérifier des hypothèses ou intuitions énoncées par rapport à des substrats conceptuels. La catégorisation, c’est-à-dire l’attribution de valeurs de propriétés, peut s’effectuer de façon automatique, en bloc, à l’aide de dictionnaires ou d’algorithmes, ou bien au cas par cas, dans le lexique ou dans le texte.

Un scénario (ensemble de commandes) inclus dans SATO peut être invoqué pour affecter automatiquement les valeurs de propriété grammaticale recueillies dans un dictionnaire de langue générale aux formes d’un corpus en français (10). Par la suite, le lexique peut être trié selon les différentes valeurs de propriété: liste de tous les adjectifs qualificatifs, de tous les noms communs, etc., ou encore, comme ci-dessous, liste des lexèmes pouvant appartenir à n‘importe quelle catégorie d’adjectifs et liste des lexèmes qui, dans la langue, ne peuvent être que des adjectifs qualificatifs.

LEXIQUE AFFICHER $*Gramr=Adj$ TRI alphabet

fréq* Gramr                              
1     Adjqua                              aisée
2     (Adjqua,Nomcom)                     ami
1     (Adjqua,Nomcom)                     analogue
1     Adjqua                              âpre
…
1     (Adjind,Proind)                     aucune
1     (Adjind,Proind)                     autre
… 
1     (Adjqua,Vparpas)                    égarés
1     (Adjqua,Vparpas)                    enjambée
…
1     Adjqua                              entière
1     Adjqua                              espiègle
…
1     Adjpos                              vos
6     Adjpos                              votre
…
1     Adjnum                              1
1     Adjnum                              2
…
LEXIQUE AFFICHER $*Gramr==Adjqua TRI freqtot

fréq* Gramr                              
1     Adjqua                              aisée
1     Adjqua                              âpre
1     Adjqua                              attentive
1     Adjqua                              avides
… 
1     Adjqua                              verte
1     Adjqua                              vibrante
1     Adjqua                              visible

Nous pouvons également savoir comment se répartissent les différentes valeurs de la propriété «Gramr» dans l’ensemble du corpus et ce, selon deux modes de description, le mode composé et le mode ventilé. C’est la comparaison des résultats entre deux ou plusieurs corpus ou sous-corpus qui pourra éveiller l’attention du chercheur sur des différences significatives.

Lexèmes    %Lex.    Occ.     %Occ.  Gramr
   334    27.79%     678    15.43%  Nomcom
   133    11.06%     204     4.64%  Vconj
   125    10.40%     220     5.01%  (Nomcom,Vconj)
    83     6.91%     140     3.19%  (Adjqua,Nomcom)
    62     5.16%     105     2.39%  Vinf
    61     5.07%      78     1.77%  Adjqua
    38     3.16%      50     1.14%  (Adjqua,Vparpas)
    34     2.83%      39     0.89%  Vparpas
…
     1     0.08%      17     0.39%  (Adv,Con,Pré)
     1     0.08%       7     0.16%  (Adjqua,Adv,Con,Nomcom)
…
     1     0.08%      54     1.23%  (Proint,Prorel)
     1     0.08%       2     0.05%  (Proexc,Proint,Prorel)
…
     1     0.08%      30     0.68%  (Adjind,Adjqua,Adv,Con,Nomcom,Proind)
     1     0.08%       3     0.07%  (Adjqua,Nomcom,Pré,Vparpas)
     1     0.08%       5     0.11%  (Adv,Nomcom,Proind,Proper)
     1     0.08%       5     0.11%  (Nomcom,Prodém)
Lexèmes    %Lex.    Occ.     %Occ.  Gramr
   660    54.91%    1662    37.82%  Nomcom
   317    26.37%     667    15.18%  Vconj
   256    21.30%     492    11.19%  Adjqua
   117     9.73%     206     4.69%  Vparpas
    82     6.82%     147     3.34%  Vinf
    69     5.74%     388     8.83%  Adv
… 
    18     1.50%     596    13.56%  Proper
    18     1.50%      28     0.64%  Vparpré
    17     1.41%      24     0.55%  nil
… 
     5     0.42%     154     3.50%  Prorel
     4     0.33%      54     1.23%  Adjdém
     4     0.33%      18     0.41%  Dél
     3     0.25%     165     3.75%  Artind
     3     0.25%      11     0.25%  Int
     3     0.25%      97     2.21%  Proint
…
     1     0.08%       7     0.16%  Adjexc
     1     0.08%       2     0.05%  Proexc
     2     0.17%       2     0.05%  nomp
     1     0.08%      20     0.46%  virgule

L’un des autres avantages de la catégorisation des parties du discours est de donner accès à des unités syntagmatiques et lexicales complexes (une interface sous l’objet «Tâches» aide à effectuer l’opération). Nous ne reproduisons ci-dessous que quelques exemples dont certains sont fautifs, à cause de la non-désambiguïsation en contexte des lexèmes affectés hors contexte de plusieurs valeurs grammaticales possibles (c’est, à notre avis, avec l’absence de lemmatisation qui s’ensuit, une lacune importante de la version actuelle de SATO). Dans les résultats ci-dessous qui répondent à une recherche sur les séquences «nom + adjectif», il peut être intéressant de dresser la liste de tous les adjectifs qui qualifient un même lexème ou bien de suivre, au fil du texte, la progression des évocations (y a-t-il passage du clair, du vivant, du paisible au sombre, au tourmenté?). Les images sont-elles convenues ou novatrices? Les contextes peuvent être envisagés sous plusieurs points de vue, puisqu’on peut choisir la nature ou la longueur du contexte, trié par ordre alphabétique ou par ordre d’apparition.

…
         # 14  [2862:2888] *page=hector/23/32/2
*divis=tex*poème=gri03*frontière=nil*rètex=nil*motex=nil*Stex=nil chaleur
monte Et brouille le ciel À lueurs_lourdes La chaleur_sourde Chauffe et me
tord
La chaleur chauffe Sans flamme_

         # 15  [2958:2983] *page=hector/24/19/2
*divis=tex*poème=gri03*frontière=nil*rètex=nil*motex=nil*Stex=nil un peu d'
air
Le paysage demande grâce Et la chaleur_intolérable Du feu repris Dans les
débris Est sans une

         # 16  [3756:3780] *page=hector/28/19/6
*divis=tex*poème=san01*frontière=nil*rètex=nil*motex=nil*Stex=nil retirer
Comme une porte ouverte en hiver Laisse aller la chaleur_tendre Et s'
introduire dans la chambre Le froid qui

…
         # 41  [3254:3277] *page=hector/26/15/4
*divis=tex*poème=fac02*frontière=nil*rètex=nil*motex=nil*Stex=nil peut alors
 empêcher qu'on s'échappe Quel dôme_de_firmament_concave qu'on le perce
Quand on a cet élan
…
         # 103  [932:954] *page=hector/13/12/5
*divis=tex*poème=jeu05*frontière=nil*rètex=nil*motex=nil*Stex=nil matin_
grands comme des rivières Ô l'onde de mes yeux_prêts à tout refléter Et
cette fraîcheur sous mes paupières_
…

Dans certaines applications en sciences de l’information, ce genre d’opération sert surtout à extraire des candidats termes pour constituer un vocabulaire de domaine ou un thésaurus, car les textes traités en langue spécialisée sont rédigés à partir d’un vocabulaire scientifique ou technique pouvant comporter jusqu’à 80% de termes complexes. Pour l’indexation de ces textes et la récupération de passages pertinents en recherche documentaire, l’extraction des syntagmes apporte une amélioration de la spécificité de l’analyse et de la précision du repérage.

Enfin, nous montrerons l’usage que l’on peut faire de propriétés symboliques ou libres de nature sémantique appliquées aux lexèmes ou aux occurrences. Ce traitement ouvre la voie à une étude de diverses catégories sémantiques - pouvant prendre la forme d’isotopies  (11) - et de leurs relations.

Afin d’observer des phénomènes thématiques et pas seulement lexicaux, il peut être avantageux de procéder à des regroupements de sens. Dans certains cas, il est possible d’utiliser un dictionnaire sémantique déjà constitué, comme un lexique du thème de l’amour, de l’espace, du temps, etc. Dans notre corpus, puisque la thématique de la mort s’est imposée dès la première prise de connaissance du lexique, nous avons établi notre propre dictionnaire en regroupant sous le taxème //mort// (12) les différents représentants: «mort(s)», «morte(s)», «mortel», «mourir», «meurs», «meurt» et «périr». Mais cela n’a pas suffi à rendre compte de cette thématique. En effet, les manifestations lexicales de la mort qui figurent en majorité dans deux poèmes de la suite «Deux paysages», sont absentes des derniers poèmes où, pourtant, l’impression qui se dégage est funeste. Nous avons donc recouru à une analyse microsémantique, Rastier (13) et Martin (14) ayant montré que la thématique s’exprime aussi par des récurrences de sèmes spécifiques indépendamment de lexicalisations déterminées. Le codage s’est effectué non sans difficultés d’abord hors contexte, puis en contexte, à partir d’une grille de sèmes établis selon le contenu des entrées du dictionnaire Robert électronique, démarche conforme à l’affirmation de Greimas selon lequel «on peut admettre que l’analyse des définitions nous renseignera sur la nature des sèmes (sinon de tous, du moins d’un certain nombre d’entre eux) implicitement contenus dans la dénomination» (15).

À peu près la même démarche a été adoptée pour la thématique de la vie, des signifiants vers les signifiés, mais avec des étapes différentes. Le lexème «vie» n’ayant que trois occurrences dans le recueil, nous avons fait un détour par une approche macrogénérique en identifiant les représentants des règnes animal, végétal et minéral, en nous référant aux concepts des éléments de la nature associés à la rêverie bachelardienne et aux substrats conceptuels de la sociocritique et de la psychanalyse. Le Petit Larousse illustré définit «règne» dans son sens relatif aux sciences de la vie comme «chacune des grandes divisions du monde vivant». Nous avons donc construit un autre dictionnaire contenant les lexèmes qui se rapportent à la vie ou à l’un des règnes (animal: «a», végétal: «v», minéral: «m») en introduisant quelques distinctions supplémentaires: forme ou apparence externes («f») comme dans «enfants», «oiseau», «bec», «fleur», forme ou attribut internes («os», «âme»), manifestation («chanter», «roucoule») ou produit dérivé («cubes de bois»). On le voit, ce sont les caractéristiques du corpus et les intuitions du chercheur qui poussent à essayer telle ou telle approche de catégorisation.

L’absence de prise en compte du contexte conduisant à certaines imprécisions ou distorsions, nous avons aussi créé une propriété «Rètex» qui nous a permis de distinguer le règne animal et le règne humain sans ambiguïté. Nous allons regarder les résultats de cette catégorisation sur un extrait du texte, après avoir attribué des couleurs différentes aux valeurs de la propriété «Rètex».

*poème=esq06 SAULES*divis=tit*rètex=rvf

Les grands saules*rètex=rvf chantent
Mêlés au ciel
Et leurs feuillages*rètex=rvf sont des eaux_vives
Dans le ciel

Le vent
Tourne leurs feuilles*rètex=rvf
D'argent*rètex=rmfm
Dans la lumière
Et c'est rutilant
Et mobile
Et cela flue
Comme des ondes

On dirait que les saules*rètex=rvf coulent
Dans le vent
Et c'est le vent
Qui coule en eux.

Comme nous avons remarqué que le champ lexical de l’eau est très présent dans la suite «Esquisses en plein air» alors que celui du feu l’est dans la suite «De gris en plus noir», nous pouvons, après avoir créé une propriété «Thème» avec les valeurs appropriées, catégoriser les lexèmes évoquant chacun de ces éléments en recourant à l’interface de catégorisation illustrée ci-dessous, puis sauvegarder les résultats dans un dictionnaire qui pourra alors permettre une catégorisation automatique dans un autre corpus et être enrichi en fonction du nouveau vocabulaire.

PROPRIETE DEFINIR Thème symbolique pour lexique eau feu
LEXIQUE AFFICHER $*Gramr=(Nomcom,Adjqua,V$) TRI alphabet


Figure 4. Interface de catégorisation du lexique


Notons que lorsque la catégorisation se fait sur le texte, un clic sur une occurrence, puis sur «?» dans la fenêtre de gauche provoque l’affichage de ses propriétés textuelles en plus de ses propriétés lexicales.

 

 

Notes

8 - Consulter le texte «GIRI - Guide d'initiation à la recherche dans Internet (avec marquage des termes de l'OLF et autres)» sous «Textes scientifiques», dans l'interface de SATO Internet. Voir aussi «GIRI» à l'Université Laval: http://www.bibl.ulaval.ca/vitrine/giri/ 

Retour

9 - Deledalle, Gérard. 1979. Théorie et pratique du signe; introduction à la sémiotique de Charles S. Peirce, Paris, Payot.

Retour

10 - Chaque chercheur peut mettre au point divers scénarios, à partir du journal qui conserve les commandes, afin d'éviter des répétitions fastidieuses de saisie pour des opérations qu'il veut répéter fréquemment.

Retour

11 - «Propriété caractéristique d'une unité sémantique permettant d'appréhender un discours comme un tout de signification» ( http://www.granddictionnaire.com ).

Retour

12 - Rastier, François. 1989. Sens et textualité. Langue, linguistique, communication, Paris, Hachette.

Retour

13 - Rastier , François, Ibid. Et Rastier, François. 1995. «Avant-propos», dans L'analyse thématique des données textuelles; l'exemple des sentiments, dirigé par François Rastier, publié par Éveline Martin, Paris, Didier Érudition, p. 7-10.

Retour

14 - Martin, Éveline. 1993. Reconnaissance de contextes thématiques dans un corpus textuel; éléments de lexico-sémantique, Paris, Didier Érudition. Et Martin, Éveline. 1995. «Thème d'étude, étude de thème», dans L'analyse thématique des données textuelles; l'exemple des sentiments, dirigé par François Rastier, publié par Éveline Martin, Paris, Didier Érudition, p. 13-23.

Retour

15 - Greimas, Algirdas Julien. 1986. Sémantique structurale, Paris, Presses universitaires de France.

Retour

 

Suzanne Bertrand-Gastaldy, avec la collaboration de Paul Marchand, «Le Logiciel SATO».

Si vous ne voyez pas les boutons de navigation: Suite.