Pratique de l'analyse thématique assistée par ordinateur

de Michel Lemaire

Université d'Ottawa (Canada)

 

 

 Introduction

La pratique de l’analyse thématique assistée par ordinateur est déterminée par la définition que l’on se donne du thème. Nous avons discuté ailleurs (1) d’une définition du thème littéraire distincte de celle du thème linguistique. Les praticiens de l’analyse thématique assistée par ordinateur partent, pour l’essentiel, d’une définition restreinte du thème que l’on peut résumer par la formule: le thème est «ce dont parle le texte». Même s’ils prennent aussi en considération une définition plus large de ce concept, cette définition extensive apparaît plus, pour eux, comme une espérance de leur recherche que comme la base de leur méthodologie. Du point de vue de la littérature, cette pratique montre ainsi ses limites. Toutefois, à l’intérieur de ces limites, je crois intéressant d’explorer le territoire découvert par certains projets de recherche, d’évaluer leurs acquis, dans le but d’en faire profiter les études littéraires dans le domaine.

Le thème est une construction intellectuelle élaborée par le lecteur à partir d’éléments textuels récurrents. Au sens étymologique du terme, c’est une abstraction. Il est donc tout à fait possible que le thème ainsi construit ne corresponde à aucune expression précise du texte, autrement dit que le thème ne soit pas inscrit dans le texte. Par exemple, le thème de l’enfance peut être prépondérant dans une oeuvre sans que les mots «enfant», «enfance», etc. y apparaissent. On admettra que plus le thème est abstrait, plus est grande cette possibilité d’écart entre les mots du texte et le thème élaboré.

Les chercheurs qui privilégient cette optique auront donc des réticences à demander à l’ordinateur de reconnaître un thème dans un texte sans lui fournir des outils afin de médiatiser sa recherche. Ces chercheurs fourniront donc à l’ordinateur des listes complexes à partir desquelles celui-ci travaillera. Un pas plus loin dans cette direction, on pourra considérer qu’il est préférable de partir de lectures humaines du texte, lectures qui procureront à l’ordinateur la matière première de ses analyses.

Inversement, d’autres chercheurs préféreront limiter leurs attentes face à l’ordinateur et concéderont que la machine ne peut circonscrire le thème. Certains de ceux-ci se contenteront de demander à l’ordinateur des défrichements préalables sur lesquels seront établies les interprétations humaines. D’autres enfin renonceront à atteindre le thème dans sa globalité et s’attacheront plutôt à l’étude du vocabulaire du thème.

On peut distinguer trois étapes dans le travail de l’ordinateur: la sélection, le classement, la pondération, étapes qui précèdent et préparent l’interprétation, réservée au chercheur. Selon les directions méthodologiques distinguées précédemment, les chercheurs limiteront la tâche de leur ordinateur à une, deux ou trois de ces étapes. A l’étape de la sélection, l’ordinateur retrouve et extrait les passages du texte qui contiennent les éléments du thème. Cette étape, à elle seule, justifie l’utilisation de l’ordinateur en particulier dans le cas de grands corpus. A l’étape du classement, on demande à l’ordinateur d’organiser les données recueillies, soit sous forme de listes, soit sous forme de tableaux ou de graphiques. Ces instruments permettront, par exemple, de visualiser l’évolution d’un thème à travers un texte (distribution des cooccurrences au fil des chapitres, opposition entre densité et diversité des marques thématiques, etc.) A l’étape de la pondération, interviendra la statistique lexicale dont les instruments élaborés fourniront les matériaux les plus sophistiqués pour l’interprétation (2).

 

Une liste hypertextuelle

L’analyse thématique assistée par ordinateur débute toujours par la constitution d’une liste de termes recouvrant plus ou moins le thème, liste à partir de laquelle on demandera à l’ordinateur de travailler. On pourra se contenter d’une liste réduite, composée à l’aide de dictionnaires de synonymes, d’analogies ou de thèmes. Mais certains projets élaboreront au contraire des listes extrêmement complexes, dans l’espoir de permettre à l’ordinateur de reconnaître le thème le plus abstrait même en l’absence de marques immédiates dans le texte. C’est le cas du projet décrit par Eveline Martin dans Reconnaissance de contextes thématiques dans un corpus textuel (3).

Le proposition d’Eveline Martin est de constituer une liste hiérarchique, pouvant contenir à la limite tous les mots de la langue, qui permettra à l’ordinateur de déduire la présence d’un thème dans un texte, de la récurrence de formes concrètes dans ce texte. Par exemple, de reconnaître le thème de l’enfance à partir de mots comme «petit», «garçon», «fille», «jeu». Par définition, le champ thématique sera

[...] l’ensemble de l’information lexicologique, la constellation des vocables, qui, selon les études de thématique théorique ou appliquée, et dans les textes, semblent entretenir avec le mot-pôle désignant le thème correspondant, son intitulé, divers types de relations, d’associations [...] (p. 28)

Cette liste serait constituée progressivement, au fur et à mesure des recherches dans le domaine, à partir des études, des dictionnaires, des thésaurus de thématique. Chaque champ thématique regroupe autour du mot-pôle, de la vedette, tous les lexèmes qui gravitent autour de ce thème. Cette liste est organisée de manière hiérarchique, situant les termes du plus général ou du plus central, aux plus précis ou marginaux, en une arborescence tenant compte de la structure spécifique du thème en question. La figure 1 présente un extrait d’un exemple donné par Eveline Martin (p. 78), le début de l’arborescence du thème de l’ennui.

Figure 1. Le Thème de l’ennui.

Ennui

dégoût

abattement
désenchantement
lassitude
mélancolie
spleen
tristesse [...]

lassitude

ennui

mélancolie

abattement
cafard
humeur noire
langueur
spleen
tristesse
vague à l=âme

nostalgie

ennui
spleen

spleen

cafard
mal du siècle
tristesse
nostalgie

tristesse

de quelqu=un
abandon
abattement
accablement
bourdon
cafard [...]

de quelque chose
monotonie
platitude
uniformité

Le projet d’Eveline Martin a été conçu en tant qu’instrument d’interrogation raisonnée de la base textuelle Frantext. Chaque élément de la liste étant relié aux autres de sa hiérarchie par des liens hypertextuels, cette liste devient elle-même une «base de données thématiques» (p. 14), base interrogeable de multiples manières. Le principe d’une liste hiérarchique et hypertextuelle permet de contourner l’écueil de la distance entre la généralité du thème et l’aspect concret et unique de ses incarnations. Cependant, la constitution d’une telle liste, même pour un thème précis, est une entreprise infinie, un tonneau des Danaïdes, la variété des discours étant toujours au-delà des limites du système.

 

La Cooccurrence des thèmes

Le projet de Michel Bernard, dans le cadre de la Banque de données d’histoire littéraire (BDHL) (4), est aussi fondé sur la constitution d’une liste générale de thèmes, cependant, à la différence du projet précédent, cette liste est d’abord destinée à encadrer le travail de lecteurs humains. Dans son ouvrage De quoi parle ce livre?, Michel Bernard explique le déroulement de cette entreprise, depuis les principes et les définitions du thème qui la soutiennent jusqu’à son organisation et sa mise en ligne.

Michel Bernard part de l’idée que l’extraction du thème ne peut être réalisée convenablement que par un lecteur humain: «C’est une activité proprement humaine, en ce sens qu’aucune machine, aucune pseudo “intelligence artificielle” n’a pu simuler ce type de comportement» (p. 15-16). En conséquence, le recensement des thèmes dans les oeuvres indexées dans la BDHL sera confié à des lecteurs dont la tâche sera de résumer «ce dont parle le texte» par un certain nombre de termes représentant les thèmes de ces textes. Les étudiants de première année en lettres de l’Université de Paris III, durant l’année scolaire 1990-1991, ont été enrôlés pour produire cette indexation (p. 75).

Afin d’encadrer le travail de ces lecteurs, des instructions leur ont été fournies, ainsi qu’une liste de termes à employer pour indexer les thèmes. Cette liste, constituée par Bernard à partir de listes préalables (comme on l’a vu ci-dessus), est composée de termes «descripteurs» (à employer) et de «non-descripteurs» (qui renvoient à un descripteur); un chiffre correspond à chaque descripteur, chiffre à partir duquel travaillera ensuite l’ordinateur. Une telle liste est un thésaurus: «Un thésaurus est une liste d’autorité organisée de descripteurs et de non-descripteurs obéissant à des règles terminologiques propres et reliés entre eux par des relations sémantiques (hiérarchiques, associatives, ou d’équivalence)» (p. 39). Les instructions officielles demandent par exemple aux étudiants de remplacer un possible thème de la camaraderie par celui de l’amitié («camarade», «camaraderie», «compagnon» étant des non-descriptifs qui renvoient au descriptif «amitié»). Mais si on reprend la liste hiérarchique précédente, à propos du thème de l’ennui, on découvre que, dans la liste de Bernard, non seulement «ennui» est un descriptif (un thème), mais aussi «lassitude», «nostalgie», «spleen», «tristesse». L’article «ennui: 277» demande de voir aussi «désespoir, mal de vivre, souffrance, tristesse, bovarysme, spleen, divertissement, banalité, quotidien» (p. 233).

Chaque oeuvre étant ainsi «indexée», c’est-à-dire recevant un certain nombre d’étiquettes résultant d’une lecture humaine, l’ordinateur peut ensuite classer les textes en fonction de leurs thèmes et répondre à des questions comme: «Quels sont les recueils de poésie du XIXe siècle qui parlent de la ville?» ou «Quels sont les thèmes les plus fréquents dans le théâtre de l’entre-deux-guerres?» (p. 21). On peut aussi mesurer la cooccurrence des thèmes; par exemple, pour l’ennui, on obtient les chiffres suivants:

Ennui (44): destin (12, 9%), spleen (4, 8%), malheur (7, 8%), mélancolie (7, 8%), évasion (5, 7%), désespoir (7, 7%), absurde (6, 7%), incommunicabilité (4, 6%), nostalgie (5, 6%), désir (7, 6%), rêve (10, 5%), adultère (7, 5%), diable (4, 5%), lassitude (3, 5%), vice (4, 5%). (p. 269)

On peut encore rapprocher les oeuvres en fonction du nombre de thèmes qu’elles ont en commun; on découvre ainsi que A rebours de Huysmans possède huit thèmes communs avec les Petits poèmes en prose de Baudelaire, sept avec les Poèmes saturniens de Verlaine, six avec A la recherche du temps perdu, les Illuminations, les Complaintes et Une saison en enfer, etc. (Phalèse, 1991, p. 17).

Le point faible de cette méthode est bien sûr que le travail de l’ordinateur est fondé sur les résultats de lectures trop humaines, individuelles, incertaines. Le lecteur humain peut certainement comprendre mieux un texte que l’ordinateur, mais chaque humain aura une lecture différente d’une même oeuvre et, malgré l’encadrement du thésaurus, la résumera en des termes différents.

Un autre point faible est l’importance accordée à la cooccurrence des thèmes. Les thèmes devenant des données qui s’additionnent plutôt que des éléments qui entrent dans la composition d’une structure plus grande. Et on sait qu’on ne peut additionner les pommes et les oranges: les «descripteurs» ne sont pas des unités semblables les unes aux autres. Je verrais un exemple de cette erreur de raisonnement dans l’étude co-signée par Henri Béhar et Michel Bernard, «la Nébuleuse des sentiments» (5). L’objectif de cette recherche était d’analyser la thématique des sentiments dans le roman français entre 1830 et 1970, à travers les données de la BDHL. Les auteurs ont donc composé, à l’aide d’ouvrages de référence, une liste de vingt termes couvrant le champ des sentiments, et ont confronté cette liste à l’indexation thématique des 534 romans recensés dans la BDHL. Puis il ont procédé à divers traitements statistiques des données recueillies.

Dix-huit romans sortent du lot avec quatre descripteurs de sentiments ou plus, et la surprise est de découvrir en tête de liste Climats de Maurois, Sous-offs, roman militaire de Descaves, le Prométhée mal enchaîné de Gide. «On se serait attendu à voir figurer, en tête du genre romanesque, l’Education sentimentale ou Madame Bovary, le Rouge et le noir ou Lucien Leuwen, Illusions perdues ou le Lys dans la vallée [...]» (p. 91). Les auteurs s’efforcent donc d’expliquer, sinon de justifier, la liste de romans obtenue. Les chefs-d’oeuvre seraient «monomaniaques» (p. 91), les romans sentimentaux à succès manqueraient de «complexité» (p. 92). Mais ils oublient qu’il n’y a pas de relation nécessaire entre le nombre de descripteurs dans la BDHL et la complexité du thème ou son importance dans l’oeuvre. Le thème de l’amour peut très bien être prépondérant dans une oeuvre, faire l’objet d’une analyse complexe, et n’avoir été indexé que par un seul descripteur (et inversement). La cooccurrence de descripteurs (et par définition ici de thèmes) n’est pas un signe irréfutable de la cooccurrence de thèmes (dans le sens plus complexe de thèmes littéraires) ni de la complexité du ou des thèmes. De même que le nombre d’occurrences des marques textuelles d’un thème n’est pas forcément proportionnel à l’importance de ce thème dans un texte.

 

Retour au texte

L’analyse du thème littéraire exige donc toujours un travail sur le texte réalisé par le chercheur lui-même. L’ordinateur est, actuellement, plus à sa place dans les tâches de dépouillement et de classement des données. Mais cela n’empêchera pas les requêtes qu’on est en mesure de lui faire à ce niveau d’être diverses et nuancées, et si la relation entre l’homme et la machine devient interactive, le processus conduira alors à des résultats de plus en plus précis.

Ainsi, la simple concordance peut être raffinée et une sélection de ces résultats peut fournir des indices intéressants dans une étude thématique. Les logiciels de concordance permettent aujourd’hui de regrouper les occurrences d’un lemme non seulement par ordre d’apparition mais aussi en fonction d’autres critères comme les mots qui précèdent ou suivent le lemme choisi. Une étude sélective de certains lemmes sera très instructive. La comparaison systématique du contexte étroit de substantifs concrets ou de verbes d’action, notamment, offrira des perspectives nouvelles; tout dépendra du genre de texte auquel on a affaire et de ce que l’on recherche. Inversement, dans un roman aussi analytique qu’Un amour de Swann de Marcel Proust, le contexte de termes abstraits sera tout aussi parlant. Par exemple, la figure 2 présente un extrait de la concordance du mot «amour» précédé de «son» dans Un amour de Swann (logiciel Lexico 3; bien sûr la fenêtre est ici réduite).

Figure 2. Concordance de «son amour».

Dans son article sur «la Méthode d’Hubert de Phalèse», Henri Béhar rappelle que les concordances de la Bible constituèrent les premiers exemples d’étude systématique de textes, et il montre comment l’ordinateur est capable, aujourd’hui, de remplacer les armées de moines des anciens auteurs de concordance, pour fournir au chercheur un texte sélectionné ou réorganisé en fonction de ses besoins. Béhar explique de quelle manière ont été rédigées les «fiches thématiques» des volumes de la collection «Cap’agrég» composés par les membres du groupe Hubert de Phalèse. La méthode est, je crois, intéressante pour tout chercheur en analyse thématique. Il distingue quatre étapes: la compilation, la sélection, le classement et la rédaction. La compilation résulte du «croisement» (p. 156) par l’ordinateur d’une liste préalable au texte lui-même. La sélection consiste à choisir «manuellement» parmi les occurrences compilées précédemment celles qui sont pertinentes (élimination des «parasites») et celles qui sont «remarquables» (p. 157) (entre autres les hapax; et en prenant note des nullax). Le classement, enfin, est l’organisation dialectique de la matière sélectionnée. Le travail du chercheur progresse donc dans un va-et-vient constant entre les informations fournies par l’ordinateur et le texte sur lequel se poursuit la réflexion.

L’un des produits de cette méthode, les volumes de la collection «Cap’agrég», constituent, à mon avis, des sources d’information des plus solides. Prenons-en comme illustration le volume sur Alcools d’Apollinaire. Le chapitre intitulé «Parcours thématique» présente des «fiches thématiques» sur la géographie, l’amour, les astres et les étoiles, le poème et la poésie, les femmes, les lumières, les saisons et les jours, la mort, la religion, les mythes et les légendes, la mémoire et les souvenirs, la connaissance par le goût, le blanc, la main, le corps, la faune et la flore. Sur chaque question, le lecteur obtient non pas une étude rédigée, mais des éléments d’information, notes, citations, idées, matière première pour aller plus loin.

Ce processus de va-et-vient est explicité dans une autre étude d’Henri Béhar: «Pour une problématique des odeurs: des essences pour des Esseintes». Avec l’objectif d’étudier la thématique des odeurs dans A rebours, l’auteur constitue une liste de 416 termes qu’il confronte au texte de Huysmans (p. 186). Cent quarante de ces termes se retrouvent dans le roman. Le chercheur revient alors au texte afin de «désambiguïser» (p. 187) les passages sélectionnés par l’ordinateur, éliminant certains, ajoutant des formes oubliées, pour aboutir à un total de deux cents extraits sur lesquels se concentrera ensuite son attention. «Par cette confrontation entre deux listes [la liste externe et celle des occurrences], ou deux tableaux, [le chercheur] est assuré de ne rien omettre et travaille dans un cadre cohérent, représentant bien l’univers [...]» du thème étudié (p. 188).

Dans cet aller-retour, l’ordinateur est un compagnon de travail, un instrument de recherche et non un appareil magique qui fournirait des solutions toutes faites, des analyses «clé en main». On découvre une autre illustration de cette démarche dans l’étude de Thierry Mézaille sur «la Couleur des sentiments chez Proust». En fait, cet article, publié dans le recueil collectif l’Analyse thématique des données textuelles, s’intéresse plus spécialement au thème de la blondeur. Désirant étudier la relation entre la blondeur et les sentiments, et ce dans le corpus réduit constitué par la section «Combray» de Du côté de chez Swann, Mézaille part des neuf occurrences du lexème «blond» extraites par l’ordinateur. Un calcul statistique (l’écart réduit) lui permet de sélectionner, dans les passages reconnus, les cooccurrences (non plus de thèmes mais de lexèmes) significatives (p. 211), puis, parmi celles-ci, il retient les cooccurrences qui concernent les sentiments. On voit donc qu’ici la série des sentiments à analyser est bâtie progressivement à partir du texte, et non depuis une liste externe plus ou moins pertinente.

 

Les Mots du thème

Si le thème, dans la globalité de son sens littéraire, est toujours en partie au-delà de son inscription dans le texte, une réponse méthodologique simple est de décréter que l’on va étudier non pas le thème mais cette inscription. C’est le parti pris d’Etienne Brunet, position qui a le grand mérite de la clarté et de l’humilité. En introduction à son article intitulé «Cardiogrammes», Brunet rappelle l’écart toujours présent entre une réalité et le langage qui la traduit; se proposant d’analyser statistiquement le vocabulaire des sentiments dans le roman français, il précise bien que ce qu’il va mesurer, ce sont des mots et non des passions:

Comme rien n’est si flottant que les sentiments, plutôt que de s’enliser dans les sables mouvants, on s’abstiendra de toute tentative visant à appréhender les affects eux-mêmes. On ne prendra en considération que leur expression verbale, sans s’inquiéter de savoir si cette expression est un masque ou un leurre. Notre rôle ne veut être ici que celui d’un appareil enregistreur, qui réagit seulement à l’apparition et à la récurrence des mots, comme est sensible aux rythmes électriques la machine qui reproduit l’électrocardiogramme. Quant à interpréter les symptômes et les courbes et à décider de l’intervention, c’est l’affaire du clinicien ou du chirurgien. (p.25)

Le point de départ est donc limité rigoureusement: non plus un thème à la définition évanescente, mais un aspect du vocabulaire d’un texte. Dans le cas des sentiments, par exemple, Brunet part d’une liste externe de cent vingt termes, liste qu’il élargit à cent soixante-cinq par la méthode des cooccurrences vue précédemment. Et ce qu’il étudie, c’est l’utilisation de ces termes, son évolution, son importance relative, et non le contenu sentimental de son corpus. La restriction d’horizon peut apparaître radicale, mais la puissance des instruments statistiques utilisés par Brunet produit des résultats autres mais tout à fait neufs.

Ce n’est qu’à la suite du travail du statisticien qu’apparaît le critique littéraire, le clinicien après le technicien. Car le statisticien est doublé d’un lecteur qui connaît parfaitement les oeuvres qu’il étudie. Et Brunet propose alors, dans des chapitres où resurgit le mot thème, une réflexion remarquable d’intelligence et de précision, découlant des résultats statistiques précédents, mais mûrie par un retour aux textes. Ainsi dans son ouvrage sur le Vocabulaire de Proust, l’étude des «spécificités lexicales» permet à Brunet de redescendre des généralités statistiques vers le détail de l’analyse thématique. Le passage sur la thématique des couleurs, est représentatif de cette démarche. Les chiffres, explique Brunet, montrent que «les couleurs sont [...] plus vives dans Swann que dans la suite» de la Recherche (p. 176). Il fournit comme preuve le tableau de la figure 3 (les valeurs sont des écarts réduits).

Figure 3. Ecart réduit des couleurs.

 

blanc

blanche

bleu

blond

jaune

mauve

noir

rose

rouge

vert

violet

Swann

0,3

3,7

4,4

1,3

4,3

5,2

1,6

3,5

0,8

2,4

5,2

Sodome

0,3

-2,3

-2,1

-1,1

-1,7

-0,9

-1,4

-1,6

-1,2

-0,6

-2,4

Ces chiffres, sur des mots tirés du texte, peuvent être confirmées par le tableau de la figure 4, construit (par moi) avec le logiciel Hyperbase à partir d’une liste externe de dix adjectifs de couleur (les trois oeuvres comparées sont Du côté de chez Swann, le Côté de Guermantes et le Temps retrouvé).

Figure 4. Les Couleurs dans la Recherche.

Après cet énoncé chiffré, Brunet passe à l’interprétation, une réflexion sur la synesthésie, une méditation thématique qui rappelle Jean-Pierre Richard (je n’en donne qu’un extrait):

Toute une alchimie des couleurs parcourt ce premier texte [Swann] qui se rattache ainsi au symbolisme. [...] Comme Rimbaud et les symbolistes, Proust joue au jeu des correspondances et marie les sons et les couleurs. Le nom de Guermantes évoque pour lui l’orangé et l’amarante et le nom de Parme tout à la fois l’Italie, Stendhal et les violettes. On devine un goût proustien pour les diverses nuances où le rouge se mêle au bleu et qui produisent le violet, le mauve, le parme, le pourpre, l’amarante. La correspondance enveloppe également les parfums d’autant plus facilement que la couleur prend très souvent le nom d’une fleur. Ainsi la fameuse phrase de la sonate de Vinteuil abandonne le domaine des sons pour se développer dans celui de l’espace et de la couleur avant de quitter le champ visuel pour celui des parfums. (p. 176-177)

On voit donc que si le chercheur refuse le thème comme point de départ, c’est pour mieux y revenir en fin de parcours et l’analyser sur des bases plus solides. La modestie de Brunet quand il évoque les possibilités de l’ordinateur est parente de la délicatesse avec laquelle il aborde les textes. Elle ne doit pas nous laisser ignorer les résultats exceptionnels de ses travaux. Je lui emprunterai la conclusion de cet article, tirée de son ouvrage sur le Vocabulaire de Zola, avant de finir sur un dernier exemple.

Il n’est pas certain que la machine dont nous nous servons soit un instrument très sûr et très précis pour mesurer cette sorte d’aimantation que le thème, entre autres facteurs, exerce sur les mots. D’une part elle souligne ingénument les faits les plus évidents [...] D’autre part la statistique est loin d’être l’arme souveraine lorsque compte le sens des mots et non plus seulement des faits de structure où l’identité des unités n’intervient pas. Le sens linguistique d’un lecteur est un peu démuni lorsqu’il s’agit d’apprécier, dans un grand corpus, la richesse ou l’originalité lexicale [...] Mais la lecture humaine est irremplaçable lorsqu’il s’agit d’évaluer l’importance relative des mots, le relief thématique d’un texte et la signification profonde d’une oeuvre. Ici les éléments quantitatifs ne peuvent s’attacher qu’à la surface et laissent ignorer les substitutions, les transparences, les pudeurs, les déplacements, les échos, les antiphrases et les mille jeux de la pensée qui se cache et se dévoile à travers les feintes et les fentes du discours. Ce reproche a été adressé depuis longtemps à la statistique linguistique et il restera fondé tant que l’ordinateur n’aura pas acquis le sens de l’humour. (p. 301)

La sagesse de cette réflexion est le fruit d’une longue expérience. Son auteur n’a plus à prouver le mouvement puisqu’il a beaucoup marché. Il n’a plus à argumenter sur l’intérêt de l’instrument informatique puisqu’il a fourni ses chiffres et même créé le logiciel d’analyse textuelle Hyperbase. Dernier argument en faveur de l’utilisation de l’ordinateur dans l’analyse thématique, la figure 5 présente une analyse factorielle réalisée avec Hyperbase: on a donné à l’ordinateur les lemmes de dix verbes représentant certains échanges humains, à charge pour lui d’évaluer leurs relations dans dix des principaux romans d’Honoré de Balzac.

Figure 5. Analyse factorielle de «donner-prendre».

 

 

Notes

1 - Voir Michel Lemaire, «Le Thème littéraire à l’épreuve de l’ordinateur», dans l’Astrolabe.

2 - Voir Etienne Brunet, «Formalisation et quantification des textes», dans l’Astrolabe.

3 - C’est aussi une des ambitions du logiciel Cordial Analyseur.

4 - Voir Michel Bernard, «La Banque de données d’histoire littéraire», dans l’Astrolabe.

5 - Cette étude a d’abord été publiée dans le recueil collectif l’Analyse thématique des données textuelles puis dans l’ouvrage d’Henri Béhar, la Littérature et son golem, que je cite.

 

Références

Henri Béhar, La Littérature et son golem, Paris, Champion, 1996.

Michel Bernard, De quoi parle ce livre? Elaboration d’un thésaurus pour l’indexation thématique d’oeuvres littéraires, Paris, Champion, 1994.

Etienne Brunet, Le Vocabulaire de Proust, Genève-Paris, Slatkine-Champion, 1983.

Etienne Brunet, Le Vocabulaire de Zola, Genève-Paris, Slatkine-Champion, 1985.

Etienne Brunet, «Cardiogrammes», dans François Rastier (éd.), L’Analyse thématique des données textuelles. L’exemple des sentiments, p. 25-52.

Eveline Martin, Reconnaissance de contextes thématiques dans un corpus textuel, Paris, Didier, 1993.

Thierry Mézaille, «La Couleur des sentiments chez Proust», dans François Rastier (éd.), L’Analyse thématique des données textuelles. L’exemple des sentiments, p. 201-219.

Hubert de Phalèse, Comptes A rebours. L’oeuvre de Huysmans à travers les nouvelles technologies, Paris Nizet, 1991.

Hubert de Phalèse, Quintessences d’Alcools. Le recueil d’Apollinaire à travers les nouvelles technologies, Paris, Nizet, 1996.

François Rastier (éd.), L’Analyse thématique des données textuelles. L’exemple des sentiments, Paris, Didier, 1995.

 

2002

 

Voir dans l'encyclopédie de l'Astrolabe:

Formalisation et quantification des textes

Le Logiciel Hyperbase

Le Thème littéraire à l'épreuve de l'ordinateur