L'Analyse par tableaux

III – Applications à la prose

de Michel Lemaire

professeur retraité de l'Université d'Ottawa (Canada)

 

bullet

I – La Phrase en tant qu'unité constituante

bullet

II – Parole et profil des personnages

bullet

III – Le Poids des actants

bullet

IV – L'Ampleur des phrases

 

 L'article qui suit est le dernier d'une série de trois (1) dans laquelle je propose une méthode d'étude du texte littéraire assistée par ordinateur. Il s'agit de placer le corpus dans un tableau informatique créé à l'aide d'un logiciel commun du type tableur ou traitement de texte. L'espace tabulaire ainsi défini permettra, d'une part, d'organiser une analyse humaine de manière systématique et, d'autre part, en fonction des capacités du logiciel employé, d'étayer cette analyse de constatations statistiques et d'illustrations graphiques. Dans les pages qui viennent, je choisirai mes exemples dans des oeuvres en prose afin de démontrer la polyvalence de la méthode exposée. Et je m'arrêterai particulièrement, cette fois-ci, à la création de graphiques. Je continuerai d'utiliser le logiciel Excel 2003, en donnant le détail des procédures pour ce programme. Toutefois, le plus  important de mon propos me paraît être la direction de travail, la démarche proposée, essentiellement le travail sur le texte, dans ses marges, à travers des procédures inventées par le chercheur au fur et à mesure de sa progression et en fonction de ses hypothèses initiales. Ici, le chercheur développe ses propres balises, de même que les procédures de maniement de ces balises, ici le traitement informatique peut porter sur ce balisage comme sur les commentaires ou les annotations du corpus. Et, étant donné que balises et commentaires sont placés en marge du texte et non à l'intérieur de celui-ci, la méthode proposée me paraît plus aisée dans son utilisation et plus transparente dans son fonctionnement. Les textes étudiés dans cet article sont brefs, ils ont été choisis pour une simple raison pratique: mon objectif étant essentiellement pédagogique, je n'ai pas jugé nécessaire d'analyser de grands corpus, préférant multiplier les exemples. Cependant l'instrument informatique permet tout à fait d'étudier des corpus plus vastes: une feuille Excel 2003 peut contenir soixante-cinq mille lignes, un classeur peut contenir 255 feuilles; Excel 2007 annonce un million de lignes par feuille.

 

bullet

I – La Phrase en tant qu'unité constituante

Si le vers apparaît comme un segment à analyser tout à fait évident en poésie classique, le choix n'est pas aussi simple en prose. J'ai proposé de se situer à un niveau supérieur au lexique, le niveau lexical, d'ailleurs, ayant déjà été passablement arpenté dans les études littéraires assistées par ordinateur. En prose, la phrase et le paragraphe se présentent immédiatement comme des candidats. Le texte en prose se lit phrase par phrase; le sens se bâtit dans l'enchaînement des phrases et des paragraphes. Si l'objectif de l'analyse du texte littéraire est d'abord d'en approfondir le sens, ces niveaux d'analyse méritent sans aucun doute d'être pratiqués. Considérons les deux textes minimaux suivants: «Je t'aime», «Je ne t'aime pas». Les deux présentent une occurrence du verbe «aimer» et seraient équivalents dans une étude statistique du thème de l'amour au plan lexical; ce résultat serait-il pour autant pertinent? Ou que penser d'une analyse qui ne distinguerait pas les deux textes suivants: «Roméo aime Juliette», «Roméo aime mieux les carottes que les navets»? Bien sûr tout dépend du genre d'analyse que le chercheur désire mener, de l'objectif qu'il donne à sa recherche. Et si le sens se cache souvent au niveau des phrases, il les dépasse tout aussi fréquemment: le texte est une globalité, mais l'analyse ne peut faire autrement que de le segmenter pour être en mesure de progresser solidement. Dans certains cas, le paragraphe, ou la section de texte, représentera un niveau fructueux. Pour prendre un dernier exemple de texte minimal (bien connu, celui-ci): «Je t'aime. – Moi non plus», on constate que le sens se situe ici dans la confrontation des deux phrases en un paragraphe qu'on ne saurait briser.

Le fait d'entrer un texte dans un tableau informatique tel une feuille Excel, permet - et demande - de subdiviser ce corpus en unités constituantes choisies en fonction du type de recherche à venir. Ce sera, à la discrétion du chercheur, le mot, le syntagme, la proposition, la phrase, le paragraphe, etc. L'intérêt et l'inconvénient de la méthode sont que les balises, les étiquettes, les annotations ou les commentaires s'appliqueront ensuite nécessairement à ce niveau de segmentation sélectionné au départ. Et si la segmentation en phrases sera facile à réaliser et très souvent particulièrement productive, il faut bien admettre immédiatement qu'elle ne pourra être employée pour tous les types de recherches ni tous les genres de textes. La segmentation en phrases implique que, normalement, une phrase possédera un seul sujet logique, ou qu'on y découvrira un seul procédé rhétorique recherché, ce qui est évidemment souvent faux. La phrase de Marcel Proust, longue et sinueuse est rarement réductible à un seul sujet, elle est toujours multiple; la méthode proposée ne sera donc pas fructueuse dans ce cas, sauf pour des recherches sur son ampleur ou sa structuration. Il n'empêche que, si on fait abstraction de ces cas limites que sont la Recherche du temps perdu ou des romans sans ponctuation, la subdivision d'un texte en phrases grammaticales dans un tableau informatique permettra de l'étudier de manière systématique et féconde.

La seconde difficulté préalable à discuter est la définition même de la phrase grammaticale. On peut, je crois, s'entendre pour définir la phrase comme un groupe de mots délimité par un point, un point d'interrogation ou un point d'exclamation. A partir de là, plusieurs questions se posent. Premièrement, il arrive que ces trois signes de ponctuation ne marquent pas la fin d'une phrase: les points de suspension, le point après une abréviation, les points d'interrogation ou d'exclamation internes (normalement suivis d'une minuscule) par exemple. Il faudra donc tenir compte de ces cas particuliers dans la segmentation du corpus. Deuxièmement, il arrive que le deux-points sépare deux ensembles conséquents qu'on pourra considérer comme des phrases: le chercheur devra en décider et expliciter son choix. On en trouve des exemples dans les phrases introduisant des paroles. Inversement, l'incise du type «dit-il», qui grammaticalement peut être considérée comme une phrase à part entière, n'est pas ainsi marquée par des signes de ponctuation majeurs (et je suggérerai de ne pas la considérer ici comme une phrase). Troisièmement, la ponctuation n'a jamais été aussi standardisée que l'orthographe ou la grammaire. Un lecteur pourra considérer que là où il lit un point, il devrait y avoir un point-virgule ou inversement, que ce deux-points devrait être remplacé par un point. D'ailleurs les typographes ne se gênaient pas pour effectuer ce genre de correction. Le chercheur sérieux ne s'y autorisera pas: on doit prendre le texte tel qu'il est, ponctuation (et donc segmentation en phrases) incluse.

Ceci étant dit, l'entrée d'un texte en prose dans un tableau Excel doit être précédée, dans un traitement de texte comme Word, d'une vérification, d'une normalisation et d'une toilette de ce texte (2). Puis on demandera à Word de segmenter le texte par trois recherches-remplacements successives: remplacer le point, le point d'interrogation puis le point d'exclamation suivis d'un espace, par un point, un point d'interrogation puis un point d'exclamation suivis d'un retour de chariot (touche «Entrée»). On corrige, toujours dans Word, les erreurs de cette manipulation: ajout de segmentations, annulation de segmentations superflues. On transférera ensuite le texte dans Excel par un copier-coller général: le corpus se place alors dans une colonne de la feuille Excel, une phrase par cellule. Elargir la colonne à environ un tiers d'écran; sélectionner la colonne, dans la boîte de dialogue «Format de cellule» demander «Renvoyer à la ligne automatiquement» («Format / Cellule / Alignement»). Cette «colonne texte» va constituer l'épine dorsale du tableau. Elle sera entourée, sur sa gauche, de colonnes de signalement permettant d'identifier chaque élément du corpus, et, sur sa droite, de colonnes d'extractions et d'annotations. Je renvoie le lecteur, pour le détail de ce travail de même que pour les procédures fondamentales, aux deux premiers articles de cette série.

Dans le cas d'une étude basée sur une segmentation en paragraphes, je suggère de commencer par réaliser les étapes qui viennent d'être décrites puisqu'un paragraphe est un groupe de phrases. La plupart du temps, les marques typographiques (le double alinéa par exemple) ne seront pas suffisantes pour permettre à l'ordinateur de réaliser la subdivision en paragraphes: souvent, l'alinéa qui marque la fin du paragraphe sera aussi utilisé dans les dialogues. Le regroupement des phrases en paragraphes devra donc être réalisé «à la main» en regard du texte initial. Voici une procédure simple pour ce faire: se placer dans la colonne à droite de la colonne texte; par des «glisser» de la souris, sélectionner les cellules correspondant aux cellules des phrases du paragraphe (par exemple, si les phrases du premier paragraphe se trouvent dans les cellules D1 à D4, sélectionner les cellules E1 à E4); demander la fusion des cellules sélectionnées (il sera pratique d'ajouter le bouton «Fusionner les cellules» à la barre de boutons; sinon: «Format / Cellule / Alignement / Fusionner les cellules»); procéder de même pour tous les paragraphes; reproduire sur sa droite la colonne ainsi créée pour y entrer les annotations à venir; revenir à la première colonne de cellules fusionnées et numéroter ces cellules (et donc les paragraphes) à l'aide de la «poignée de recopie» d'Excel. Les paragraphes ainsi délimités pourront par la suite être manipulés dans Excel comme d'autres unités constituantes.

 

bullet

II – Parole et profil des personnages

J'ai choisi, comme premier corpus, le texte de jeunesse de Charles Baudelaire intitulé «la Fanfarlo» (3). L'auteur y dessine un autoportrait ironique: Samuel Cramer, poète romantique, tente de séduire une femme mariée, Madame de Cosmelly, mais c'est elle qui le manipule en l'utilisant pour écarter de son mari volage la danseuse qui donne son nom à cette nouvelle. Il s'agit d'une oeuvre classique dans laquelle les personnages agissent essentiellement par la parole. Il sera donc intéressant de tenter de mesurer l'importance de cette parole.

Une fois le texte segmenté dans Word et entré dans Excel, les phrases ayant été numérotées, je définis une colonne pour chacun des trois protagonistes (identifiées, dans l'illustration ci-dessous, par les intitulés «PgS» (Samuel), PgC (Madame de Cosmelly) et «PgF» (la Fanfarlo). Dans ces colonnes, je place une marque (je pose une balise), pour chaque phrase contenant des paroles (qui peuvent être en style direct ou indirect et ne seraient donc pas discernables automatiquement). Puis, afin de mesurer l'évolution de ces prises de parole au fil du texte, je subdivise celui-ci en sections de dix phrases (nombre arbitraire; dans un roman découpé en chapitres à peu près égaux, on pourrait utiliser cette division en chapitres); pour cela, j'ajoute une ligne vierge toutes les dix lignes. Ces lignes vierges vont maintenant recevoir les sous-totaux des phrases de paroles de chaque protagoniste. Si on se rapporte à la figure 1 ci-dessous, la cellule C320 contient la formule suivante additionnant les marques des cellules C310-C319:
«=NBVAL(C310:C319)» (4).

Figure 1. Extrait de l'analyse de «la Fanfarlo».

 

Mon objectif est de créer un graphique illustrant l'importance relative de ces prises de parole au cours du texte. Pour qu'Excel puisse dessiner un graphique, il est nécessaire de lui fournir un tableau chiffré des phénomènes étudiés. Dans une nouvelle feuille, je place donc par copier-coller la sélection de toutes ces lignes de sous-totaux: on clique dans l'en-tête de la première de ces lignes, puis, en appuyant sur la touche «Ctrl» à chaque fois, on clique dans les en-têtes des lignes de sous-totaux subséquentes; une fois la sélection complétée, on fait un clic droit dans cette sélection et on choisit «Copier» dans le menu contextuel; dans la nouvelle page, un clic droit dans la première cellule permet de choisir «Coller». J'obtiens ainsi trois colonnes de chiffres que je fais précéder des noms des trois protagonistes; je sélectionne ma page («Ctrl+A») et j'ouvre «l'Assistant graphique» d'Excel («Insertion / Graphique»).

L'assistant graphique est un outil complexe qui va permettre de définir le type de graphique et d'en préciser toutes les options. Pour ce premier exemple, je choisis, dans la première fenêtre, un histogramme empilé. Dans la fenêtre suivante, je vérifie la sélection des données. Dans la fenêtre suivante, une série d'onglets ouvre la porte à un assortiment de personnalisations du graphique; on pourra toujours réaliser ces modifications plus tard. Dans la fenêtre suivante, je conseille de choisir de placer le graphique à venir dans une nouvelle page qui sera créée automatiquement: de cette manière, le graphique sera plus facile à manipuler. Un clic sur «Terminer» ouvre cette page contenant le nouveau graphique. Le graphique ainsi dessiné demeure lié à ses données sources. Un clic droit dans chaque zone du graphique, l'arrière-plan, les colonnes de données, les axes, les légendes, permet de modifier et de personnaliser chacun de ces éléments: couleur et motif de l'arrière-plan, couleur et largeur des colonnes, position des légendes, marquage des axes, etc. La figure 2 en présente une réalisation.

Figure 2. La Parole des personnages.

Cet histogramme démontre que si Samuel Cramer engage la discussion et se lance dans le premier discours (au cours duquel il dessine de lui-même, avec passablement d'hypocrisie, un portrait destiné à attirer la sympathie de la dame), Madame de Cosmelly monopolise par la suite la parole, dans un long récit biographique auquel le poète ne trouve rien à répondre sinon que: «Il commençait à trouver qu'elle parlait beaucoup trop de son mari pour une femme désillusionnée».

Une seconde dimension de l'importance quantitative des paroles des personnages est évidemment l'ampleur des phrases contenant ces paroles: un protagoniste pourra avoir une parole très abondante contenue dans un nombre limité de phrases s'il fait des phrases interminables. Mesurons donc la longueur des phrases de parole. Contrairement à Word, Excel ne sait pas compter les mots, on doit donc lui fournir la formule suivante:
«=NBCAR(SUPPRESPACE(A1))-NBCAR(SUBSTITUE(A1;" ";""))+1» (5).
J'ai défini trois nouvelles colonnes pour chacun des protagonistes et placé la formule dans les cellules pertinentes. J'ai fait la moyenne des résultats fournis par la formule, pour chaque protagoniste (bouton «Somme automatique», choisir «Moyenne»). J'ai fait le total des phrases de parole de chacun («Somme automatique / Somme»). Avec ces chiffres, toujours par copier-coller pour ne pas faire d'erreur, j'ai composé le tableau suivant.

Figure 3. Données sources.

 

Ceci est un exemple simple du genre de tableau qu'il faut fournir à Excel pour qu'il puisse tracer un graphique. Une fois le tableau complété, on le sélectionne au complet (c'est-à-dire ici toutes les cellules visibles dans la figure 3) et on ouvre l'assistant graphique. Quel type de graphique choisir maintenant? Nous cherchons à illustrer une relation entre trois séries de données: les personnages, le nombre de phrases qui contiennent leur parole, la longueur de ces phrases. Le graphique à bulles permet de mettre en évidence ce type de liens complexes. On le choisit dans la première fenêtre de l'assistant graphique puis on parcourt les étapes décrites précédemment pour obtenir le résultat de la figure 4.

Figure 4. Le Poids des paroles.

Dans ce graphique, l'axe des abscisses place les personnages par ordre d'entrée dans le texte, l'axe des ordonnées indique le nombre de phrases de parole de chacun, et la grosseur des bulles traduit la longueur moyenne de ces phrases. J'ai rajouté le nom des personnages et la valeur exacte de la moyenne des longueurs. On constate que les phrases de Madame de Cosmelly, presque deux fois plus nombreuses que celles du héros, sont presque aussi longues; ce qui confirme la prédominance de la parole de ce protagoniste. On constate aussi que la Fanfarlo, en comparaison, ne parle presque pas: ses phrases sont peu nombreuses et leur longueur moyenne est deux fois moindre. La conclusion que je tirerais de cette analyse est que la Fanfarlo est moins un protagoniste que l'objet de la quête des deux autres.

Les personnages parlent, ils agissent; ils agissent par la parole. Les personnages existent par leurs paroles, par leurs actions; mais ils vivent aux yeux des lecteurs d'abord par la description qui en est offerte par l'auteur. L'auteur s'efforce de décrire chacun de ses personnages par des traits originaux, qui lui sont spécifiques, pour en faire un être unique, distinct. Et l'analyse tente, en général, de bien reconnaître ce caractère unique. Cependant, la description contient aussi des catégories plus larges qui s'appliquent, plus ou moins, à tous les personnages: tous les personnages ont un nez et on pourrait comparer les nez des personnages d'un roman. Ce ne serait peut-être pas très pertinent, mais il est d'autres traits par lesquels il serait intéressant non plus de distinguer les personnages mais de les comparer, de les mettre en relation, par exemple leur beauté ou leur générosité. Je vais maintenant proposer une procédure dont l'objectif est de comparer les personnages en en traçant un «profil», une représentation visuelle. La procédure consiste à établir une liste préalable de «traits» descriptifs et à évaluer chaque personnage en fonction de ces traits. Ces traits seront notés par le chercheur dans une colonne dédiée à chaque personnage étudié. Comme je l'ai fait remarquer déjà, une originalité de la méthode que je propose d'analyse par tableaux, est de faciliter une telle annotation humaine du texte, de l'organiser systématiquement et de permettre de tirer de cette annotation des synthèses, des statistiques et des graphiques.

La liste préalable de traits est à la discrétion du chercheur, en fonction de ses hypothèses de travail. Ce pourra être une série de caractéristiques psychologiques: bonté, méchanceté, générosité, avarice; ou de caractéristiques physiques; ou de particularités dans la relation aux autres et au monde: introversion, extraversion, activité, passivité, etc. Pour construire un exemple simple, j'ai choisi, pour les trois protagonistes de «la Fanfarlo», les traits suivants: psychologique positif, psychologique négatif, psychologique complexe, physique positif et physique négatif. Pour une étude plus approfondie, il serait bon d'adopter des traits plus précis. Je conseille d'établir une liste de cinq à dix traits: un plus grand nombre rendrait l'analyse plus difficile et les profils moins manifestes. Chaque personnage est «noté» en fonction des traits sélectionnés, soit par un chiffre soit par une simple étiquette. Dans le cas de «la Fanfarlo», je n'ai regardé que les phrases de description, excluant les phrases de parole déjà considérées.

Nous obtenons trois colonnes contenant les diverses étiquettes attribuées à chaque protagoniste. Nous allons alors demander à Excel de composer un «tableau croisé dynamique» à partir des données de chacune de ces colonnes («Données / Rapport de tableau croisé dynamique») (6). Excel produit un tableau contenant la liste des étiquettes et le nombre d'occurrence de chacune. La figure 5 présente celui de Samuel Cramer, nettoyé des éléments inutiles.

Figure 5. Exemple de tableau croisé dynamique.

Excel produit son tableau en listant les étiquettes par ordre alphabétique (ici, mes étiquettes étaient B, G, L, M, X). Pour que ce tableau devienne la source du profil que nous envisageons, il va être nécessaire de le compléter et de le remodeler. On construit donc à côté du tableau croisé un réaménagement de celui-ci: on remplace les étiquettes par les traits auxquels elles font référence; on classe ces traits en tenant compte du fait qu'Excel va dessiner le graphique à venir en les plaçant dans «l'ordre horaire» (l'ordre des chiffres sur le cadran d'une montre en débutant par le «12»); on reporte les chiffres par copier-coller. On obtient ainsi le tableau général de la figure 6.

Figure 6. Source des profils.

 

Ce tableau est la synthèse des trois tableaux croisés produits par Excel à partir des données des trois colonnes d'étiquetage. Il fournira le graphique synthétique que nous considérerons plus tard. Mais, auparavant, nous allons créer (par simple copier-coller), trois tableaux individuels, un pour chaque personnage. Avec un tableau source contenant la colonne des traits et la colonne Samuel, demandons maintenant à Excel de dessiner un «graphique radar». La figure 7 présente le «radar» de Samuel Cramer.

Figure 7. Profil d'un personnage.

On constate que les données (le nombre d'étiquettes de chacune des cinq séries) ont été disposées en étoile pour constituer un polygone original qui représente le personnage en fonction des traits sélectionnés; c'est ce que j'appelle son «profil». Samuel Cramer est décrit principalement au niveau psychologique (les traits «Physique positif» et «Physique négatif» sont peu nombreux). On constate ensuite que le portrait psychologique de Samuel n'est pas particulièrement flatteur: les traits positifs sont moins nombreux que les traits négatifs et que ceux que j'ai étiquetés «complexes» qui font l'originalité du dandy baudelairien, révolté, manipulateur et supérieur. On comprend à présent l'importance de l'ordre dans lequel on été placées les données: le positif se retrouve à droite, le négatif à gauche; si j'avais placé les traits du tableau de la figure 6 dans un ordre différent, le polygone aurait eu une forme différente qui ne serait pas visuellement parlante.

Le graphique radar fournit donc un portrait d'un personnage en fonction de catégories choisies par le chercheur. Son intérêt principal sera de permettre de comparer les personnages de manière plus évidente et convaincante que par des séries de chiffres ou des affirmations péremptoires. Si je compose maintenant un tableau source contenant les données relatives à Samuel Cramer et à Madame de Cosmelly, j'obtiendrai la juxtaposition en un seul graphique radar des profils des deux personnages. Et si je pars du tableau tel qu'il est présenté dans la figure 6, j'obtiens le radar suivant.

Figure 8. Comparaison des profils.

La superposition des profils a des limites étant donné que le graphique peut rapidement devenir confus. Cependant, on découvre ici premièrement que la description du héros est beaucoup plus importante que celle des deux femmes qui lui font face (ce qui est normal dans le cas d'une nouvelle qui est avant tout un autoportrait). On découvre ensuite que la description des deux femmes est essentiellement positive; et que celle de Madame de Cosmelly est légèrement plus psychologique que physique tandis que celle de la Fanfarlo se situe au niveau physique (elle représente la beauté vivante désirée par le dandy).

 

bullet

III – Le Poids des actants

On vient d'étudier un exemple d'étiquetage à l'aide de colonnes multiples (une par personnage pour chaque hypothèse), ce qui permet un traitement statistique des données attribuées à chaque personnage; considérons maintenant un étiquetage complexe en une seule colonne. Nous allons établir une série d'étiquettes (de balises) destinées à cerner une hypothèse élaborée sur le corpus. Puis nous relirons notre texte, en fonction de cette hypothèse, en plaçant nos étiquettes au fur et à mesure, en notant les indices qui amènent à choisir telle ou telle étiquette et en ajoutant des remarques selon l'inspiration du moment. L'étiquetage va se faire non plus en ayant en vue l'élaboration de statistiques mais en ayant en vue des filtrages complexes.

Excel propose les filtres suivants, applicables à un texte: «contient», «ne contient pas», «commence par», «ne commence pas par», «se termine par», «ne se termine pas par». Deux critères peuvent être sélectionnés reliés par l'opérateur «ET» ou par l'opérateur «OU». Les filtres «commence» et «se termine» seront utiles surtout quand on travaille dans la colonne texte mais ils pourront servir aussi pour les colonnes d'annotation si on a pris la précaution de placer les étiquettes dans un certain ordre. Les combinaisons avec «contient» et «ne contient pas» permettent d'obtenir les trois opérateurs booléens: «ET»: «contient ET contient», «OU»: «contient OU contient», «SAUF»: «contient ET ne contient pas».

L'analyse par tableaux se distingue par la facilité à définir aisément des étiquettes spécifiques adaptées à l'hypothèse de travail. Ces étiquettes pourront être les noms des personnages, des qualifications, des concepts. L'important est que ces étiquettes fassent système. On évitera les étiquettes négatives difficiles à manipuler dans le respect de la logique des requêtes complexes. Et, par souci d'efficacité et de normalisation, on réduira les étiquettes à des lettres, des chiffres ou des signes offerts par le clavier. Par exemple, les personnages seront représentés par leur nom, ou mieux par leur initiale; les concepts par des chiffres: amour/haine, 1/2, aide/opposition, 3/4, recherche/possession, 5/6. Afin qu'Excel distingue les balises des annotations incluses dans la même colonne, il sera nécessaire d'identifier ces balises par un signe; inutile ici d'utiliser un système lourd comme les doubles crochets, une touche du clavier non utilisée ailleurs suffira: ainsi, plutôt que [personnage-alpha], je vais réduire mes étiquettes de personnages à leur initiale suivie du signe deux-points.

Le corpus que j'ai choisi pour cette démonstration est la nouvelle d'Albert Camus qui ouvre son recueil l'Exil et le royaume, publié en 1957: «la Femme adultère». C'est l'histoire d'une femme, Janine, qui accompagne son mari, Marcel, voyageur de commerce, dans une tournée dans le Sud algérien. Ma première hypothèse est que, face aux deux protagonistes, les habitants du Sud apparaissent non comme des personnages distincts mais comme un groupe homogène dont se détachent parfois partiellement certains membres. J'établis donc les étiquettes suivantes: «J:» pour Janine, «M:» pour Marcel, «C:» pour les habitants dans la mesure où ils forment un groupe aux caractéristiques communes, et «I:» pour les habitants décrits comme des individus.

A la fin de la nouvelle, l'héroïne revient seule, dans la nuit, sur une terrasse faisant face au désert. Elle vit alors une expérience érotique ou mystique d'union avec la nature (d'où le titre). On a parlé d'«extase» et d'«illumination» (7). Ma seconde hypothèse est que, tout au long du récit, la nature (au sens large de tout ce qui n'est pas l'univers humain: le désert, le vent, le ciel), au même titre que le groupe des habitants, est un actant plus ou moins individualisé. Je vais donc étiqueter les phrases qui mettent en scène la nature en distinguant celles dans lesquelles la nature est personnalisée (étiquette «P:») et celles dans lesquelles elle ne l'est pas (étiquette «N:»). Ce système simple mis en place, le travail du chercheur commence véritablement en une relecture du corpus s'appuyant sur une annotation en deux colonnes: la première pour les étiquettes et leur justification (mot extrait du texte, par exemple), la seconde pour les remarques ou les idées adjacentes. La première phrase, par exemple, «Une mouche maigre tournait, depuis un moment, dans l'autocar aux glaces pourtant relevées», m'amène à noter dans la colonne intitulée «Actants»: «P: mouche maigre», et dans la colonne «Remarques»: «Symbole de la mouche enfermée».

Une fois l'annotation réalisée, je vais dupliquer cette feuille Excel pour effectuer des filtrages et des tris. La colonne d'annotation principale, ici dénommée «Actants», contient sans doute des cellules vides puisque je n'ai étiqueté que les phrases qui me paraissaient intéressantes. Or l'outil «Filtres complexes» d'Excel ne fonctionne que sur des colonnes pleines. Je dois donc d'abord effectuer un premier filtrage pour éliminer les cellules non utilisées. Pour activer le filtre dans une colonne, je sélectionne celle-ci en cliquant sur son en-tête (la lettre qui identifie une colonne dans une feuille Excel) et j'ouvre le filtre automatique («Données / Filtrer / Filtre automatique»); pour fermer le filtre, on suit le même chemin et on enlève la coche de «Filtre automatique». L'icône du filtre se place dans la cellule titre de la colonne (titre qui est donc indispensable). Je clique sur cette icône (une petite flèche descendante) pour ouvrir un menu qui contient un certain nombre de commandes ainsi que la liste de tous les contenus de la colonne. En bas de cette liste, je choisis «Non vides», ce qui réduit ma feuille en éliminant toutes les lignes signalées par des cellules vides dans la colonne de filtrage. Cette feuille filtrée va devenir ma base de travail; je vais donc la dupliquer le nombre de fois nécessaire.

Dans la première de ces feuilles, je clique à nouveau sur l'icône de filtre et sélectionne «Personnalisé» pour ouvrir la boîte de dialogue «Filtre automatique personnalisé». Je clique sur la flèche descendante du premier filtre pour choisir le critère de filtrage, par exemple «contient»; dans la case adjacente j'inscris le contenu désiré (ou je sélectionne un contenu par la flèche descendante). Je choisis l'opérateur «ET» ou «OU». Je répète la procédure pour le second filtre. Par exemple, pour obtenir toutes les phrases où apparaissent ensemble les personnages Janine et Marcel (marqués «J:» et «M:»), la formule est: «contient J: ET contient M:». Pour obtenir toutes les phrases où Janine apparaît sans son mari, la formule serait: «contient J: ET ne contient pas M:». La figure 9 est une photographie de la boîte de dialogue à l'étape présente.

Figure 9. Filtre complexe.

 

Considérons maintenant l'opposition entre les deux visiteurs et les habitants du Sud. La requête «contient C: ET contient I:», nous donnera toutes les phrases notées comme intéressantes dans la description des personnages secondaires. Deux requêtes simples avec «C:» et «I:» fourniront des listes distinctes permettant d'évaluer mon hypothèse de l'indifférenciation relative de ces actants. Dans les colonnes ainsi filtrées, un nettoyage produira des listes des indices que le chercheur a placés durant sa lecture, nous aurons ainsi extrait du corpus les qualifications des personnages qui appuient l'hypothèse de l'indifférenciation et celles qui vont dans le sens de l'individualisation. Pour ce faire, on sélectionne la colonne contenant les balises «C:» puis, par une série de recherche-remplacement (Ctrl+F, onglet «Remplacer») dans laquelle on laisse la case «Remplacer par» vide, on élimine tout ce qui n'est pas qualification de «C:». On procédera de la même manière pour obtenir la liste des qualifications de «I:».

L'étude de ces listes nettoyées - telles quelles - permettra, premièrement, de juger de la présence de ces qualifications au fil du texte puisque cette colonne de qualifications se déroule parallèlement à celle qui contient le corpus. Deuxièmement, un tableau croisé dynamique demandé à Excel à partir de chacune de ces listes permettra une certaine évaluation chiffrée de ces qualifications; à condition de ne pas oublier que ce qui sera alors compté, ce ne sont pas des occurrences textuelles mais les extractions effectuées par le chercheur. Troisièmement, un classement quantitatif pourra être réalisé par un tri effectué sur les chiffres du tableau croisé (les données doivent d'abord être recopiées du tableau croisé par copier-coller; puis on clique sur les boutons «Tri croissant» ou «Tri décroissant», ou on clique sur l'icône de filtre puis sur «Tri croissant» ou «Tri décroissant» qui apparaissent en tête de menu).

Nous constatons ainsi qu'effectivement, les habitants du Sud sont décrits le plus souvent comme une masse assez indifférenciée: tous sont enveloppés de «burnous», tous ont un visage «maigre» et «fier», souvent on ne voit que leurs yeux ou leurs mains; ce sont «des Arabes», «des bergers», «des nomades». Les personnages qui se distinguent individuellement appartiennent malgré tout à ce groupe: l'un est «un vieil Arabe» qui les sert, l'autre «un vieil Arabe» marchand, le troisième «un grand Arabe» prétentieux; les Français, un soldat, le patron de l'hôtel, sont intégrés à ce monde. Aucun de ces personnages ne porte de nom propre. Mais tous paraissent adaptés à cet univers et satisfaits de leur condition. Cette description traduit le malaise de Janine et de Marcel: ce sont eux les «étrangers». Toutefois, contrairement à Meursault, le héros du roman de Camus, ils sont étrangers non à une société absurde mais à un monde rude et plein: l'oasis pour ses habitants, le désert pour les nomades est un «royaume» que Janine reconnaît comme une réponse à un manque qui la mine.

J'ai composé cette analyse rapide à partir des listes de qualifications des personnages extraites par mes soins puis classées et triées par Excel. Cette première utilisation de mes listes est fondée sur un choix de termes ou de phrases qui m'ont semblés symptomatiques. L'analyse pourrait être développée en nuançant l'opposition «commun / individuel» qui la structure et en l'étayant de citations pertinentes (la colonne texte demeure toujours à portée de copier-coller). Mais si certaines de ces qualifications des personnages sont particulièrement récurrentes, un graphique contribuera à clarifier la démonstration. Par exemple, j'ai composé le graphique ci-dessous en demandant à Excel deux «graphiques à barres» (histogrammes horizontaux) et en accordant des valeurs négatives à une des deux séries de données.

Figure 10. Oppositions.

Les valeurs négatives ne sont qu'un artifice de présentation permettant de visualiser une relation divergente entre deux séries de constations: ici d'un côté les qualifications qui brouillent l'individualisation, de l'autre la présence de personnages individualisés mais peu différenciés.

Ma seconde hypothèse sur «la Femme adultère» portait sur la personnification de la nature dans cette nouvelle. En procédant comme nous l'avons vu précédemment, deux requêtes simple sur les étiquettes «N:» et «P:» permettront d'étudier le phénomène. La requête complexe «contient J: ET contient P:» extraira du corpus toutes les phrases mettant en présence les deux actants et en particulier celles de l'union finale entre Janine et la nuit étoilée. L'analyse suivra, illustrée de graphiques si nécessaire.

Je voudrais clore cette section en disant un mot des diverses catégories d'outils d'illustration qu'offre Excel. Je distinguerai les graphiques, les tableaux et les graphismes. Les graphiques sont des illustrations visuelles créées par Excel à partir de séries de données source chiffrées. Nous en avons vu plusieurs types, l'histogramme est le plus fréquent. Les tableaux sont des listes de données textuelles ou numériques créées par le chercheur. Les graphismes sont des illustrations visuelles non fondées sur des données chiffrées.

Arrêtons-nous à la composition d'un tableau destiné à illustrer la personnification de la nature dans notre corpus. Les filtres m'ont fourni, après nettoyage, une liste d'extraits textuels où j'avais reconnu une forme de cette figure de rhétorique: verbe d'action, partie du corps humain, qualification humaine. Pour composer mon tableau, je vais d'abord réduire ma feuille filtrée aux deux colonnes qui m'intéressent, celle de la numérotation des phrases et celle des extraits, à l'aide de la commande «Figer les volets» du menu «Fenêtre». Puis, par copier-coller, je vais disposer le contenu de cette feuille réduite, en une, deux ou trois colonnes (dépendant du nombre d'extraits et de leur longueur). Une fois le contenu du tableau disposé de manière pratique, je prépare les en-têtes: titre de chaque colonne, police, position du texte, couleur de remplissage: la commande «Format / Cellule» ouvre une boîte de dialogue où l'on trouve tous les outils nécessaires sous les onglets «Police», «Alignement» et «Motifs». La barre de mise en forme contient aussi des commandes utilisables. La mise en forme peut porter sur une ou plusieurs cellules (il suffit de les sélectionner). Enfin, sous l'onglet «Bordure» de la même boîte de dialogue «Format de cellule», je trouve l'outil permettant de tracer un cadre autour de mon tableau et autour de chaque cellule: on sélectionne l'ensemble des cellules du tableau, on ouvre l'outil «Bordure», on choisit le type de cadre extérieur («Lignes») et on l'applique («Présélections / Contour»); même procédure pour les lignes intérieures du tableau (d'abord «Lignes» puis «Présélections / Intérieur»). La figure 11 présente une réalisation de cet exercice.

Figure 11. Tableau des marques de personnification de la nature.

 

La boîte de dialogue de création de graphismes s'atteint, quant à elle, par la commande «Insertion / Diagramme» ou par le bouton «Diagramme» de la barre de dessin («Affichage / Barres d'outils / Dessin»). Les graphismes, dans le domaine qui nous occupe, sont des interprétations libres des résultats d'une analyse, destinées à clarifier visuellement des relations, par exemple entre des personnages, des idées ou des séries de données. Excel, par le bouton «Diagramme», propose un groupe de graphismes prédéfinis parmi lesquels l'organigramme hiérarchique et le diagramme pyramidal me paraissent intéressants pour organiser ses idées ou pour traduire des liens de dépendance entre les éléments d'une démonstration.

Le diagramme de Venn, de son côté, permet de visualiser des recoupements entre des séries de données. Il est constitué d'un nombre variable de cercles (ou d'autres surfaces plus complexes) - chaque cercle représentant une série - dont les intersections symbolisent les éléments communs entre ces séries. La figure 12 présente le cas minimal du recoupement entre deux séries de données.

Figure 12. Diagramme de Venn.

Considérons, par exemple, la série constituée par l'ensemble des phrases de «la Femme adultère» où j'ai reconnu la présence d'une personnification de la nature (marquées «P:» précédemment) et celle des phrases où j'ai vu la nature mais non personnifiée (marquées «N:»). Le corpus contient sans doute, parmi ces phrases, certaines où l'on peut lire à la fois une nature personnifiée et une nature non personnifiée (les cellules d'analyse de ces phrases possèdent les deux balises «P:» et «N:»). Ces deux ensembles peuvent donc se subdiviser en trois sous-groupes («P:», «N:» et «P: ET N:») et donc cinq sous-ensembles («P: ET N:», «P: SANS N:»,  «N: SANS P:», «P: + P: ET N:», N: + P: ET N:» (ce que représente le diagramme ci-dessus).

On réalise que le maniement de toutes ces séries de phrases dans une démonstration écrite peut facilement devenir confus pour le lecteur. Et nous sommes encore au niveau minimal du recoupement de deux séries de données. Dès qu'on passe à trois séries (par exemple si j'avais inventé une troisième étiquette pour définir les phrases sur la nature), on comprendra que la poursuite d'une analyse rigoureuse (contrôle de la logique des requêtes multiples) de même que celle d'une explication écrite claire deviennent extrêmement difficiles. C'est alors qu'un diagramme comme celui de Venn pourra apparaître comme une aide appréciable. Excel fournit, d'une part, un outil semi-automatique pour créer un diagramme de Venn avec le nombre de cercles désirés. D'autre part, Excel, à travers les boutons de la barre de dessin, permet de tracer des formes géométriques (des cercles dans ce cas-ci) avec beaucoup de liberté: grandeur, couleur, position relative des figures (possibilité donc de produire des cercles proportionnels aux séries). J'ajouterai enfin que cette barre de dessin contient le bouton «Zone de texte» qui permet de placer, à l'intérieur de n'importe quel graphisme ou n'importe quel graphique, les informations supplémentaires que souhaite le chercheur.

 

bullet

IV – L'Ampleur des phrases

Afin de présenter de nouveaux exemples des capacités d'Excel dans la création de graphiques, je vais choisir un corpus de type différent: un essai. Soit le discours qu'Albert Camus a prononcé en Suède lorsqu'il a reçu le prix Nobel de littérature, le 10 décembre 1957. On a reproché à Camus d'avoir pris un ton moralisateur dans la dernière partie de sa vie: phrases plus amples, vocabulaire abstrait, oppositions rhétoriques. Examinons ce qu'il en est dans ce discours ou, du moins, arrêtons-nous à quelques aspects simples de la question, dans le but de les illustrer.

Un premier point à considérer lorsqu'on étudie l'art oratoire d'un auteur est évidemment la longueur de ses phrases. Un logiciel comme Cordial fournit automatiquement, entre autres statistiques, la longueur moyenne des phrases d'un corpus. Sur le «Discours de Suède», Cordial confirme l'impression de la critique: avec une moyenne de 26,6 mots par phrase, ce texte contient des phrases deux fois plus longues que celles du corpus littéraire de référence (13,7 mots par phrases) et même plus longues que celles du corpus juridique de référence (20,4). Si je place maintenant ce texte de Camus dans une feuille Excel, je serai en mesure d'étudier cette question de plus près. On a vu que, pour qu'Excel calcule le nombre de mots dans une cellule, il fallait lui fournir une formule ad hoc, qui est ici:
«=NBCAR(SUPPRESPACE(B2))-NBCAR(SUBSTITUE(B2;" ";""))+1».
Cette formule reproduite par la poignée de recopie parallèlement à la colonne texte («B») fournira une colonne «C» de nombres qui deviendront la source d'un graphique de type histogramme ou courbe. Ce graphique permettra de visualiser l'évolution de la longueur des phrases dans le texte étudié. Cette longueur est-elle constante? évolue-t-elle en fonction du sujet traité? augmente-t-elle suite à un emportement de l'orateur? La figure 13 présente les chiffres obtenus sous forme histogramme.

Figure 13. Histogramme et moyenne mobile.

 

On constate qu'évaluer l'évolution d'un phénomène en suivant la progression de la série de bâtonnets constituant l'histogramme, n'est pas tâche facile: le détail des données, phrase par phrase, masque les mouvements d'ensemble. Toutefois, Excel fournit un instrument permettant de mieux juger, ce sont les courbes de tendance. On n'a qu'à sélectionner le graphique d'un clic et demander à Excel de superposer à l'histogramme une courbe de «moyenne mobile» («Graphique / Ajouter une courbe de tendance / Moyenne mobile»). C'est la ligne rouge de l'histogramme précédent. Dans la boîte de dialogue «Courbe de tendance», après avoir choisi «Moyenne mobile», on détermine la «période» sur laquelle Excel va effectuer ses calculs, c'est-à-dire le nombre de phrases prises en considération chaque fois: la «période 5» choisie ici demande à Excel de faire une première moyenne à partir des cinq premières phrases, puis à partir des phrases 2 à 6, puis à partir des phrases 3 à 7, et ainsi de suite. Plus la période est brève, plus la courbe de tendance suit les données, plus la période est longue plus la courbe traduit une évolution générale.

Si on désire simplement obtenir une indication de l'évolution globale du phénomène, on demandera à Excel de calculer une «tendance linéaire», ce qu'illustre la figure 14.

Figure 14. Courbe et droite de tendance.

Les données source sont les mêmes que précédemment (numéro des phrases en abscisse, nombre de mots en ordonnée) mais les données sont présentées cette fois-ci sous forme de courbe. La droite de tendance (en rouge, ici positive) traduit visuellement une augmentation globale (la droite monte) ou une diminution du phénomène étudié (la droite descend). Son angle par rapport à l'horizontale (une droite horizontale exprimerait une évolution nulle) traduit l'importance de cette évolution globale du début à la fin du corpus.

Une fois ce travail réalisé à propos de la longueur des phrases, le chercheur peut se pencher sur les procédés caractéristiques d'un style oratoire. Rythme des phrases, structuration grammaticale et logique, enchaînements des raisonnements, ruptures logiques ou dramatiques, etc. Pour ce faire, il définira des colonnes d'annotation dédiées à chacune des catégories de procédés étudiés. Puis, une relecture attentive sera l'occasion d'extraire du corpus les éléments significatifs et d'enregistrer, au fil du texte, les commentaires pertinents. Une analyse de la structuration des phrases en propositions grammaticales pourra être indispensable. L'analyse de la syntaxe procurée par Cordial me paraissant très peu pratique, on sera peut-être réduit à une extraction «à la main» des articulations logiques et grammaticales: coordonnants, subordonnants, relatifs, adverbes de raisonnement, d'opposition, de restriction, etc. Ces articulations pourront être ensuite traitées par Excel, par des tris, des filtres et des tableaux.

A la lecture du «Discours de Suède», en fait, j'ai été moins frappé par les procédés mentionnés ci-dessus que par le fait que les phrases progressent par adjonction d'éléments juxtaposés et que les subordonnées sont souvent de simples conjonctives objet ou des relatives. Ce qui, d'après moi, pourrait être la marque d'une pensée prudente, qui se cherche avec humilité. Je vais donc ici me contenter de deux recherches élémentaires: une première sur le nombre de virgules et une seconde sur le subordonnant «que». Chiffrons ces deux éléments stylistiques pour tenter de les mettre en parallèle avec l'ampleur des phrases que nous avons déjà calculée.

Compter les virgules dans le corpus, phrase par phrase, est un cas particulier d'une requête plus générale: demander à Excel de compter les occurrences d'un caractère dans une cellule. Les applications de la formule suivante peuvent donc être multiples:
«=NBCAR(B2)-NBCAR(SUBSTITUE(B2;",";""))» (8).
Cette formule affiche le nombre de virgules contenues dans la cellule B2. Je l'ai placée dans la cellule D2 puis reproduite jusqu'à la fin du texte par la poignée de recopie. Compter les occurrences d'un mot est un peu plus difficile; un mot, pour Excel, est une chaîne de caractères délimitée par des espaces. La formule suivante accomplira cette tâche en comparant le contenu de la cellule B2, de la colonne texte, à celui d'une cellule de référence contenant le mot visé:
«=(NBCAR(B2)-NBCAR(SUBSTITUE(B2;$E$1;"")))/NBCAR($E$1)» (9).
J'ai créé, en «E», une colonne «Que» pour compter les occurrences de ce mot. La formule compare le contenu de la cellule B2 à celui de la cellule E1. Cette cellule contient donc les lettres du mot «que» précédées et suivies d'un espace (sans quoi Excel compterait toutes les occurrences de la chaîne «que» y compris les parties de mots). Remarquer que la cellule de référence est inscrite dans la formule par le code «$E$1». En effet, il va être nécessaire de reproduire la formule tout au long du texte par la poignée de recopie; cependant, lorsqu'on utilise la poignée de recopie, Excel adapte automatiquement la formule à son nouveau contexte. Puisqu'on désire que la cellule de comparaison demeure toujours E1, on doit donc lui donner des «références absolues», ce que traduit le signe dollar devant chacune des coordonnées de la cellule.

Je définis enfin une dernière colonne dans laquelle je vais placer une formule de somme afin d'additionner, pour chaque phrase, tous les procédés caractéristiques que j'ai tirés des phrases du corpus (ici les virgules et les «que»). Cette formule,
«=SOMME(D2:E2)»,
sera, comme la précédente, reproduite jusqu'à la fin du texte, par la poignée de recopie. La figure 15 présente le début de la feuille Excel du «Discours de Suède». Les colonnes qui suivent la colonne texte sont celles de la longueur des phrases (Lg), du nombre de virgule (Vg), du nombre de «que» et du total de ces deux dernières (Tt).

Figure 15. Début de l'analyse du «Discours de Suède».

 

Les totaux de traits et procédés rhétoriques auxquels nous arrivons sont sans doute liés à la longueur des phrases. Il serait intéressant de le vérifier en plaçant ces chiffres dans un même graphique à côté des longueurs de phrases. Un histogramme ou une courbe (double puisqu'on a deux séries de données) fera l'affaire. Il ne s'agit pas d'additionner deux séries d'objets hétérogènes, comme des pommes et des oranges, mais de comparer deux phénomènes concomitants. Le problème est que les échelles des deux phénomènes sont passablement éloignées: les longueurs de phrases s'étalent entre 4 et 79 mots tandis que les occurrences des procédés relevés varient de 0 à 13: avec un graphique tel que nous en avons vu, la courbe des occurrences serait à peine discernable de l'axe des abscisses. La solution est de demander à Excel de dessiner un graphique comprenant deux axes d'ordonnées indépendants: le logiciel saura adapter automatiquement les échelles pour que les deux courbes soient bien visibles.

On sélectionne donc (d'un clic dans l'en-tête de chaque colonne) les données «longueurs des phrases» et les données «totaux des procédés», puis on ouvre l'assistant graphique («Insertion / Graphique»). Dans la fenêtre qui apparaît, on clique sur l'onglet «Types personnalisés» où l'on découvre une nouvelle liste de graphiques, plus complexes, parmi lesquels on peut choisir entre «Courbe-Histo. 2 axes» et «Courbes à deux axes». Enfin, on suit les étapes habituelles de la création d'un graphique. Si on désire un histogramme double à deux axes, une façon rapide de faire est de choisir «Courbe-Histo. 2 axes» puis, dans le graphique créé, de sélectionner la courbe d'un clic droit et, dans le menu contextuel qui s'ouvre, de choisir «Type de graphique» et «Histogramme»: Excel remplace la courbe par un second histogramme. C'est ainsi que j'ai obtenu le graphique de la figure 16.

Figure 16. Graphique à deux axes d'ordonnées.

 

Il nous reste maintenant à placer par-dessus ce graphique des courbes de tendance. On ouvre, d'un clic droit sur la première série, le menu contextuel de celle-ci; on choisit «Ajouter une courbe de tendance» puis «Moyenne mobile»; on détermine la «période» de la moyenne et on complète par «OK». On procède de la même manière pour la seconde série de données. Dans le graphique de la figure 17, j'ai préféré dessiner un graphique avec deux courbes et deux axes d'ordonnées avant de demander les deux courbes de tendance auxquelles j'ai attribué une période de 10.

Figure 17. Comparaison des tendances.

Si on étudie maintenant les deux courbes de tendance, on constate qu'elles sont parallèles, ce qui démontre la relation entre les deux phénomènes étudiés (10).

 

bullet

V – Conclusion

Mon ambition, en proposant cette méthode d'analyse en tableaux, a été d'encourager l'utilisation de l'ordinateur dans l'étude des textes littéraires. Les logiciels spécialisés en analyse de texte paraissent, je le crains, passablement complexes dans leur utilisation et opaques dans leur fonctionnement, à maints chercheurs en littérature. On me rétorquera peut-être que l'usage que je fais d'Excel peut lui aussi apparaître compliqué (même si je me suis efforcé de donner le détail des procédures et que j'ai été attentif à la gradation des difficultés au fil de ces trois articles). La différence est, je crois, que, dans l'utilisation d'un logiciel de traitement de texte ou d'un tableur pour l'analyse d'un corpus littéraire, le chercheur est obligé d'inventer la procédure d'analyse qu'il suivra et que, par là, cette procédure lui devient transparente.

La mise en tableau d'un corpus impose une démarche plus systématique dans l'étude du texte littéraire, par rapport à une approche impressionniste fondée sur le souvenir du texte global et la mise en avant d'extraits jugés représentatifs. Elle amène naturellement à travailler sur l'ensemble du texte, à chiffrer les résultats des analyses humaines et, en fonction des capacités du logiciel utilisé, à en tirer des statistiques et des illustrations graphiques. Une feuille d'Excel constitue un espace de travail ouvert et structuré. Le chercheur peut ajouter, à volonté, de nouvelles colonnes d'annotations, de commentaires, d'extractions ou de calculs. Il est maître de sa démarche, il peut adapter l'outil informatique à ses besoins (plutôt que de devoir se plier aux possibilités d'un instrument spécialisé). En revanche, le logiciel, pour produire des résultats, lui impose d'être rigoureux dans ses hypothèses, ses méthodes, sa progression.

J'ai commencé à travailler à cette méthode d'analyse en créant des tableaux dans le logiciel de traitement de texte WordPerfect. Le logiciel Word offre, lui aussi, de nombreux outils. Toutefois, un tableur comme Excel ouvre à l'imagination du chercheur littéraire une infinité de possibilités; je considère n'avoir fait ici qu'entrouvrir la porte d'un domaine immense. Sur l'Internet, de nombreux chercheurs proposent des procédures et des formules que chacun, et le littéraire ne devrait pas s'en priver, peut adapter à ses besoins. Ces propositions traitent de comptabilité ou de sondages sociologiques, il n'est pas difficile de les «détourner» vers les études littéraires.

La mise en tableau d'un texte littéraire permet de travailler sur ce corpus en plaçant côte à côte texte et annotations, source et résultats, la recherche progressant dans un aller-retour entre texte et réflexion. Elle permet de travailler sur des corpus trop vastes pour la mémoire humaine, ou sur des séries de données (extraits du corpus, balises ou chiffres) trop importantes pour être traitées «à la main». Elle permet de situer l'étude à des niveaux autres que lexicaux, d'étayer l'analyse humaine sur des statistiques et de l'illustrer par des graphiques. La mise en tableau du texte littéraire, en fait, est moins une méthode que l'espace de travail où chaque chercheur peut et doit inventer sa méthode d'analyse, et ce en toute liberté, pourvu qu'il le fasse méthodiquement.

 

bullet

Notes

1 – Voir dans l'Astrolabe: «L'Analyse par tableaux. I – Principes» et «l'Analyse par tableaux. II – Applications à la poésie».

2 – Voir dans l'Astrolabe: «L'Analyse par tableaux. I – Principes».

3 – 1847. La ponctuation de ce texte est complexe, on y trouve en particulier de nombreux tirets. Texte électronique obtenu de la Bibliothèque de Lisieux:
http://www.bmlisieux.com

4 – Pour le détail de la création de formules et pour la fonction «NBVAL», je renvoie le lecteur aux articles précédents.

5 – Cette formule fournit le nombre de mots dans la cellule A1. La formule établit le nombre de suites de signes séparées par des espaces; elle supprime les espaces doubles et fait la différence entre le nombre total de signes, espaces compris, et le nombre de signes sans espaces. J'avais supprimé au préalable, dans ma toilette du texte, tous les espaces avant ponctuation, sauf le tiret; un tiret compte donc ici pour un mot, «statu quo» pour deux mots. Le résultat, discutable, demeure valable pour une comparaison.

6 – Pour le détail de cette procédure, voir «l'Analyse par tableaux. II – Applications à la poésie».

7 – Peter Cryle, Bilan critique: l'Exil et le Royaume d'Albert Camus, Paris, Lettres modernes Minard, 1973, p. 46.

8 – Formule extraite de l'ouvrage de John Walkenbach, Trucs et astuces Excel, Paris, Editions First Interactive, 2005, p.229. La formule recherche le caractère placé entre les deux premiers guillemets, ici une virgule.

9 – Formule extraite de John Walkenbach, op.cit., p. 229. Cette formule est plus simple que d'autres mais «sensible à la casse» (de même que la formule précédente).

10 – Pour modifier la légende d'une courbe de tendance, faire un clic droit sur celle-ci et, dans la boîte de dialogue «Format de la courbe de tendance», sélectionner «Options» puis «Personnalisé»: entrer le nouvel intitulé.

 

2008

 

 

Voir dans l'encyclopédie de l'Astrolabe:

L'Analyse par tableaux. I - Principes

L'Analyse par tableaux. II - Applications à la poésie

Visualisation scientifique et analyse de texte