Le Thème littéraire à l’épreuve de l’ordinateur

de Michel Lemaire

Université d'Ottawa (Canada)

 

 

Un essai de définition

La question fondamentale qui se pose à l’étude de la méthodologie de l’analyse thématique assistée par ordinateur est la suivante: dans quelle mesure le thème est-il inscrit dans le texte? dans quelle mesure, autrement dit, le thème peut-il être ramené à un certain nombre d’éléments textuels - mots, expressions, phrases - qui pourront être traités et comptabilisés par l’ordinateur? La réponse à cette question dépend de la définition que l’on accorde au thème.

Selon la définition choisie, l’objet recherché sera différent et donc sera différente la tâche demandée à l’ordinateur. Si on définit le thème comme une liste de mots, ou du moins si on considère qu’une liste d’éléments textuels recouvre l’essentiel d’un thème, on construira une procédure de recherche et de traitement des mots et expressions de la liste. La démarche sera donc d’abord de constituer une liste pertinente, de confronter cette liste au corpus à l’étude puis de traiter statistiquement les résultats de cette confrontation. Si on considère que le thème n’est pas recouvert par une liste de mots extraits du texte, que l’extension du thème est plus grande que toute liste possible, que l’essentiel du thème est au-delà des mots du texte, la démarche devra être autre. Les occurrences textuelles extraites par l’ordinateur à partir de la liste ne pourront fournir que des données fragmentaires sur le thème étudié, peut-être significatives mais jamais définitives. Il faudra alors imaginer d’autres procédures pour explorer le thème dans sa globalité et sa complexité.

La plupart des auteurs étudiant la thématique commencent par se lamenter sur la difficulté de définir le thème. Même Jean-Pierre Richard doit avouer: «Qu’est-ce qu’un thème? Rien, semble-t-il, de plus fuyant et de plus vague... Comment en fixer les contours? Comment en dégager l’essence?» (p. 24) Je ne me lancerai pas à nouveau dans une longue discussion sur les divers sens et usages du mot thème, et je citerai deux extraits de l’article «Thème» du Trésor de la langue française qui, je crois, permettront de cerner la question, dans le domaine littéraire du moins. Le TLF distingue deux sens importants de thème, d’une part comme «Idée, sujet développé dans un discours, un écrit, un ouvrage», et d’autre part comme «Unité de contenu (d'un discours, d'un texte ou d'une oeuvre littéraire) correspondant à des constantes de la symbolique et de l'imaginaire.» On reconnaît d’une part le thème de l’amour dans un roman ou celui de la démocratie dans un essai politique, et d’autre part le thème de l’eau dans la poésie ou celui de l’argent chez Balzac.

Ces deux définitions ne s’opposent pas de manière exclusive; elles constituent plutôt des pôles entre lesquels peut se ranger la multitude des thèmes étudiés. L’échelle constituée va du plus général et du plus abstrait, au plus particulier et au plus concret: le thème de la femme est moins abstrait que celui de l’amour, mais plus que celui de la chevelure ou des bijoux, pour se situer dans un contexte baudelairien. Cependant, même s’il s’agit d’une question de degrés, je crois intéressant d’établir une distinction entre thème abstrait et thème concret, distinction que j’utiliserai plus tard.

D’autre part, cette définition flexible du thème s’inscrit à l’intérieur d’une série de termes connexes dont je retiendrai deux: le sujet et le motif. Pour être simple, je définirai ces trois termes dans une relation d’inclusion: le sujet est plus vaste, il contient des thèmes qui, à leur tour, se réalisent en divers motifs. Le sujet est unique à l’oeuvre, il la définit, il se cache derrière son titre, il est «ce dont parle le texte», ce dont il traite. Le thème est une dimension sémantique du texte, il est aussi «ce dont parle le texte», mais d’une autre manière, le texte ne «traite» pas d’un thème (sauf un essai d’analyse thématique); et le thème peut aussi ne pas être «ce dont parle le texte», présent mais marginal. Le motif est un élément concret récurrent, un objet, par lequel le thème s’inscrit dans le texte. On le voit ces définitions ne sont pas plus exclusives que celles de thème abstrait et de thème concret. A une extrémité, l’amour est-il le sujet ou le thème de tel ou tel roman? Les deux se diront. A l’autre, l’oiseau est-il un motif du thème de la liberté ou de l’élévation spirituelle, ou un thème concret? Cela dépendra du point de vue. Et si le thème apparaît ici inclus dans le sujet d’une oeuvre, nous verrons qu’il est aussi plus large que l’oeuvre dans la mesure où, par l’intertextualité, il rejoint d’autres oeuvres.

Définir le thème comme «ce dont parle le texte», «l’à-propos-de» (en anglais aboutness) me paraît insuffisant parce que l’à-propos-de est une notion équivoque. Il s’agit pourtant d’une définition courante, définition d’où partent, par exemple, la majorité des auteurs du numéro de la revue Poétique intitulé «Du thème en littérature». Ainsi, Shlomith Rimmon-Kenan ouvre son article, «Qu’est-ce qu’un thème?», le premier du numéro, par la phrase: «Le thème, chacun le sait, est ce à propos de quoi l’ouvrage littéraire est écrit» (p. 397) (1). En 1994, Michel Bernard intitule De quoi parle ce livre? l’ouvrage dans lequel il explique l’«Elaboration d’un thésaurus pour l’indexation thématique d’oeuvres littéraires». Cette définition peut convenir au thème linguistique mais elle ne couvre pas les diverses acceptions du thème littéraire. L’à-propos-de ne distingue pas ce qui simplement se trouve dans le texte et ce que le texte développe, poursuit, recherche, de manière plus ou moins structurée; ce qui fait partie de la trame sans en être le fil et ce fil qui dessine une figure; ce qui est significatif et ce qui constitue le sens du texte.

Etudier, par exemple, le thème de la neige ou de l’arbre dans la poésie québécoise ne veut pas dire étudier uniquement les poèmes qui «parlent» de la neige, qui sont «à propos» des arbres, ce serait restreindre gravement le corpus; dans beaucoup d’autres poèmes, on s’apercevra qu’«il y a» de la neige ou des arbres, que cette présence est significative et que ces textes doivent être inclus dans l’étude. Or ce thème «dont ne parle pas» le texte est celui qui se situe le plus près du pôle concret de notre échelle précédente. On peut ainsi, - pôle concret -, étudier la thématique des couleurs dans la Recherche du temps perdu; mais l’oeuvre de Proust ne «parle» pas des couleurs. Tandis que - pôle abstrait - le temps dans la Recherche est à la fois un des sujets de l’oeuvre et l’un des thèmes dont «parle» l’oeuvre.

Le thème n’est pas «traité» par le texte, ce n’est pas un «énoncé» (Rimmon-Kenan, p. 399). «Le thème littéraire n’est pas une donnée textuelle mais une construction» (Bernard, p. 180). Cette construction est édifiée par le lecteur à partir d’éléments textuels: «[...] le thème est une construction (une construction conceptuelle, pour être plus précise) élaborée en réunissant des éléments discontinus prélevés dans le texte» (Rimmon-Kenan, p. 402). Au fil de la lecture, le lecteur remarque la récurrence de mots, d’images ou de situations qui lui paraissent faire système. Plus ces éléments sont semblables les uns aux autres, plus ils sont fréquents, plus ils sont reliés ou proches, et plus le thème sera évident. Si le thème est une construction du lecteur, il s’établit sur et est contenu par les éléments textuels remarqués. La différence entre le lecteur et l’ordinateur dans le traitement de ces éléments se situera au niveau de la compétence: le lecteur sera plus habile pour reconnaître les ressemblances ou les liens, sa culture lui permettra d’établir d’autres liens avec d’autres textes et ainsi de distinguer et de catégoriser plus précisément le thème; mais l’ordinateur, lui, ne manquera aucune des occurrences et établira plus aisément des relations lointaines dans le texte.

Mais cette «opération intellectuelle d’extraction du thème» (Bremond, p. 416) n’est pas la simple addition d’occurrences multiples. La découverte du thème est la reconnaissance que ces occurrences constituent un système, un organisme, vivant dans le texte, en sous-main. Jean-Pierre Richard, maître incontesté de l’analyse thématique, explique:

Le repérage des thèmes s’effectue le plus ordinairement d’après le critère de récurrence: les thèmes majeurs d’une oeuvre, ceux qui en forment l’invisible architecture, et qui doivent donc pouvoir nous livrer la clé de son organisation, ce sont ceux qui s’y trouvent développés le plus souvent, qui s’y rencontrent avec une fréquence visible, exceptionnelle. La répétition, ici comme ailleurs, signale l’obsession. (p. 24-25)

Cependant:

Le critère de fréquence n’est d’ailleurs pas le seul qui permette de dégager les thèmes dominants d’une oeuvre. Car l’itération n’a pas toujours valeur signifiante; ou elle ne signifie pas toujours l’essentiel. Plus importante peut-être est la valeur stratégique du thème, ou, si l’on préfère, sa qualité topologique. (p. 25-26)

Si le thème est construit par le lecteur, c’est à la manière du chemin du Petit Poucet, tracé par les multiples pierres blanches posées par l’auteur. Et tous ces indices nous renseignent sur «l’univers imaginaire» de l’auteur. C’est parce qu’ils sont les produits de «l’imagination matérielle» de l’auteur (l’expression, on le sait, est de Gaston Bachelard) qu’ils constituent un organisme vivant. Voici un exemple que Richard donne à propos de Mallarmé:

Les thèmes auront tendance à s’organiser comme dans toutes les structures vivantes: ils se combineront en des ensembles souples dominés par la loi d’isomorphisme et par la recherche du meilleur équilibre possible. [...] Dans sa rêverie de l’idée, par exemple, Mallarmé nous a paru osciller entre un voeu d’ouverture (l’idée éclatée, vaporisée en suggestion ou en silence) et un besoin de clôture (l’idée sommée, résumée en un contour et une définition). Le clos et l’ouvert, le net et le fuyant, le médiat et l’immédiat, tels sont quelques-uns de ces couples mentaux dont nous avons cru déceler la présence en des étages fort divers de l’expérience mallarméenne. L’important est alors d’apercevoir comment ces oppositions se résolvent, comment leur tension s’apaise en de nouvelles notions synthétiques, ou bien en des formes concrètes où se réalisent des équilibres satisfaisants. L’opposition du clos et de l’ouvert aboutit ainsi à certaines figures bénéfiques à l’intérieur desquelles ces deux besoins contradictoires trouvent à se satisfaire tous deux, successivement ou simultanément: par exemple l’éventail, le livre, la danseuse... (p. 26-27)

Construit par le lecteur, fondé par l’auteur, le thème n’est inventé ni par l’un ni par l’autre. Chacun n’y met que ce qu’il a trouvé ailleurs. L’auteur ne formule pas le thème, il le re-formule, lui donne un nouvel habit, une nouvelle personnalité, la sienne. Le lecteur ne découvre pas le thème par sa lecture, il le re-connaît, le re-trouve. Le thème est une donnée culturelle qui dépasse le texte où on peut le discerner (par là, il rejoint le mythe); il précède l’individu, auteur ou lecteur, qui le fait revivre par sa rêverie. Les ordinateurs ne rêvent pas encore, et leur culture est assez limitée, on ne pourra donc pas leur demander de nous aider à cette étape de la recherche. Mais si le thème est un «pré-texte», selon le mot d’Eveline Martin (p. 29), s’il est un «référent», selon le mot de Claude Bremond (2), on peut imaginer que l’ordinateur pourra un jour donner au lecteur accès à une base de données de tous ces textes antérieurs où les thèmes se sont réalisés avant d’aboutir à nous.

 

Une liste d’occurrences

Actuellement, l’ordinateur ne peut donc étudier le thème littéraire dans la définition large que nous venons d’en donner. Mais si l’analyse thématique automatique n’est pas pour demain, l’analyse thématique assistée par ordinateur possède dès aujourd’hui, plusieurs outils efficaces, à l’intérieur des logiciels spécialisés d’analyse de texte. Dans son extension, le thème littéraire déborde le texte; et son inscription même dans le texte est problématique. Il n’empêche que ce thème que le lecteur reconnaît et construit à partir d’éléments textuels, représente une partie importante sinon centrale du thème. Et une fraction au moins de ce processus d’extraction du thème pourra être confiée à l’ordinateur qui fournira ainsi sinon une analyse du thème du moins des matériaux pour cette analyse.

On peut donner à l’ordinateur une série de mots qu’il recherchera dans le texte pour constituer une liste de toutes les occurrences de ces mots. Même si on considère que le thème littéraire n’est pas «composé» de mots, qu’il ne se réduit pas à une liste d’occurrences, il n’empêche qu’il est «représenté» par certains passages du texte (Prince, p. 428). Et même si les champs sémantiques des mots de cette série initiale ne recouvrent pas totalement le champ thématique (Bremond, p. 419), le recoupement entre les premiers et le second sera une source fondamentale d’informations sur le thème (3).

La conception de cette série initiale se heurte aux deux questions de l’extension du thème et de son inscription dans le texte. Prenons comme exemple l’étude du thème de la femme dans les Fleurs du mal. Qu’en est-il de l’extension de ce thème? La série initiale se limitera-t-elle au champ lexical de la femme? ou devra-t-elle s’étendre au «monde féminin»? et, plus largement, aux sentiments ressentis ou provoqués par la femme? Qu’en est-il de l’inscription du thème? Va-t-on se contenter, pour cette série initiale, de substantifs? ou inclura-t-on les pronoms personnels, par exemple? Il serait contre-productif de dépouiller une liste de tous les pronoms personnels afin de distinguer ceux qui se rapportent à la femme; et pourtant un poème entier peut parler de la femme, sans la nommer, en la désignant par des pronoms comme «tu», «elle», «la».

Cette question de l’extension du thème est un tourniquet logique. Pour bien mesurer l’extension d’un thème, il faut d’abord l’avoir analysé en profondeur, et pour bien réaliser cette analyse, il faut en connaître l’extension. Pour fournir à l’ordinateur la meilleure série de termes initiaux, il faudrait déjà savoir ce qu’on recherche. C’est l’écueil qu’Eveline Martin n’évite pas en donnant comme exemple de l’extension d’un thème, celui de l’arbre:

L’inventaire des différentes facettes sous lesquelles l’arbre peut être considéré est fort large. Il peut en effet avoir pour corrélats, par référence à sa cime air ou ciel, à ses racines terre, à sa feuillaison cycle, en tant que lieu enfant ou oiseau, par comparaison, chevelure tour, colonne, quenouille ou croix, par métaphore ami ou consolateur, par métonymie embarcation ou cercueil, par référence aux traditions noël, à l’histoire, à la Genèse serpent, bien, mal ou connaissance, avec valeur de symbole vigueur, en ce qui concerne sa constitution racine, tronc ou branche, ses espèces cèdre, charme ou cyprès, les ensembles qu’il peut constituer forêt ou futaie, ce qu’il «produit» ombre, ce dont il est l’objet taille, plantation, reboisement ou greffe, etc. (p. 23)

La série initiale doit donc contenir, en théorie, non seulement tous les lexèmes du champ lexical concerné, mais aussi tous les corrélats, mots liés à ce premier champ par une relation de ressemblance, d’analogie, d’antonymie, de métaphore, de métonymie, de synecdoque ou de tradition culturelle (4). On peut constater que, dans le cas de l’arbre, cette liste serait énorme sinon à peu près infinie; le chercheur devra donc faire un choix.

Mais contre-effet pervers de cette multitude, la liste d’occurrences obtenue par l’ordinateur à partir de cette série initiale, contiendra de nombreuses occurrences non pertinentes en raison d’homographies ou de diversités de sens. Si on reprend les termes mentionnés par Eveline Martin ci-dessus, on doit craindre que l’ordinateur ait de la difficulté à distinguer la «terre» de la planète Terre, le cycle de la végétation des cycles économiques, la taille de la grandeur, et le charme du charme féminin. Pour retrouver notre arbre, le travail d’émondage sera donc important.

Autre difficulté, une telle liste préliminaire se fonde sur le présupposé que l’inscription du thème se limite au lexique du texte. Or, bien évidemment, le sémantisme d’un texte s’inscrit aussi au niveau de la syntaxe. Et il faudra tenir compte de cette dimension du discours d’une manière ou d’une autre. Comment faire abstraction, par exemple, de la négation? Si le texte dit qu’il n’y a pas un arbre à l’horizon, doit-on malgré tout le considérer dans notre thématique de l’arbre? Si le texte dit que ce n’est pas une histoire d’amour, doit-on malgré tout enregistrer cette occurrence du mot amour dans une étude de ce thème?

Enfin, cette démarche de recherche des occurrences s’appuie sur l’idée que toute répétition est significative et donc que chiffrer la répétition d’un lexème permet de mesurer un aspect du thème. Sans doute, la répétition est significative; mais ses contraires, la présence unique (l’hapax), l’absence (le nullax), peuvent l’être tout autant, sinon plus. Comme l’écrivait Jean-Pierre Richard, la perception de la position d’un mot peut être primordiale dans l’étude d’un thème. Les lexèmes constituant un titre auront plus de poids que la plupart des mots du texte; la première phrase d’un roman, le dernier vers d’un sonnet indiqueront le thème de manière plus marquée que d’autres. La distribution des éléments recherchés à travers le déroulement du texte aura aussi son importance. Dans une histoire d’amour, les protagonistes pourront se répéter leurs sentiments, ou se dire, pour la seule et unique fois, «je t’aime», avant de sauter du haut de la falaise. Désirant étudier le thème de l’ennui dans les Choses de Perec, Eveline Martin «constate que ennui et ennuyer n’apparaissent que quatre fois dans l’oeuvre [...] alors que plus de soixante contextes illustrent l’ennui» dans le volume (p. 23).

Le non-dit du texte. Il y a bien sûr tout cet inconscient qui se dit sans vouloir être dit, nous n’entrerons pas dans ces zones psychanalytiques. Mais il y a aussi tout ce que le texte fait comprendre de manière voulue, évidente pour tout lecteur, sans le «dire». Une histoire d’amour peut crever les yeux du lecteur sans que le lexique amoureux soit présent. Des gestes, des regards, la manière de parler d’autre chose, de dire «oui» ou «non». Le lecteur le plus néophyte suivra tous ces détails; l’ordinateur n’y verra goutte. Comment lui demander de nous aider? Il faudra encore raffiner cette recherche des occurrences.

Eveline Martin ouvre son ouvrage sur la Reconnaissance de contextes thématiques dans un corpus textuel, par cette citation de la Chartreuse de Parme:

Il résolut de ne jamais dire de mensonges à la duchesse, et c'est parce qu'il l'aimait à l'adoration en ce moment, qu'il se jura de ne jamais lui dire qu'il l'aimait; jamais il ne prononcerait auprès d'elle le mot d'amour, puisque la passion que l'on appelle ainsi était étrangère à son coeur. (I, 8)

Les choses ne sont jamais simples dans un texte littéraire, je pense, par définition. Le texte non littéraire, documentaire, dit une chose; ainsi, le texte scientifique tentera de dire cette chose de la manière la plus claire et la plus simple possible: il s’efforcera d’être univoque. Le texte littéraire est toujours en train de tourner autour du pot, il dit trente-six choses en même temps et souvent de manière confuse ou masquée: il est polysémique. C’est pourquoi la définition du thème comme «ce dont parle le texte» convient bien au texte documentaire et mal au texte littéraire. Bien sûr, on peut lire un texte littéraire en tant que document, et s’intéresser à Balzac pour mieux comprendre le Paris de 1830, mais alors on ne lit plus un roman.

La littérature n’est pas affaire d’«informations». Je dirais que la littérarité d’un texte est inversement proportionnelle à sa quantité d’informations. Et l’approche littéraire du texte demande donc une autre utilisation de l’instrument informatique que celle des spécialistes de l’information. Pour être univoque, le texte documentaire s’efforce de donner un sens et un seul à chaque mot qu’il emploie. Une recherche d’occurrences à l’aide de l’ordinateur aura donc de bonnes chances de fournir une liste pertinente et complète. Le texte littéraire, qui, c’est sa nature, joue avec les mots, les détourne ou les sous-entend, fournira un taux de résultats, en conséquence, beaucoup plus faible. Si l’on accepte ce raisonnement, on devra s’attendre à ce que, dans une recherche sur le thème de l’amour, l’ordinateur sorte une liste d’occurrences plus intéressante dans le cas d’un best-seller que dans le cas d’un roman «classique», pour un roman Harlequin que pour la Princesse de Clèves.

Je poserai donc le principe suivant, hypothèse qui demandera à être vérifiée par des analyses comparatives:

L’inscription d’un thème dans un texte est inversement proportionnelle à la littérarité de ce texte.

Si l’inscription du thème dans le texte dépend du genre du texte, elle dépend aussi, je crois, du type de thème. Le thème est construit par le lecteur dans un processus intellectuel d’induction, de généralisation et d’abstraction. Mais, dans le cas des thèmes que j’ai appelés abstraits, ce processus intellectuel éloigne le lecteur du texte plus nettement que dans le cas des thèmes concrets. La reconnaissance du thème de l’amour repose sur la synthèse d’éléments textuels plus nombreux et plus divers que celle du thème de l’arbre. Le thème de l’amour pourra être porté par des éléments textuels extérieurs au champ lexical de l’amour, cela me paraît beaucoup plus difficile pour celui de l’arbre. Le thème du temps pourra faire abstraction des horloges et des années; celui des couleurs ne pourra pas échapper au champ lexical des couleurs.

Ceci me conduit à poser un second principe qui, lui aussi, est à l’état d’hypothèse:

Plus un thème est concret, plus son inscription dans le texte est précise.

Si ces deux principes sont justes, la conséquence en est que la recherche des occurrences d’un thème à l’aide de l’ordinateur sera d’autant plus fructueuse que, d’une part, le texte sera documentaire et non littéraire, et que, d’autre part, le thème sera concret. Le chercheur littéraire, ne pouvant échapper à son corpus, pourra du moins s’efforcer de privilégier l’étude de thèmes concrets. Il pourra aussi, dans l’étude de thèmes abstraits, concentrer la partie de sa recherche assistée par ordinateur sur la découverte des éléments concrets de son thème et sur les motifs qui l’accompagnent. Le travail sur le thème de la construction du pays dans la poésie québécoise sera ainsi sans doute beaucoup plus difficile, dans son aspect informatique, que celui sur le thème de la neige. L’analyse du thème de la femme dans les Fleurs du mal gagnera à un recensement des motifs caractéristiques du corps féminin (la chevelure par exemple) ou du monde féminin (vêtements, parfums).

 

Un rôle pour l’ordinateur

La constitution d’une liste d’occurrences paraît une étape centrale dans l’étude d’un thème. On a pu mesurer la difficulté du processus conduisant à la réalisation de cette liste. Tout le thème n’est pas là, mais sans doute l’essentiel. La confrontation de tous les passages où apparaissent les éléments textuels considérés représentatifs du thème fournit une base solide à l’analyse de ce thème. Et l’ordinateur, malgré ses lacunes, est en mesure d’apporter une aide substantielle dans ce travail. Si le corpus est réduit, un recueil de poèmes par exemple, on pourra se passer de son aide (quoiqu’il offrira toujours la sécurité de l’exhaustivité: ce n’est pas rien d’être sûr d’avoir toutes les occurrences du mot «femme»). Mais plus le corpus gagne en étendue, plus l’assistance de l’ordinateur devient appréciable. Il ne dispense pas de la lecture et de la relecture, évidemment, il n’apporte même pas de réponses; mais il fournit quantité de matériaux et permet toutes sortes de classements préalables de ces matériaux. Les listes préliminaires demanderont à être raffinées, les listes d’occurrences demanderont à être nettoyées, il n’empêche que le chercheur aura gagné beaucoup, en temps et en assurance.

Les logiciels spécialisés d’analyse de texte permettent de constituer de telles listes d’occurrences à partir de listes préliminaires, et d’en étudier les contextes. Un programme de concordance déroulera la série entière de toutes les lignes où se trouve le mot «femme» ou les différentes formes du lemme «aller». Un programme un peu plus complexe permettra de découvrir tous les passages (paragraphes par exemple, la longueur de l’extrait est programmable) où cooccurrent les mots «femme» et «homme». La figure 1 ci-dessous en donne un exemple tiré du logiciel Hyperbase.

Figure 1. «Homme» et «Femme» dans les Fleurs du mal.

Dans cet exemple, les deux termes à trouver ont été choisis par le chercheur. Mais on peut aussi demander à l’ordinateur de créer une liste de formes cooccurrentes et de les classer. Ainsi, dans le tableau ci-dessous, le logiciel Hyperbase donne la liste des termes cooccurrents au mot «femme» dans les principales oeuvres de Baudelaire. La colonne de gauche classe ces formes en commençant par les plus caractéristiques. Le critique baudelairien ne sera pas surpris de lire: monstre, parfums, beauté, aimée, douce, voluptés, ange, bête et charmante; mais l’ordinateur lui permet de découvrir (avec un «écart» supérieur): glisse, ressemblent, seras, poëte, ténébreux et dorment.

Figure 2. Environnement du mot «Femme».

De plus en plus, en se perfectionnant, ces programmes offrent la possibilité de découvrir non seulement des occurrences et des cooccurrences de formes multiples, mais aussi de déterminer la relation (syntaxique, puis logique) entre les formes indexées (5). D’autre part, l’analyse statistique de ces occurrences permet de mesurer l’importance et la pertinence de telle ou telle forme, tout aussi bien que l’évolution des marques d’un thème à travers un texte.

Evidemment, l’ordinateur ne sait toujours pas lire. Et il ne comprend rien aux données qu’il traite. Il ne faut donc pas, aujourd’hui, trop lui demander. Le résumé automatique d’un texte littéraire semble, en général, encore au-delà de ses compétences. Prenons-en comme exemple, ce résumé fournit par le logiciel Cordial Analyseur.

Figure 3. Résumé automatique des Fleurs du mal.

Le domaine «botanique» prédomine dans ce texte. Le domaine «peinture» est également un domaine d'importance. Le domaine «zoologie» est le troisième domaine saillant. Le domaine «boucherie, charcuterie» est un quatrième domaine remarquable. Dans la thématique de ce texte, la collectivité, par opposition à l'univers et à l'humain, occupe une place capitale. D'une façon plus précise, l'analyse des thèmes généraux de ce texte indique une prédominance des thèmes suivants: «évolution et histoire», «intelligence et mémoire», «participation», «passé, présent, futur», «image de soi», «action», «comportements» et «âges de la vie».

Une analyse plus fine encore de la thématique de ce texte fait apparaître comme thèmes centraux :
* applaudissement (catégorie: louange, reproche)
* pêché (catégorie: pêché)
* alchimie (catégorie: magie)
* damnation (catégorie: au_delà)
* chanson (catégorie: chant)
* goinfrerie (catégorie: tempérance)
* dieu chrétien (catégorie: ciel chrétien)
* enfer (catégorie: au_delà)

Une étude lexicologique et sémantique de l'ensemble des phrases indique que les mots forts du texte sont «pouvoir», «mettre» et «coeurs». [...]

Cependant, ce logiciel procure aussi l’analyse thématique graphique ci-dessous, nettement plus intéressante.

Figure 4. Analyse thématique automatique des Fleurs du mal.

Le thème littéraire est un objet extrêmement complexe et donc difficile à analyser. Tout le monde n’est pas Gaston Bachelard ou Jean-Pierre Richard. Aux pauvres chercheurs que nous sommes, l’ordinateur offre une aide limitée, mais qui ouvre des perspectives très larges; il permet de dépasser les «intuitions» et d’établir l’étude du thème sur des bases solides.

 

Notes

1 - Autre exemple: «Une chose me semble relativement claire: "thème" exprime une relation du type "être au sujet de" [...]» (Gerald Prince, «Thématiser», p. 428). Il faut ajouter que si les auteurs de ce numéro 64 de Poétique partent de cette définition, la plupart la dépassent par la suite.

2 - «Bien qu’il ne se manifeste qu’à travers l’oeuvre, [le thème] n’est pas perçu comme un signifié dont le «dicible» serait épuisé par ce que le texte en dit, mais comme un référent à la fois intérieur et extérieur au texte, comme une réserve toujours disponible de formulations nouvelles créant des écarts de sens.» (Claude Bremond, «Concept et thème», p. 422).

3 - Sur ces concepts de champs (thématique, lexical, sémantique), voir Bremond, p. 419, Martin, p. 27, Béhar, p. 156.

4 - Voir Martin, p. 57 sq.

5 - Voir Suzanne Bertand-Gastaldy, «Le Logiciel SATO», dans l’Astrolabe.

 

Références

Henri Béhar, La Littérature et son golem, Paris, Champion, 1996.

Michel Bernard, De quoi parle ce livre? Elaboration d’un thésaurus pour l’indexation thématique d’oeuvres littéraires, Paris, Champion, 1994.

Claude Bremond, «Concept et thème», Poétique, no 64, novembre 1985, p. 415-423.

Eveline Martin, Reconnaissance de contextes thématiques dans un corpus textuel, Paris, Didier, 1993.

Gerald Prince, «Thématiser», Poétique, no 64, novembre 1985, p. 425-433.

Jean-Pierre Richard, L’Univers imaginaire de Mallarmé, Paris, Seuil, 1961.

Shlomith Rimmon-Kennan, «Qu’est-ce qu’un thème?», Poétique, no 64, novembre 1985, p. 397-406.

Poétique, «Du thème en littérature. Vers une thématique», no 64, novembre 1985.

Trésor de la langue française: http://atilf.inalf.fr/tlfv3.htm

 

2002

 

Voir dans l'encyclopédie de l'Astrolabe:

L'Analyse par tableaux. II – Applications à la poésie

Le Logiciel SATO

Pratique de l'analyse thématique assistée par ordinateur