Quelques obstacles historiques et épistémologiques dans le développement de l'analyse de texte informatisée

de Stéfan Sinclair

Université de l'Alberta (Canada)

 

 

Il ne t'aide pas toi à penser mais il t'aide toi à penser pour lui. (Umberto Eco Pendule 33)

 

J'examinerai ici quelques-uns des obstacles historiques et épistémologiques qui ont pu nuire au développement de l'analyse de texte informatisée. Cet article fait partie d'une étude plus vaste qui cherche à définir l'analyse de texte informatisée et à explorer des raisons possibles pour le décalage important entre les attentes des enthousiastes du domaine et l'état actuel des recherches; je cherche surtout à comprendre pourquoi l'emploi de l'informatique n'a pas su franchir un seuil plus large de travaux dans les sciences humaines. Pris ensemble, l'article «Historique de l'analyse de texte informatisée» ainsi que l'article présent offrent une perspective cohérente sur le chemin qu'a suivi le développement de l'analyse de texte informatisée. Cette perspective, je l'espère, sera susceptible de contribuer à l'élaboration de stratégies pour le développement futur du domaine, stratégies enrichies par une compréhension des forces et des faiblesses des travaux précédents.

L'analyse de texte informatisée est à plusieurs égards une espèce particulière dans le royaume des recherches universitaires, ne serait-ce que parce qu'il est difficile de déterminer s'il s'agit véritablement d'une espèce unique ou plutôt d'un ensemble de traits qui se manifestent de plus en plus fréquemment dans d'autres espèces. Même les enthousiastes de l'analyse de texte informatisée n'arrivent pas à se mettre d'accord si leurs travaux relèvent d'un domaine autonome ou s'ils doivent s'insérer dans le cadre d'autres domaines. Ces enthousiastes partagent en général la conviction que leurs travaux représentent une sorte d'évolution saine, voire inévitable, des recherches dans leur domaine, mais ils reconnaissent en même temps que, pour la plupart, leurs méthodes demeurent quelque peu ésotériques et ne sont pratiquées que par un groupe d'initiés relativement limité en nombre (voir les articles des numéros 5-6, volume 27 (1993-94) de Computers and the Humanities pour une discussion introspective fort intéressante du rôle et de l'état de l'informatique dans les sciences humaines).

 

L'incompatibilité entre l'informatique et les recherches dans les sciences humaines a progressivement changé de nature pendant les cinq dernières décennies. À l'origine, les chercheurs pouvaient raisonnablement se plaindre que l'équipement dont ils disposaient, le cas échéant, convenait mal au travail envisagé: les cartes perforées étaient impitoyables, le jeu de caractères désespérément limité et ainsi de suite (voir «Historique de l'analyse de texte informatisée» pour plus de détails sur le développement de l'équipement informatique). Inutile de préciser qu'aucune magie programmatique ne permet de surmonter ces insuffisances. Or, au fur et à mesure que les machines ont évolué, il devenait possible d'élaborer des logiciels de plus en plus sophistiqués, même si on a souvent prétendu que les logiciels n'ont jamais su tenir le rythme des avances du matériel (au fait, cette perception a mené à l'introduction du terme Software engineering lors d'un congrès de l'OTAN en 1968).

Le revers du développement informatique est qu'il exige des compétences de plus en plus raffinées, tant pour la constitution du matériel que pour la création des logiciels. La standardisation des processeurs dans les années soixante a permis aux chercheurs en informatique d'utiliser les mêmes machines que celles employées dans d'autres domaines, écartant ainsi l'intérêt immédiat d'impliquer des chercheurs dans les sciences humaines à la conception du matériel. Le design d'ordinateurs étant d'ailleurs devenu hautement spécialisé, le chercheur en sciences humaines ne pouvait guère s'offrir à y participer.

Quant aux logiciels, il en est autrement, même si les obstacles au développement sont aussi importants. Tandis qu'une même machine peut théoriquement servir à un recenseur du gouvernement, à un comptable et à un critique littéraire, les logiciels dont se sert chacun risquent d'être très différents. Le développement de logiciels spécialisés pour le gouvernement ou pour le monde des affaires est assez rentable pour que de nombreuses sociétés privées s'y livrent. De même, l'usage de logiciels spécialisés est assez répandu dans certains domaines universitaires (surtout les sciences pures) pour attirer l'intérêt d'entreprises informatiques. D'autres domaines universitaires (tels que le droit et la pédagogie) ont des liens assez étroits avec le monde non universitaire pour bénéficier d'une collaboration dans le développement de leurs outils informatiques. En contraste, la critique littéraire, en général, est isolée. À quelques exceptions près, les outils informatiques qui servent à l'analyse textuelle ont été développés par des chercheurs littéraires pour des chercheurs littéraires. Il est vrai que certains chercheurs ont eu recours à leur logiciel de traitement de texte (comme WordPerfect ou Microsoft Word) pour faire des tris et des listes de fréquences, mais il s'agit là d'opérations simples qui sont possibles depuis les années cinquante.

Toutefois, avec les dernières générations de logiciels dits intelligents - avec, entre autres, leur correcteur de grammaire et leur fonction de synthèse - les littéraires peuvent sans doute s'attendre à un coup de pouce plus important (même s'il est involontaire) des programmeurs professionnels. Par ailleurs, l'appui aux chercheurs en analyse de texte informatisée connaît récemment une croissance importante, comme en témoigne le projet TAPoR (Text-Analysis POrtal for Research) au Canada, avec un budget de plusieurs millions de dollars.

Toujours est-il que le développement d'outils est en général mal vu ou mal compris des comités d'évaluation professionnelle dans les sciences humaines (comités de sélection, d'avancement, de permanence, etc.) Les chercheurs en analyse de texte informatisée sont en droit de se demander: à quoi bon passer son temps au développement de logiciels qui ne seront pas reconnus au même titre que d'autres recherches?

Peu importe l'époque, l'élan infatigable de la technologie est un autre obstacle auquel fait face l'informatique dans les sciences humaines. Même lorsqu'un critique littéraire se risque aux dangers du développement de logiciel et se résigne à négliger un peu son propre domaine littéraire - l'apprentissage d'un langage de programmation, la création de logiciels et leurs épreuves exigent du temps - il arrive souvent que le fruit de son travail soit perçu comme étant obsolète avant longtemps. Que ce soit des changements dans le langage de programmation ou de nouveaux langages de programmation, des changements au système d'exploitation ou de nouveaux systèmes d'exploitation, des changements dans le système matériel ou de nouveaux systèmes de matériel, l'évolution technologique est sans merci. La tentation existe toujours de refaire les outils au goût du jour en exploitant toutes les nouvelles possibilités. Étant donné le chemin parcouru en analyse de texte informatisée depuis les années cinquante, tout pousse à croire que plus de temps est passé à refaire des logiciels qu'à les améliorer véritablement (d'où l'importance, je crois, de bien justifier le travail requis pour la création d'un nouveau logiciel).

À cela s'ajoute une autre réalité pernicieuse: alors que le travail d'équipe semblerait favoriser l'analyse de texte informatisée, une entreprise foncièrement interdisciplinaire, ce genre de collaboration n'est tout simplement pas dans les habitudes des littéraires. À la limite, la collaboration vient à la fin du travail lorsqu'on publie son article ou qu'on donne sa conférence; d'autres peuvent alors se servir de l'étude comme bon leur semble. Comme le remarquent Lessard et Levison («Quo Vadimus?»), la «sociologie» des recherches dans les sciences humaines assistées par informatique se trouve quelque part entre celle de la critique littéraire et celle des sciences pures, comme en témoigne un échantillon des articles récents de chaque domaine (cf. 264-265):

Titre de revue % approximatif d'articles à auteur simple
Journal of Modern Literature > 95%
Style 95%
Computers in the Humanities 63%
Communications on Pure and Applied Mathematics 35%
Journal of Applied Physics 5%

En effet, la complexité de l'analyse textuelle et linguistique par le biais de l'informatique semble se prêter mieux au modèle du centre de recherche, que l'on trouve plus communément en Europe qu'en Amérique du Nord. Déjà en 1969, Dyer déplorait les habitudes de travail étroites et solitaires des chercheurs en sciences humaines, trop facilement séduits par l'ordinateur, et envisageait des centres de recherches interdisciplinaires où «philologues» (dans un sens nouveau du terme) travailleraient côte à côte avec «behavioural scientists, linguists, psychologists, statisticians, electronic engineers, neurophysicists and biochemists» (57). Les chercheurs littéraires que fait tressaillir cette vision n'ont pourtant guère à s'inquiéter, les centres de recherches sont chers et comme le remarque Raben, malgré quelque progrès, «humanists traditionally are the most impoverished branch of academia» (342).

L'institution universitaire étant ce qu'elle est (au point de vue de l'appui financier et de l'avancement professionnel), de deux choses l'une: ou bien les chercheurs en sciences humaines se servant de l'informatique peuvent revendiquer l'appui financier et le matériel dignes de recherches scientifiques et informatiques en reléguant au deuxième plan les sciences humaines elle-mêmes, ou bien ils restent avant tout de pauvres chercheurs de sciences humaines regroupés dans un ghetto par leur intérêt en informatique (j'exagère, oui, mais à peine). D'ailleurs, il existe déjà un endroit pour les chercheurs qui sont d'abord informaticiens et ensuite chercheur en sciences humaines: le département de sciences informatiques. Mais il ne faut pas s'attendre à une critique littéraire dans la tradition des sciences humaines d'un membre du département de sciences informatiques.

On ne s'étonnera donc pas que les chercheurs se servant de l'informatique, tout en restant ancrés dans la tradition des sciences humaines, se sentent obligés de présenter leurs méthodes (informatiques) plutôt que leurs résultats. Les spécialistes de Diderot, de Balzac, de Sartre ont tous des lieux d'échanges spécialisés, que ce soit des colloques ou des revues. Le chercheur qui se sert de l'informatique dans son analyse de Hugo, par contre, suit une démarche qui place son étude à l'extérieur des normes du domaine: «Few articles [from Computers and the Humanities] would have been appropriate for the conventional journals of their respective disciplines» (Raben 341). Résultat: le chercheur partage son travail avec des gens dont peu sont équipés pour vraiment saisir la nouveauté ou l'intérêt dans le contexte du domaine en question; il se concentre donc sur les méthodes informatiques qui l'ont conduit à ses résultats. (On peut également évoquer ce que l'aphorisme anglais résume si bien: «publish or perish» - mais ce n'est pas là un problème propre à l'informatique dans les sciences humaines.) Des colloques sur l'informatique dans les sciences humaines (tels que le congrès annuel de l'ACH/ALLC) et les publications spécialisées (telles que Computers and the Humanities et Literary and Linguistic Computing) offrent une occasion qui n'existerait peut-être pas autrement de faire connaître le travail de chercheurs (et de justifier l'avancement professionnel), mais, par la même occasion, ces colloques et publications maintiennent le statut marginal de l'informatique dans les sciences humaines.

 

La tension du statut épistémologique double des recherches informatisées dans les sciences humaines existe non seulement dans les relations de ces domaines avec d'autres domaines de recherches et avec l'institution universitaire en général, mais aussi intérieurement:

We often appear to be caught between two (in principle) distinct and possibly opposing intellectual paradigms, the scientific and the humanistic. The first is based on formulation of hypotheses, collection of data, controlled testing and replication, and presupposes the ability to objectify and externalize the object of study... The humanistic paradigm is based on argument from example, where the goal is to bring the interlocutor to agreement by coming to see the materials at hand in the same light, where it is admitted from the outset that any text admits of analysis from a variety of perspectives (narratological, feminist...) (Lessard et Levison «Quo Vadimus?» 263)

Pour la science, l'objet d'étude se situe d'habitude dans le monde concret: on peut donc formuler des hypothèses vérifiables ou falsifiables selon les résultats d'expériences précises. En outre, pour chaque étude, on a tendance à se heurter à un ensemble très limité de problèmes, voire à un seul: le comportement d'un électron dans des circonstances précises, par exemple, ou la mutation de l'ADN chez l'humain, ou encore la preuve d'un théorème de la géométrie non-euclidienne.

Pour la critique littéraire, la démarche scientifique aristotélicienne convient mal puisque l'objet d'étude est abstrait et multiple. En essayant d'expliquer pourquoi «l'enthousiasme que soulève [les études informatisées] auprès des 'vrais' littéraires est limité, pour ne pas dire inexistant», B. P. F Al dit que «cela tient d'une part au fait que beaucoup de critiques littéraires estiment que la 'substantifique moelle' d'une œuvre échappe par définition à toute tentative de formalisation et, a fortiori, à tout traitement automatique» (1). Effectivement, l'interprétation textuelle fait appel a un réseau divergeant de compétences et de connaissances qui va à l'encontre de la spécificité scientifique. C'est l'originalité et non la reproductibilité qui compte pour la critique littéraire, la subjectivité et non l'objectivité:

Literary critics value novelty. They are fascinated more by 'data' than the principles that inform them. Although current practice relies heavily on observation and induction and acknowledges previous work in the field, and although our research has a similar spread from theory to detailed analysis of particulars as we see in (say) high-energy physics, humanists do not agree on a disciplined way of testing what is said and finding out under what conditions criticism fails. We may not be able to apply scientific method to strictly literary analysis, of course, because fiction and language change through time in ways assumed not to prevail in natural phenomena, because any level of organization in text - whether phonetic, syntactic, semantic, or discours-oriented - remains fundamentally mysterious in the absence of the person who uttered the text, and because many believe that meaning depends on the individual reader, not on the common reader. (Lancashire 43)

Tandis que la science cherche à isoler un phénomène et à prouver la meilleure explication, la critique littéraire regroupe des phénomènes et cherche à leur prêter un sens avec des arguments persuasifs et cohérents. La critique littéraire assistée par informatique tente de jouer sur les deux tableaux: elle se sert de l'ordinateur pour analyser les aspects singuliers et concrets de l'objet textuel tout en traitant les concepts abstraits et polyphoniques de l'œuvre.

En réalité, une synthèse des deux paradigmes est difficile parce que, paradoxalement, il faut se tenir de confondre les perspectives scientifique et «humaniste» du texte. Du moment que l'on cherche à dépasser le niveau quantitatif, il faut se mettre en garde contre la confusion d'informations et de sens, comme le note Serge Lusignan:

En termes informatiques, l'information est un signal ou une combinaison de signaux. Vu sous cet angle, le texte constitue une longue séquence de bits et la liste de vocabulaire, un décompte de combinaisons de bits... Dans les études littéraires, le sens naît de la capacité du spécialiste de lire un texte et de l'interpréter relativement à d'autres textes, suivant des modèles théoriques... Replacé dans le processus interprétatif, l'ordinateur apparaît comme une machine qui, à partir du texte électronique, produit des informations. L'ordinateur n'accède jamais au niveau du sens. Les informations qu'il nous livre peuvent provoquer du sens, mais il faut reconnaître aussi qu'elles peuvent n'en provoquer aucun. («Quelques réflexions» 210)

La terminologie de Clifford Stoll diffère légèrement, mais sa formulation a le mérite d'être à la fois imagée et succincte: «Data isn't information, any more than fifty tons of cement is a skyscraper» (192). Le problème fondamental est qu'il est beaucoup plus facile de fabriquer du ciment que de bâtir un gratte-ciel, et encore faut-il avoir un plan pour sa construction. La production sans bornes d'informations désordonnées qu'encouragent la flexibilité et la malléabilité du texte électronique ne va pas sans rappeler la tour de Babel: les informations se multiplient en guise de sens mais se réduisent finalement à une cacophonie insensée. Ce n'est pas non plus parce que «le témoignage de la statistique n'est solide que dans les grands nombres» (Brunet 121) que l'usage de l'informatique doit se limiter aux grands corpus tels que ARTFL - il ne faut pas laisser l'outil déterminer le parcours de la recherche.

Aussi dangereux que la multiplication des données est leur capacité de donner l'illusion de substance et d'autorité, comme le remarque Holsti:

Perhaps the single greatest danger in the use of computers is that we may be lulled into accepting conclusions without a critical examination of the data upon which they are based. Computers cannot save a sloppy research design, nor will they transform a trivial research problem into an important one. The machine output reflects only the skill and insight - or lack thereof - with which the investigator constructed his dictionary and formulated his research design. Some years ago Bernard Barelson wrote, 'Content analysis, as a method has no magical qualities - you rarely get out of it more than you put in, and sometimes you get less. In the last analysis there is no substitute for a good idea' [(518)].» (116)

Se pose alors la question de méthodologie. Abandonne-t-on tout espoir d'une approche heuristique permettant la symbiose d'informations et de sens? La stylométrie, une branche de l'analyse textuelle informatisée, fonctionne bien dans la mesure où elle limite sa portée aux aspects de style quantifiables. On peut, par exemple, comparer de façon statistique les tendances de deux auteurs pour une œuvre dont on voudrait déterminer la paternité (comme Mosteller et Wallace l'ont fait en 1963 pour les Federalist Papers). Le succès des efforts de réconciliation de l'information et du sens est moins facilement évalué, ce qui ne devrait pas surprendre étant donné la nature finalement non scientifique de la critique littéraire. Comme pour les mailles d'une chaîne, la composante la moins forte d'une étude détermine la force de l'ensemble et à quel point l'étude est concluante.

En fin de compte, le problème épistémologique ne demeure pas au niveau de l'hétérogénéité des informations et des interprétations, mais plutôt au niveau de nos attentes de la relation entre les deux. Dans les sciences pures, on tend à chercher une correspondance directe entre les données et les conclusions que l'on pourrait en tirer (on a souvent remarqué que si le postmodernisme - ou même diverses formes antérieures d'anti-réalisme - a su retenir l'attention des philosophes de la science, les scientifiques, en pratique, ne sont pas pour autant moins «dogmatiques», comme le dirait Kuhn). Les données informatiques en critique littéraire informatisée correspondent de la même façon à des faits textuels, mais il ne peut y avoir de corrélation objective entre ces faits et le sens du texte; les effets produits par le texte ne peuvent se réduire aux éléments textuels individuels. Le tout (quel qu'il soit) est plus que la somme des parties (sauf peut-être de la perspective de l'ordinateur).

Par conséquent, le rôle de l'ordinateur doit être perçu au même titre que tout autre paradigme d'interprétation, qu'il soit structuraliste, narratologique, féministe ou autre. Ou, plus précisément, l'informatique peut avoir un rôle scientifique dans la production d'informations sur une œuvre, mais lorsqu'il s'agit d'interpréter ces données, il faut abandonner la prétention entièrement scientifique et adopter un ou plusieurs modèles d'interprétation proprement textuelle. Car, comme le dit Barthes, «la critique n'est pas la science. Celle-ci traite des sens, celle-là en produit» (Critique et vérité 44). On a donc tort de vouloir faire de la critique littéraire assistée par informatique une science (voir les injonctions de Beatie sur la méthodologie rigoureuse et la répétition d'analyses, entre autres); les excès du structuralisme et de la Nouvelle critique devraient nous avoir suffi contre un tel positivisme. Entre informaticien et littéraire - ou, à l'instar de C.P. Snow, entre scientifiques et intellectuels - il doit exister une troisième culture possible.

L'usage de données dans une étude informatisée (sous forme de listes, de tableaux, de graphiques ou autre) doit s'apparenter à celui de la citation: un appui rhétorique qui ne saurait boucler définitivement un argument (Winder parle d'attestation). En outre, on peut combiner avantageusement une approche informatique avec d'autres approches critiques ou d'autres idéologies, selon les circonstances. Certaines œuvres risquent de se prêter mieux que d'autres à l'approche informatique (on peut penser à l'analyse de textes oulipiens où des contraintes formelles jouent un rôle important, voir Sinclair). Comme le dit Stoll, «simply turning to a computer when confronted with a problem, you limit your ability to recognize other solutions. When the only tool you know is a hammer, everything looks like a nail» (45). En somme, l'approche informatique est un cadre théorique avec ses propres présuppositions, modèles explicatifs et méthodes; et surtout, avec ses propres forces et faiblesses.

La distinction entre langue naturelle et langage de programmation est un microcosme de la tension entre scientifique et «humaniste». Un langage de programmation est strictement fonctionnel: chaque logiciel a une logique interne qui définit son usage et son sens. De plus, chaque étape de l'algorithme est de nature binaire: la valeur d'une variable change ou participe à l'évaluation d'une condition établie. (Il existe des langages de programmation relationnelle telles que Prolog, mais il faut se rappeler que les instructions données dans ces langages sont traduites en algorithmes binaires par d'autres langages de plus bas niveau - le niveau d'un langage correspond en gros à sa lisibilité: plus on s'éloigne du code de la machine plus la syntaxe ressemble à la langue naturelle et donc plus le langage devient lisible.)

Il y a d'ailleurs là une symétrie assez révélatrice: l'ordinateur comprend mal le langage de l'humain tout comme l'humain comprend mal le langage de l'ordinateur. Toute tentative de faire passer une langue naturelle par un langage de programmation s'expose à l'exténuation. Afin de manipuler la langue naturelle, le logiciel doit la scinder et la compartimenter, oubliant ainsi sa complexité. L'objet textuel est fracassé en unités distinctes d'informations binaires (de 0 ou de 1, ou plus précisément, d'une teneur forte ou faible de courant électrique). Cette opération, bien entendu, se propage dans toute l'approche informatique, surtout lorsqu'elle se limite à l'aspect quantitatif : «By removing all that is non-commonsensical in the language, by radically neglecting the multi-valency of the linguistic sign-in-use, by eliminating the contextual factors that fundamentally shape its meaning prior to the analysis undertaken, the quantitative approach destroys the very 'literariness' of the texts under study» (Van Peer 407).

Toutefois, sans vouloir m'engager dans la polémique de l'intelligence artificielle (ni vouloir risquer des prédictions qui ne se réaliseront peut-être pas), je ne pense pas impossible de voir un jour un système informatique capable de simuler la compréhension de la «littérarité» d'une œuvre. Au fait, si tant est qu'on puisse simuler cette compréhension, on risque d'en apprendre long sur le fonctionnement de l'esprit humain. À l'heure actuelle, ce sont sans doute les approches connexionnistes et les architectures en parallèles qui mènent la course (voir entre autres Rumelhart, McClelland et al. pour une bonne introduction à la matière et Miikkulainen pour une application axée sur la langue naturelle). Toujours est-il que, pour l'instant, le gouffre entre informations et sens demeure inconciliable sans intervention humaine. L'écart est d'autant plus grave que l'œuvre originale et les données informatiques qui en sont issues restent, pour la plupart, physiquement et conceptuellement séparées: c'est la nature de la représentation linéaire (souvent imprimée) qui le veut.

Or, quelle meilleure vocation pour l'hypertexte que de permettre le refusionnement d'une œuvre et des données susceptibles de contribuer à son interprétation? Il me semble franchement étonnant que la critique littéraire informatisée n'ait pas saisi l'occasion d'exploiter davantage cette possibilité (les logiciels HyperPo et TactWeb sont des premières tentatives dans ce sens).

Au terme de cette étude, on peut reconnaître que certains obstacles au développement de l'analyse de texte informatisée resteront difficiles, voire impossibles à surmonter: l'élan infatigable du progrès technique qui conduit à une refonte constante des outils plutôt qu'à leur amélioration, ou encore l'incommensurabilité essentielle de la machine binaire et du texte polyvalent. D'autres obstacles, souvent de nature sociologiques (la prédilection pour le travail individuel chez les chercheurs en sciences humaines) ou institutionnelles (le peu de valeur accordé au développement d'outils de recherche professionnels), se dissiperont sans doute avec le temps. Enfin, certains obstacles subsisteront tant qu'on ne les confrontera pas plus vigoureusement: les attentes exagérées ou naïves de l'outil informatique ou le manque d'outils conviviaux (et hypertextuels) qui permettraient aux littéraires de poursuivre leurs recherches dans la tradition des sciences humaines (au lieu de se plier aux exigences d'un outil strictement scientifique). Voilà qui nous occupera pendant bien des années à venir!

 

Références

 

2002

 

Voir dans l'encyclopédie de l'Astrolabe:

L'Herméneutique numérique

Historique de l'analyse de texte informatisée

Le Logiciel SATO

Visualisation scientifique et analyse de texte