Historique de l'analyse de texte informatisée

de Stéfan Sinclair

Université de l'Alberta (Canada)

 

 

Il convient de souligner ici un nouveau paradoxe: les technologies numériques, nées de la technoscience et associées à la facilitation de la communication, à la gestion, au commerce et à l'économie, avec un langage binaire simpliste, ont pourtant donné son envol à un imaginaire exalté, un imaginaire transcendantal évoquant un nouvel avatar de la magie, de la religion et de l'idéalisme transcendantal. (Hervé Fisher 41)

 

Je présenterai ici un survol chronologique de quelques moments saillants dans le développement de l'analyse de texte informatisée. Cet article fait partie d'une étude plus vaste qui cherche à définir l'analyse de texte informatisée et à explorer des raisons possibles pour le décalage important entre les attentes des enthousiastes du domaine et l'état actuel des recherches; je cherche surtout à comprendre pourquoi l'emploi de l'informatique n'a pas su franchir le seuil plus large des travaux dans les sciences humaines. Pris ensemble, le présent article ainsi que l'article «Quelques obstacles historiques et épistémologiques dans le développement de l'analyse de texte informatisée» offrent une perspective cohérente sur le chemin qu'a suivi le développement de l'analyse de texte informatisée. Cette perspective, je l'espère, sera susceptible de contribuer à l'élaboration de stratégies pour le développement futur du domaine, stratégies enrichies par une compréhension des forces et des faiblesses des travaux précédents.

 

Non-histoire partielle

Dans notre ère dite postmoderne, il est rare de trouver un historien qui ose parler d'une seule et unique histoire comme s'il s'agissait d'un ensemble de données objectivement saisissables et incontestables. Toute histoire est le résultat d'une série de décisions: tantôt sur le matériel à retenir et à supprimer, tantôt à l'égard de l'interprétation et de la présentation de ce matériel. L'aperçu historique de l'analyse de texte informatisée qui suit doit évidemment être perçu dans cette optique, surtout que, comme le disait déjà Norman Holland en 1967, «one cannot make a tidy summary of an explosion» (57).

 

Il va de soi qu'aucune analyse de texte informatisée n'est possible avant l'existence d'un support informatique. Et pourtant, l'on peut trouver des traces de l'informatique bien avant l'apparition des premiers ordinateurs dits modernes.

Certains font remonter l'histoire des machines analogiques et numériques au calendrier mystique des druides de Stonehenge et à l'abaque du Moyen-Orient qui a connu un vaste empire; d'autres la font remonter encore plus loin: «Fingers and toes are the most fundamental digital computing device» (Kidwell et Ceruzzi 9). Mais on accorde généralement plus d'importance à certaines innovations plus récentes: la calculatrice mécanique de Blaise Pascal (1642 - il s'agissait d'une série d'engrenages qui pouvaient résoudre certaines équations arithmétiques), le métier à tisser automatique de Joseph Marie Jacquard (1801 - il se sert de cartes perforées, forme de mémoire essentielle à l'automatisation de l'industrie), la machine analytique de Charles Babbage (1833 - demeurée au plan théorique, la machine rend possible l'évaluation de certaines conditions pour déterminer la sortie du système); l'emploi de cartes perforées par Herman Hollerith pour stocker et analyser des données (1890 - sa compagnie deviendra par la suite la société IBM); la machine Turing (1936 - conçue par Alan Turing, cette machine est théoriquement capable d'être programmée pour effectuer n'importe quel calcul mathématique), la machine Z3 de Konrad Kuse (1941 - c'est la première machine à se servir du système binaire de 0 et de 1 pour représenter des données); et j'en passe plusieurs (voir Suzuki et al., Kidwell et Ceruzzi ou <http://ox.compsoc.net/~swhite/history/timeline-MECH.html> pour d'autres jalons importants).

Pour ce qui est d'analyses quantitives de textes avant l'ordinateur moderne, on trouve au cours des siècles un grand nombre d'exemples de calculs statistiques sur les divers signes langagiers qui ressemblent beaucoup à certaines branches contemporaines de la stylométrie et de la linguistique computationnelle. Certaines approches remontent au moins jusqu'à un grammairien sanskrit de la période Sutra (500-200 av. J.-C.) qui aurait donné le nombre de vers, de mots et de syllabes du Rig-Veda, livre sacré des Hindous (cf. Whatmough). D'autres cas semblables peuvent être relevés tout au long des siècles, et plus récemment dans les travaux de Boole (en 1854 il développe des principes pour l'analyse de fréquences), de Morgan (en 1859 il propose d'identifier des critères objectifs du style), de Mendenhall (en 1887 il examine la longueur des mots de Dickens et de Tackeray) et de Yule (en 1938 il considère le nombre de mots par phrase comme indicateur pertinent du style d'un auteur), pour n'en mentionner que quelques-uns (voir Francis et Morton & Levison pour plus de détails).

La génération de texte assistée par ordinateur est une autre branche de l'informatique où l'on peut trouver des descriptions qui anticipent les machines modernes, comme dans cet extrait des Voyages de Gulliver, de Jonathan Swift, paru en 1726 (contrairement à ce que l'on pourrait croire d'une description aussi visionnaire, Swift s'attaquait aux efforts des fabricants de machines à calculer depuis Pascal et Leibniz):

Chacun sait au prix de quels efforts s'acquièrent actuellement les arts et la science, tandis que, grâce à son invention, la personne la plus ignorante sera, pour une somme modique et au prix d'un léger travail musculaire, capable d'écrire des livres de philosophie, de sciences politiques, de droit, de mathématiques et de théologie, sans le secours ni du génie ni de l'étude. Il me fit donc approcher de cet appareil, près des côtés duquel ses disciples étaient alignés. C'était un grand carré de vingt pieds sur vingt, installé au centre de la pièce. Sa surface était faite de petits cubes de bois, de dimensions variables mais gros en moyenne comme un dé à coudre. Ils étaient assemblés au moyen de fil de fer. Sur chaque face de ces cubes était collé un papier où était écrit un mot en laputien. Tous les mots de la langue s'y trouvaient, à leurs différents modes, temps ou cas, mais sans aucun ordre. Le professeur me pria de bien faire attention car il allait mettre la machine en marche. Chaque élève saisit au commandement une des quarante manivelles de fer disposées sur les côtés du châssis, et lui donna un brusque tour, de sorte que la disposition des mots se trouva complètement changée; puis trente-six d'entre eux eurent la mission de lire à voix basse les différentes lignes telles qu'elles paraissaient sur le tableau, et quand ils trouvaient trois ou quatre mots, qui mis bout à bout constituaient un élément de phrase, ils les dictaient aux quatre autres jeunes gens qui servaient de secrétaires. Ce travail fut répété trois ou quatre fois, l'appareil étant conçu pour qu'à chaque tour de manivelle, les mots formassent d'autres combinaisons, à mesure que les cubes de bois tournaient sur eux-mêmes...

Les jeunes étudiants passaient six heures par jour à ce travail, et le professeur me montra un bon nombre de gros in-folio, contenant les textes déjà recueillis sous forme de phrases décousues et qu'il avait l'intention de refondre entre elles; il espérait tirer de ce riche matériau une Somme scientifique et philosophique qu'il présenterait au monde. Celle-ci serait d'ailleurs beaucoup plus parfaite et plus rapidement terminée, si le public fournissait les moyens de construire et d'employer cinq cents appareils de ce type à Lagado, les responsables ayant l'obligation de mettre en commun les résultats obtenues. (193-194)

Soit dit en passant, ni la machine de Swift ni la bibliothèque de Babel de Borgès n'est servie par Internet si l'on se rapporte à Robert Wilensky: «We've heard that a million monkeys at a million keyboards could produce the Complete Works of Shakespeare; now, thanks to the Internet, we know this is not true.»

 

C'est en 1943 que vient au monde ce que l'on reconnaît le plus souvent comme étant le premier ordinateur moderne. Baptisé le Mark I ou Automated Sequence Controlled Calculator, cette modeste et immense machine ressemblait peu à la conception moderne d'un ordinateur (l'ordinateur ENIAC - Electronic Numerical Integrator and Computer - paru en 1946, comprenait 18 000 lampes à vide qui occupaient 167 mètres carrés).

Certains historiens de l'informatique réservent le mot ordinateur aux machines ayant des algorithmes qui restent dans la mémoire interne de l'ordinateur. En ce sens, ni le Mark I ni l'ENIAC n'était un ordinateur, il faudra attendre la famille d'ordinateurs inspirés par l'EDVAC (Electronic Discrete VAriable Computer) sous la vision de John von Neumann (pour leurs contributions théoriques, Alan Turing et John von Neumann sont souvent reconnus comme étant les fondateurs de l'informatique moderne). En tout cas, même avant l'apparition en 1951 de l'UNIVAC (UNIVersal Automatic Computer), la première machine commerciale, il existait déjà une communauté de chercheurs dans les sciences humaines qui faisaient appel à la nouvelle technologie dans leurs recherches.

Il est à noter que, dès sa naissance, le développement de l'informatique se voit inextricablement lié aux activités militaires. Les grands budgets de recherche pour la mise au point des premiers ordinateurs étaient motivés notamment par le décryptage et par le développement de la bombe atomique. De même, ce parainnage mènera plus tard à la création d'Internet.

Dans le domaine de l'analyse de texte informatisée, le pionnier parmi les pionniers est Roberto Busa qui commence, en 1949, un projet sur l'œuvre de saint Thomas d'Aquin. (On peut toutefois supposer que si celui-ci n'avait pas été le premier à avoir recours à l'informatique dans ses travaux, l'histoire aurait très vite choisi un autre chercheur à honorer.) Busa, prêtre et savant italien, voulait retracer l'évolution du concept de l'immanence divine chez saint Thomas d'Aquin en étudiant à l'aide de concordances l'usage de la préposition «en». Les concordances existantes des œuvres de saint Thomas d'Aquin ne servaient pas à Busa puisque, pour des raisons d'économie de temps et de papier, les concordances laissaient tomber presque toujours les mots fonctionnels tels que les articles, les prépositions et les pronoms.

Peu nombreux étaient les chercheurs à s'intéresser à l'informatique dans la première décennie de son existence. En outre, les travaux qui en résultaient sombraient dans l'inconnu ou bien provoquaient le mépris, comme le signale Louis Milic en 1966: «to admit that you were working on a literary problem with the help of a computer was the equivalent of saying you were an eccentric, at the very least, and possibly an underminer of the liberal tradition» («Next Step» 3). Toutefois, on reconnaît dans des études telles que celle de Mosteller et Wallace (1963) sur la parenté des Federalist Papers les premiers balbutiements d'un domaine émergeant. Le Révérend Andrew Morton, par ailleurs, reçoit l'attention des média la même année lorsqu'un article intitulé «Cleric Asserts Computer Proves Paul Wrote Only 5 of 14 Epistles» paraît à la une du New York Times (Fellows 1). Toujours est-il que l'analyse de texte informatisée demeure, jusqu'au milieu des années soixante, l'affaire d'un petit groupe d'individus épars qui donnent très peu l'impression de comprendre le nouveau monde qu'eux-mêmes sont en train de créer.

 

Comme chez tout enfant, l'émergence du langage chez l'enfant-ordinateur nous en dit long sur son développement. Ce n'est qu'en 1956 que l'ordinateur peut véritablement se nommer dans la langue française lorsque le linguiste J. Perret choisit ce mot pour traduire computer de l'anglais (cf. Vuillemin 29). On attendra encore huit ans avant que paraisse le mot informatique, grâce à l'ingénieur français P. Dreyfus, et jusqu'en 1967 avant que le mot soit reconnu par l'Académie française qui en donne la définition suivante: «Science du traitement rationnel, notamment par des machines automatiques, de l'information» (cf. Vuillemin 25).

Il est d'ailleurs intéressant de noter certaines différences entre les langues à l'égard de l'informatique. L'italien et l'allemand, par exemple, se sont contentés d'emprunter tel quel le mot computer à l'anglais. L'anglais, quant à lui, semble avoir en général rejeté le mot informatics qui exprime, néanmoins, une plus grande gamme d'activités que computer. L'informatique évoque la science et le traitement de l'information et ne se limite pas au domaine de la technique.

La technologie informatique des années cinquante et soixante, sans doute séductrice et ahurissante aux yeux des enthousiastes de l'époque, risquerait de nous paraître aujourd'hui primitive et barbare (tout comme l'équipement actuel le semblera à nos successeurs d'ici un quart de siècle). Même lorsque les transistors eurent remplacé les lampes à vide comme moyen de préférence pour conserver l'état binaire d'un courant électrique (vers 1947), il reste que la structure et la taille des ordinateurs limitaient leur usage surtout aux grandes universités et aux entreprises qui s'en servirent d'abord seules et ensuite en réseaux. Il n'était certes pas question pour les particuliers de s'en procurer et de s'en servir, jusqu'au début des années soixante-dix.

Un autre obstacle auquel faisaient face les chercheurs était la variété des ordinateurs disponibles; souvent une machine était développée en vue d'un ensemble très restreint d'activités, que ce soit le génie, la comptabilité, la défense militaire ou autre. La flexibilité du processeur central du System/360 de la société IBM, paru en 1962, fut un pas en avant pour les systèmes informatiques: il était doté d'un ensemble d'algorithmes standardisés qui pouvaient être exploités par des logiciels créés à des fins particulières.

Un des plus grands obstacles à l'analyse de texte informatisée des premières décennies était le jeu de caractères très limité. Les premiers ordinateurs à dépasser le statut de calculatrices numériques n'étaient dotés que des 26 lettres majuscules de l'alphabet anglais (c'est-à-dire sans diacritiques) et de quelques caractères spéciaux (comme celui pour représenter une espace). Ces systèmes de codes se sont vus augmenter par extensions successives (mais relativement lentes à arriver). On est passé des 48 caractères de la société IBM en 1952 à une possibilité de 256 caractères dans le jeu du Extended ASCII (American Standard Code for Information Interchange) en 1965; le système EBCDIC (Extended Binary Coded Decimal Interchange) de huit bits par caractère est semblable. Le plus souvent, les 128 premiers caractères de ce jeu étaient réservés aux caractères de l'alphabet anglais, les chiffres et d'autres signes typographiques communs, alors que le second registre de caractères pouvait représenter une variété de caractères et diacritiques d'autres langues, ou encore d'autres graphies utiles.

Hormis les problèmes de normes nécessaires pour l'échange efficace entre les chercheurs, il est évident que même un jeu de 256 caractères est incontournablement pauvre lorsque l'on s'intéresse à certaines langues, surtout celles qui se servent d'idéogrammes telles que le chinois. En outre, on a dû attendre le début des années quatre-vingt avant de voir la disponibilité plus générale des claviers, des écrans et des imprimantes qui acceptent les caractères diacritiques du français. Le début des années quatre-vingt-dix a vu la création du système Unicode dont les 65 536 combinaisons possibles - chaque caractère occupe seize bits ou deux octets - permettent théoriquement la représentation typographique de toutes les langues du monde.

Les codes, pour pouvoir s'en resservir, doivent être stockés quelque part. À cette fin, les premières méthodes consistaient à tamponner des données sur des cartes perforées. L'ordinateur, incapable de comprendre le texte imprimé, pouvait aisément consulter les cartes perforées pour relever une grande variété de données sur le texte qui y était encodé. Par contre, il était impossible de modifier les cartes individuelles une fois perforées; il fallait donc recommencer le processus de tamponnage (en cas de coquilles ou d'ajouts, par exemple). Cependant, le milieu des années soixante a vu la diffusion de supports magnétiques et analogiques capables de subir des changements dynamiques et qui permettaient une modification plus facile des données.

C'est également à cette époque que se sont raffinés considérablement les moyens automatiques de saisir du texte. Les premiers systèmes de reconnaissance de caractères parus dans les années cinquante se limitaient aux textes anglais et à un petit nombre de polices. À petits pas, ces systèmes sont devenus assez sophistiqués pour reconnaître d'autres langues et d'autres polices.

Pendant les premières décennies de l'analyse de texte informatisée, on a surtout été préoccupé par les index et les concordances. Les projets se sont multipliés partout au monde: la série de concordances de Cornell, le travail de R.A. Wisbey sur l'allemand en Angleterre, de Tollenare sur la Bible aux Pays-Pas et de Bernard Quémada sur le Trésor de la langue française, pour n'en donner qu'un petit échantillon. Ces projets ont contribué au développement d'outils relativement avancés tels que le logiciel COCOA (1973) et l'Oxford Concordance Program (1979).

Toujours est-il que trois sorts, seuls ou en combinaison, semblaient inévitablement attendre le chercheur pendant l'enfance de l'analyse de texte informatisée. Dans plusieurs cas, l'effort de préparer des textes et de créer des logiciels pour les traiter accaparait la presque totalité du temps et de l'énergie du chercheur: «In the 1960's input and output occupied much more thought and time because of the primitive equipment in use» (Hockey «Tools» 29). Dans d'autres cas, la disponibilité et la nature des ordinateurs, des textes sous forme électronique et des logiciels, jouaient un plus grand rôle pour déterminer la démarche du chercheur que ses propres intuitions de critique: «There is a temptation to make the problem fit the software, which almost always means that the problem is simplified, with the result that the research suffers» (Hockey «Tools» 32). Enfin, que le chercheur échappe à ces deux pièges ou pas, il demeurait que le rôle de l'ordinateur restait mécanique et abruti, comme l'expliquait Dolores M. Burton en 1968: «The computer still plays a rather marginal role in the direct analysis of literary style. Its task is chiefly that of sorting, counting, or displaying data in a form that must be further analysed manually» (48).

Or, même tôt dans le développement de l'informatique, certains chercheurs reconnaissaient les dangers potentiels de cet outil puéril, bien que séduisant à plusieurs égards (voir, entre autres, Milic «Next Step» et «Winged Words», Holland, Burton, Dyer et plus généralement Potter «Retrospective»). Mais on ne pouvait pas devancer le destin et, faute de meilleurs moyens, il fallait se débrouiller avec ce qui existait. Les outils imparfaits n'arrivaient pas à saisir les nuances du langage et cela se manifestait le plus souvent par leur incapacité à désambiguïser les mots de façon automatique (par exemple, de distinguer le mot porte comme nom commun et comme verbe fléchi). Sous cet angle, on comprend bien la brusque franchise de Wachal en 1966: «There is the real computer, which is a gigantic and dynamic tabula rasa, a sort of high-speed, tireless idiot with a big memory and not a jot of common sense» (14). Certains systèmes tels que Eyeball de Donald Ross laissaient entrevoir des possibilités pour l'avenir, mais il reste que les chercheurs devaient se contenter de solutions qui, dans l'ensemble, étaient expéditives et inadéquates.

Par ailleurs, les circonstances de travail divergeaient considérablement entre l'Europe et l'Amérique du Nord. L'Europe privilégiait davantage les centres de recherches où plusieurs individus collaboraient à des projets de grande envergure, et ce, souvent sans obligations d'enseignement. On pourrait mentionner comme exemple le Centro per l'automazione dell'analisi letteraria en Italie (créé en 1956), le Laboratoire d'analyse lexicologique en France (1959), le Centre mechanolinguistique aux Pays-Bas (1960), le Laboratoire d'analyse statistique des langues anciennes en Belgique (1961), le Literary and Linguistic Computing Centre en Angleterre (1964) et le centre pour Literary and Documentary Processing en Allemagne (1968).

Par contre, en Amérique du Nord, le travail se faisait plutôt par des chercheurs individuels qui favorisaient les colloques et les revues interdisciplinaires comme lieux d'échange de leurs résultats. Le colloque Literary Data Processing en 1964 aux États-Unis fut l'une des premières rencontres de son genre et a ouvert la porte à d'innombrables autres. De même, on ne saurait sous-estimer l'importance des revues telles que Computers and the Humanities (fondée en 1966), Computer Studies in the Humanities and Verbal Behavior (1968) et l'American Journal of Computational Linguistics (1974). Bien entendu, cette distinction entre l'Europe et l'Amérique du Nord n'a pas été sans d'importantes exceptions, mais la tendance est indéniable et conséquente. En tout cas, les résultats, des deux côtés de l'Atlantique, restaient modestes:

In most applications that distinguish literary and linguistic computing from computational linguistics and office automation, we still have not won humanists to our methods. The accomplishments of the European centres are not in question. Their machine-readable dictionaries, large text archives, text-retrieval systems and parsers thrive at Oxford, Nancy, Bergen, Nijmegen, Birmingham, Pisa, and elsewhere. What ought to give us pause is that we have not yet succeeded in introducing computer-aided techniques into literary criticism and exegesis into linguistics outside of computer science. We also have not delivered on a promise made to humanists in the 1960's to be able to send 'to the computer... a section of text, and... [have] phonemes classified, poetic images analysed, and sentences parsed in fractions of a second' [(Wishy 1)]» (Lancashire 42).

 

À vrai dire, il est difficile de tracer une frontière nette entre l'enfance et l'adolescence de l'analyse de texte informatisée. Comme dans le développement humain, on peut reconnaître des jaillissements de maturité chez l'enfant ainsi que des moments d'immaturité chez l'adolescent. J'ai déjà fait mention d'un certain degré d'introspection durant les années soixante et soixante-dix qui étaient pourtant dominées par des applications relativement simples et naïves. En revanche, les années soixante-dix et quatre-vingt témoignent d'une prolifération importante de théories et de méthodes pour la recherche informatisée, même si l'ordinateur, pour la plupart, ne demeure qu'un outil pour générer et manipuler des données. Engagée dans une lutte constante pour trouver son identité et pour prouver sa valeur aux autres, l'analyse de texte informatisée entre dans une phase d'expérimentation; parfois avec la même désinvolture et le même esprit de défi qu'un jeune adolescent rebelle.

Alors que l'équipement informatique peut nous sembler dispendieux de nos jours (en tout cas, sensiblement plus cher que plume et papier), le coût était autrefois encore plus intimidant, voire prohibitif. Il est vrai que certaines universités bénéficiaient d'un appui financier: la société IBM, par exemple, a commandité plusieurs colloques et avait déjà fait don, en 1954, d'une soixantaine d'ordinateurs. Tout de même, un serveur central coûtait plusieurs dizaines de milliers de dollars. Puisque chaque institution ne pouvait s'offrir qu'un nombre très limité de ces machines, il était parfois difficile pour les chercheurs individuels d'y avoir accès. Le plus souvent, surtout en Amérique du Nord, les chercheurs devaient se servir de l'argent de leurs bourses, le cas échéant, pour la location de l'équipement.

Tout cela a rapidement changé avec l'avènement du micro-ordinateur au début des années soixante-dix. En 1971, la société Intel a rendu disponible la première puce où se trouvaient intégrés plusieurs transistors capables d'exécuter des commandes pré-définies et d'en accepter d'autres. Quelques années plus tard, en 1975, la société MITS a sorti le premier micro-ordinateur: cet Altair 8800 se vendait à 397 dollars américains, ce qui le rendait accessible à un large ensemble d'amateurs (surtout des technophiles, car l'emploi de l'Altair, sans clavier intégré, n'était pas évident). Peu après la société Microsoft est née lorsque Bill Gates et Paul Allen ont adapté le langage de programmation Basic pour l'Altair. La création par Microsoft de son système d'exploitation, l'apparition en 1977 du Apple II et du TRS-80, du IBM-PC en 1981 et du Macintosh en 1984, avec son interface graphique, ont contribué de façon essentielle à l'explosion du marché des micro-ordinateurs. Par ailleurs, ce sont les mêmes développements technologiques qui ont permis une baisse graduelle du prix des grandes machines centrales dont se servaient toujours les universités. Le terrain se préparait pour une expansion de l'informatique dans tous les domaines de recherche, car plus les ordinateurs sont bon marché, plus les chercheurs vont pouvoir s'en servir; plus les chercheurs s'en servent, plus les méthodes et les applications d'analyse de texte informatisée auront des chances de se raffiner.

Outre la mise au point continue de l'équipement, plusieurs facteurs ont joué un rôle déterminant dans la progression de l'analyse de texte informatisée. D'abord, de nouvelles associations et alliances ont vu le jour, organismes qui ont permis un mouvement plus concerté vers des objectifs choisis. Par exemple, on reconnaît l'importance d'associations tels que l'ALLC (Assocation for Literary and Linguistic Computing, créée en 1973) et l'ACH (Association for Computing and the Humanities, en 1978). Il ne faudrait non plus sous-estimer l'importance des collaborations entre le secteur privé et les chercheurs: en 1982 la société IBM a contribué pour environ 50 millions de dollars au MIT et, avec la collaboration d'un groupe privé, un don de 1500 micro-ordinateurs a été offert aux professeurs de Stanford (cf. Lancashire 40).

L'existence de ces associations et de ces alliances fut pour beaucoup dans la création d'un nombre croissant de logiciels conçus spécifiquement pour l'analyse de texte informatisée. Parmi les plus influents et novateurs on peut compter Eyeball (Donald Ross Jr.), Theme (Paul Fortier), Arras (John B. Smith), Jeudemo (Paul Bratley et Serge Lusignan), Lexico (Richard Venezky), Unicorn (Micheal Preston), Alis (Duke University), Bertie-II (Dartmouth), the Would-Be Gentleman (Stanford), Système-D (Cornell) et LitTerms (North Carolina University); (cf. Lancashire 38). De plus en plus de projets à long terme ont servi de diverses façons à d'autres projets à plus court terme: Thesaurus Linguae Graecae (1971), la création de l'American Research for the Treasury of the French Language (1979) et le projet de numérisation de l'Oxford English Dictionary (1984), entre autres.

La parution de manuels et de recueils d'articles qui étalaient divers usages et méthodes d'analyse de texte informatisée fut aussi importante. Ceux-ci ont permis aux chercheurs initiés de comparer leurs habitudes à celles de leurs collègues, ont offert aux néophytes une bonne introduction au domaine et ont servi de textes pédagogiques pour les cours universitaires portant sur le domaine qui se faisaient de plus en plus nombreux. Retenons comme exemple deux livres d'abord publiés en 1980: A Guide to Computer Applications in the Humanities de Susan Hockey et Computer Methods for Literary Research de Robert L. Oakman. Il est cependant à noter que l'institutionalisation pédagogique de l'informatique dans les sciences humaines dans la forme de programmes d'enseignement autonomes s'est longtemps fait attendre. La création en 2001 de la Maîtrise en informatique dans les sciences humaines à l'Université de l'Alberta et d'autres programmes de maîtrise attendus ailleurs (Virigine, King's College) est à cet égard très prometteuse pour l'avenir du domaine.

Le développement de l'informatique est le produit d'une relation complexe entre les avances technologiques et les recherches qui sont entreprises. Les premières machines ont rendu possible certaines études informatisées comme celles du père Busa. Mais l'inverse est aussi vrai: les chercheurs ont revendiqué des machines plus puissantes et flexibles, participant parfois même à leur création. L'imagination et la vision utopique sont des forces importantes dans l'histoire de l'informatique.

Si, à l'heure actuelle, on peut se permettre de parler de l'informatique en tant qu'adulte, ce n'est que grâce aux progrès récents qui permettent des tâches relevant de l'intelligence artificielle. Les ordinateurs à architecture parallèle (où plusieurs processeurs peuvent collaborer simultanément) et les logiciels intelligents (qui s'adaptent en changeant leur fonctionnement d'après les circonstances) - bref, les systèmes informatiques dits de cinquième génération - font preuve d'une maturité et d'une sophistication prometteuses, même s'il faut se rappeler que ces machines sont encore très peu exploitées dans l'analyse de texte informatisée: «On entend beaucoup parler, ces derniers temps, de la cinquième génération des ordinateurs... Je crains fort qu'un observateur objectif, étudiant quelques-uns des projets achevés, en cours, ou même projetés par certains centres de traitement de textes, n'arrive à la conclusion que sur certains plans au moins, nous en sommes encore à la première génération» (Choueka 115).

Pour reprendre la métaphore de l'âge, on peut dire que même si l'informatique est maintenant capable de se comporter en adulte, l'analyse de texte informatisée sombre toujours dans l'adolescence, sinon l'enfance. Serait-il question d'un complexe freudien non-résolu? On pourrait sans doute faire valoir plusieurs complexes dont souffriraient les sciences humaines, mais leur retard par rapport à l'informatique s'explique plus aisément par le biais de certains obstacles historiques et épistémologiques moins contentieux. C'est justement le propos du second article de cette étude sur l'histoire de l'analyse de texte informatisée: «Quelques obstacles historiques et épistémologiques dans le développement de l'analyse de texte informatisée».

 

Références

 

2002

 

Voir dans l'encyclopédie de l'Astrolabe:

Quelques obstacles historiques et épistémologiques
dans le développement de l'analyse de texte informatisée