Temporalité des contenus du Web
de Russon Wooldridge
Université de Toronto (Canada)
- Actualité et obsolescence: le poids du présent
- Fixité ou statisme: la prise en charge du passé
- Synchronie et diachronie: le Web-corpus
- Conclusion: écran versus papier
Par temporalité, nous entendons actualité et obsolescence, fixité ou statisme, éphémérité et durabilité, synchronie et diachronie. Par contenus, nous entendons ce qui est offert et non la manière de le faire. L'obsolescence ou la durabilité des supports – langages d'encodage, navigateurs d'affichage, incompatibilités diverses – est un sujet important, très débattu (1), mais, sauf en passant, non le sujet de notre propos, lequel est de jeter un regard sur la temporalité de la nature des contenus.
Actualité et obsolescence: le poids du présent
En principe, plus longtemps le Web existe, plus il y a de documents obsolescents ou obsolètes. En termes de pourcentages, il serait bien plus difficile de se prononcer, puisque le nombre de documents publiés en ligne en 2003, par exemple, est très supérieur au nombre de documents publiés dans le Web il y a quelques années. Pour se donner une petite idée de l'expansion du Web, il n'est pas sans intérêt de noter que le nombre d'occurrences du mot polysémique navigateur est passé de 9 793 en décembre 1997 (AltaVista, pages en français) à 804 000 en mars 2003 (Google, pages francophones) (2).
Un des critères proposés par certains pour l'évaluation des contenus du Web est la date de création d'un document et la périodicité des mises à jour (3). Lorsqu'un site se veut d'actualité, ce critère est important; lorsque l'actualité n'a aucune incidence sur la valeur d'un contenu, il n'est pas pertinent. L'obsolescence ne peut exister que lorsque la valeur d'un contenu dépend de l'actualité de celui-ci. Regardons quatre types de sites qui, par leur nature, prétendent offrir des informations d'actualité: a) les sites de journaux quotidiens; b) les programmes de cours et les cours individuels; c) les dictionnaires en ligne se voulant être des descriptions de la langue actuelle; d) les sites portails thématiques contenant des liens vers d'autres sites Web traitant de la thématique en question.
a) Les journaux quotidiens. Des journaux comme Le Monde ou Le Devoir (4) ne peuvent exister que s'ils mettent en ligne chaque jour (le plus souvent au fur et à mesure) les dernières informations. Un certain nombre de documents faisant partie d'un numéro périmé sont versés dans les archives du journal. Les archives acquièrent ainsi une valeur historique, fixée par la date de chacun des documents qu'elles contiennent. Une frontière nette est érigée entre ce qui est d'actualité et ce qui est du passé, frontière en fait relative du point de vue des informations véhiculées. Un journal à parution moins fréquente, comme Le Monde diplomatique (5), contiendra des articles de fond, dont la valeur est moins éphémère que les informations du quotidien.
b) Les programmes et cours. Les programmes de cours et les cours individuels publiés dans le Web visent essentiellement les étudiants qui pensent s'y inscrire ou y sont inscrits. Le programme de la prochaine session est d'actualité pour les étudiants qui pensent s'inscrire, le programme et le site de cours de la session courante sont d'actualité pour les inscrits. Un programme ou un contenu de cours passé peut au mieux avoir une valeur indicative, mais il est forcément obsolescent, voire obsolète. Un peu différents sont les sites qui traitent un sujet donné, à la façon d'un manuel, en dehors des contraintes temporelles d'un calendrier institutionnel. Leur actualité sera donc définie en termes de l'état des connaissances du sujet en question. Citons en exemple Corpus Linguistics de T. McEnery et A. Wilson, de l'Université de Lancaster, et Introduction to Corpus Linguistics de l'Université d'Essex (6). On dira que le premier (c. 2001) est un peu plus d'actualité que le second (1998).
c) Les dictionnaires de la langue actuelle. Qu'ils soient imprimés ou diffusés en ligne, les dictionnaires de l'usage actuel sont toujours obsolescents, puisque la langue ne cesse d'évoluer alors que les descriptions qui en sont faites commencent à vieillir dès l'étape de la rédaction, qui précède donc la publication du dictionnaire. Prenons l'exemple des mots scribouiller, scribouillard et scribouilleur (7). Le verbe, rendu célèbre par le Général de Gaulle en 1967 (8), ne figure ni dans le Dictionnaire universel francophone en ligne, ni dans l'Encyclopédie Hachette avec Voilà (9); il est défini dans le Trésor de la langue française informatisé (10): «Écrire sans soin ou sans talent». Les deux derniers dictionnaires, l'EHV et le TLFI, enregistrent scribouillard («personne employée aux écritures») et scribouilleur («écrivain sans talent»), le premier donnant également les féminins scribouillarde et scribouilleuse. Lorsqu'on interroge le Web, on se rend compte que le sens prédominant aujourd'hui de ces trois mots (ainsi que de scribouillage, scribouille, scribouilleux, scribouillon, voire scrib) concernent l'activité d'écrire dans des babillards en ligne: l'activité, les messages envoyés, les personnes qui les écrivent et les échangent, les forums virtuels où ils le font. On doit faire une distinction entre le DUF et l'EHV d'une part, et le TLFI de l'autre: alors que les trois sont perçus par la plupart des usagers comme des dictionnaires du français actuel, seuls les deux premiers s'affichent comme tels. Le TLFI est en fait un dictionnaire composé à partir d'un corpus de textes publiés entre 1789 et 1960. Ce troisième cas est, comme celui des journaux et des programmes ou cours universitaires, le même pour la version papier que pour la version en ligne. Le quatrième cas est particulier au Web.
d) Les sites portails. Les sites portails ont l'ambition de recenser toutes les ressources en ligne, ou les principales d'entre elles, concernant tel ou tel sujet: études françaises, littérature d'expression française, littérature française du Moyen Age, par exemple. En cela, ils ressemblent aux bibliographies classiques comme celles de Cabeen ou de Cioranescu. La grande différence est que ces dernières travaillaient sur un corpus statique – des oeuvres fixées sur papier –, alors que les sites portails ont affaire à un corpus dynamique dont les éléments apparaissent et disparaissent. La tâche des auteurs des sites portails est donc sisyphienne et leurs sites sont inévitablement obsolescents (liens morts), malgré les formules du type «régulièrement mis à jour», que la mise à jour soit réelle ou, dans certains cas, un voeu pieux relevant des bonnes intentions. Qu'il se dise sélectif ou complet, le site portail est toujours, comme le dictionnaire de langue, incomplet. Le Web, comme la langue, est une virtualité que l'on ne peut jamais observer que partiellement et imparfaitement. Une considération que nous notons en passant, même si elle ne concerne pas la nature des contenus, est le caractère éphémère ou durable des sites d'un même type. Dans la catégorie des sites portails, il n'est pas surprenant que la rubrique «Signets» d'une institution stable comme la Bibliothèque nationale de France se soit avérée jusqu'ici plus durable que le «Catalogue critique des ressources textuelles sur internet» que le moins stable Institut national de la langue française avait lancé en 1999, dont on parlait encore en 2002 (11), mais qui n'existe plus en juillet 2003.
- Fixité ou statisme: la prise en charge du passé
Nous avons déjà évoqué les archives des journaux. En fait, tout document qui est essentiellement indépendant du présent du lecteur a une valeur fixe ou stable. L'important est de connaître la date de publication du document. La fonction d'archivage du Web, de lieu de conservation de la mémoire et du patrimoine, est cruciale. À l'opposé de l'imprimé, les fonctions de conservation et de consultation n'entrent pas en conflit.
Sont à inclure dans cette catégorie, entre autres, les dictionnaires anciens (par exemple, la huitième édition du Dictionnaire de l'Académie française, par rapport à l'édition actuelle (12) et les oeuvres littéraires. Les sites Maupassant par les textes, Gustave Flaubert ou La Bibliothèque électronique de Lisieux (13) ont une valeur fixe qu'un site portail les signalant n'a pas, que les premiers disparaissent un jour ou non. Le Thresor de la langue françoyse de Jean Nicot (1606), que l'on peut consulter sur plusieurs sites (14), est un document statique qu'aucun usager ne s'attendrait à voir refléter le français actuel.
Disons un mot sur la nature du patrimoine littéraire en ligne. Si la littérature d'expression anglaise est bien servie par le Project Gutenberg (15), qui met à la disposition de l'usager du Web des milliers d'oeuvres dans un format simple, sûr et efficace, il en va autrement de la littérature de langue française, qui n'a aucun projet d'envergure similaire. La synergie du système de volontariat passionné, que le Project Gutenberg a adopté, suivant en cela le modèle des lecteurs qui envoyaient par la poste de partout dans le monde leurs fiches de mots lors de la confection du Oxford English Dictionary (et dont les homologues modernes continuent à nourrir l'OED actuel par le biais d'Internet), s'avère autrement plus efficace que les grosses sommes d'argent versées dans les grandes entreprises du Centre pour un Trésor de la langue française (Nancy) ou de la Bibliothèque nationale de France (Paris) (16). Les éditions retenues pour le TLF étaient simplement celles qui étaient disponibles à la Bibliothèque municipale de Nancy; un très grand nombre des textes électroniques de la BNF sont en format PDF-image, ce qui les rend bien lourds et difficiles à manier, impossibles à interroger. Du point de vue de la durabilité, les fichiers relativement plus fiables et plus légers du Project Gutenberg auraient plus de chances de résister au temps et à l'évolution technologique que ceux des instances françaises.
Sont aussi des objets fixes et stables, pourvu qu'ils soient datés, les monographies et articles scientifiques et les actes de colloques savants publiés dans le Web. La date de publication confère une valeur historique à leur présentation d'un état actuel de la réflexion ou de la recherche. Pour ce qui est des communications de colloques, certains organisateurs tirent parti du médium du Web pour pallier l'éphémérité de l'occasion en mettant en ligne les textes avant le colloque (pré-actes), ce qui permet aux participants de mieux profiter des présentations orales.
Synchronie et diachronie: le Web-corpus
Ces termes saussuriens s'appliquent autant aujourd'hui au corpus du Web que depuis cent ans à la langue. Tout comme la langue, le Web fonctionne indépendamment de la volonté individuelle de ses pratiquants et de toute velléité dirigiste, et n'est observable qu'indirectement. Du fait qu'on interroge le Web par le biais de mots-clés dans des moteurs de recherche, le Web est avant tout une toile tissue de mots, un «web of words», pour citer le titre de la biographie du grand lexicographe James Murray écrite par sa petite-fille (17). Tout y est: discours politiques d'instances officielles, exposés scientifiques et techniques de professionnels et d'artisans, reportages de journalistes, libres propos de commentateurs issus de toutes les couches sociales et de tous les âges; langue soignée des pédants et bavardages familiers des jeunes; déclarations d'organismes, publicités d'entreprises, opinions de particuliers; littérature canonique et hyper-littérature collaborative; débats de chambres parlementaires et forums-babillards. À travers les mots-clés du moteur de recherche, le Web fonctionne comme un corpus d'usages linguistiques, le premier grand corpus à être mis à la portée de chacun, expert ou simple curieux, corpus unique qui s'est créé, et qui se renouvelle constamment, sans subvention et qui s'interroge sans outils plus sophistiqués qu'un simple moteur de recherche.
Le Web-corpus fonctionne essentiellement en synchronie, continuellement changeant. La synchronie n'est jamais que virtuelle, l'observation du Web comportant toujours un certain décalage (les liens morts du moteur de recherche) par rapport au moment de l'observation. Synchronie relative donc, mais un bon reflet tout de même de ce qu'on appelle une synchronie épaisse, celle qui contient en elle usages stables, nouveaux et vieillis. Une requête visant, par exemple, le verbe scribouiller (cf. supra) montrera avant tout la synchronie actuelle du mot et, en plus, quelques emplois du passé (discours de de Gaulle, par exemple), ajoutant ainsi au mot une certaine épaisseur temporelle ou dimension diachronique (18).
Conclusion: écran versus papier
Parmi les catégories que nous avons étudiées, l'actualité/obsolescence est la même pour les journaux, cours universitaires et dictionnaires en ligne que pour les versions papier, alors que les sites portails présentent une situation unique au Web; sur le plan de la fixité/durabilité, la littérature d'expression française serait, dans beaucoup de cas, plutôt mal servie en ligne par les éditions ou les formats retenus; l'existence d'un corpus d'usages linguistiques synchronique est unique au Web. Sauf en ce qui concerne les fichiers en format PDF-image, le temps de recherche d'une information à l'intérieur d'un document ou d'une collection est presque toujours beaucoup plus court en ligne qu'en bibliothèque.
- Références
1 - Voir, par exemple, l'article «99.9% of Websites Are Obsolete», de Jeffrey Zeldman à <http://www.digital-web.com/features/feature_2002-09.shtml> ou la traduction française «99,9% des sites web sont obsolètes» à <http://www.pompage.net/pompe/obsoletes/>.
2 - Cf. R. Wooldridge, «L'Expression d'Internet en anglais et français (2): cinq ans après» à <http://www.chass.utoronto.ca/~wulfric/articles2/cybermedium2/>.
3 - Voir par exemple «Evaluation de l'information présente sur Internet» de l'Institut national des sciences appliquées, Lyon (<http://csidoc.insa-lyon.fr/sapristi/fristi36.html>) ou «Comment évaluer de manière critique les ressources issues de l'Internet?» de la Commission du français et de l'Informatique de la FESeC, Belgique (<http://users.skynet.be/ameurant/francinfo/validite/>).
4 - Le Monde <http://www.lemonde.fr/>; Le Devoir <http://www.ledevoir.com/>.
5 - Le Monde diplomatique <http://www.monde-diplomatique.fr/>.
6 - Corpus Linguistics, de Tony McEnery et Andrew Wilson, c. 2001, <http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/contents.htm>; Introduction to Corpus Linguistics, Université d'Essez, 1998, <http://www.essex.ac.uk/linguistics/clmt/w3c/corpus_ling/content/introduction.html>.
7 - Cf. R. Wooldridge, «Etudes du Web corpus d'usages linguistiques: scribouiller», <http://www.etudes-francaises.net/acre/corpus/scribouille.htm>.
8 - Le fameux discours prononcé à Montréal est reproduit sur plusieurs sites Web dont <http://www2.biblinat.gouv.qc.ca/rfq/gaulle/gaulle8.htm>.
9 - Dictionnaire universel francophone en ligne <http://www.francophonie.hachette-livre.fr/>; Encyclopédie Hachette avec Voilà <http://encyclo.voila.fr/>.
10 - Trésor de la langue française informatisé <http://atilf.atilf.fr/tlf.htm>.
11 - Voir Arlette Attali, «Le Catalogue critique des ressources textuelles sur internet (CCRTI)», Paris, avril 2002 et Lisieux, mai 2002, <http://www.bmlisieux.com/colloque/attalico.htm> ou <http://www.etudes-francaises.net/colloques/lisieux2002/attalico.htm>.
12 - La huitième édition du DAF est consultable en ligne à <http://atilf.atilf.fr/academie.htm> et à <http://www.lib.uchicago.edu/efts/ARTFL/projects/dicos/ACADEMIE/HUITIEME/>; une partie de la neuvième édition (en cours) à <http://atilf.atilf.fr/academie9.htm>.
13 - Maupassant par les textes <http://maupassant.free.fr/>; Gustave Flaubert <http://www.univ-rouen.fr/flaubert/index.htm>; La Bibliothèque électronique de Lisieux <http://www.bmlisieux.com/>.
14 - Le Thresor de Nicot est accessible sur des serveurs de l'Université de Toronto (<http://www.chass.utoronto.ca/~wulfric/dico_tactweb/tiden.htm>), du projet ARTFL à l'Université de Chicago (<http://www.lib.uchicago.edu/efts/ARTFL/projects/dicos/>) et de l'ATILF de Nancy (<http://hera.atilf.fr/dictionnaires/TLF-NICOT/>).
15 - Project Gutenberg <http://gutenberg.net/>.
16 - Le corpus informatisé du TLF, connu sous le nom de Frantext, peut être consulté en ligne sur des serveurs de l'ATILF de Nancy (<http://atilf.atilf.fr/frantext.htm>) et du projet ARTFL de l'Université de Chicago (<http://www.lib.uchicago.edu/efts/ARTFL/databases/TLF/>). La BNF donne accès à ses textes électroniques sur son site Gallica <http://gallica.bnf.fr/>.
17 - K.M. Elisabeth Murray, Caught in the Web of Words, New Haven, Yale University Press, 1977.
18 - Cf, R. Wooldridge, «Etudes du Web corpus d'usages linguistiques», <http://www.etudes-francaises.net/acre/corpus/>.
2003
Voir dans l'encyclopédie de l'Astrolabe:
Edition multimédia et presses universitaires électroniques