bullet3. Visualisation et analyse de texte

Comme nous l’avons mentionné au début de cet article, nous affirmons que l’heure est venue d’appliquer les techniques de visualisation à l’analyse de texte. Que la visualisation soit acceptée, écrivions-nous, dépendait de la normalisation des structures de présentation des données et de l’acceptation d’un ensemble de méthodes. Comme l’enquête précédente le montre, il semble que cette normalisation et cette acceptation des méthodes existent. Les graphiques fondés sur la narration, tout comme ceux comparant les fréquences et, dans une moindre mesure, les espaces métriques multidimensionnels, sont suffisamment fréquents pour suggérer qu’une unanimité minimale, quant à une interprétation commune de la visualisation, existe. Qu’il s’agisse d’images graphiques s’inspirant de la dimension narrative ou d’images fondées sur la fréquence des occurrences d’objets textuels ou sur l’analyse à variables multiples, on les retrouve régulièrement toutes trois dans les articles de critique informatique que nous avons passés en revue. Ces trois types d’images pourraient servir de fondation à la création d’un logiciel de «visualisation textuelle» qui pourrait reprendre certaines des caractéristiques de ses cousins de la visualisation scientifique. En outre, notre examen des graphiques à base narrative suggère que ces derniers sont suffisamment bien ancrés dans les méthodes traditionnelles et qu’ils pourraient, pour peu que leur production soit relativement facile, être adoptés en grand nombre et immédiatement par la prochaine génération d’utilisateurs de l’informatique dans les Lettres, celle qui utilise le traitement de texte à défaut de toute autre fonction de l’ordinateur.

Comme il en fut en matière de visualisation scientifique, il est très important de créer des outils de visualisation textuelle conviviaux si l’on veut parvenir à un tel résultat. C’est l’absence de ces derniers qui retarde actuellement l’utilisation des représentations visuelles dans l’exploration des textes. Seul un petit nombre d’outils d’analyse textuelle possèdent des fonctionnalités graphiques. TACT utilisait un graphique de répartition rudimentaire dans lequel les barres de l’histogramme étaient faites d’astérisques; pour obtenir la plupart des représentations visuelles, il fallait transférer les données du logiciel d’analyse de texte vers un tableur ou un progiciel de représentation graphique. Les images ne sont alors pas interactives; elles sont la résultante de l’analyse de texte et n’aident pas à la compréhension du texte à ce moment-là. En fin de processus, lorsque le transfert des données permet de produire des graphiques, on peut à peine utiliser ces derniers pour explorer les données de manière interactive; de tels graphiques servent davantage à communiquer des résultats à d’autres qu’à comprendre les résultats en premier lieu. Il manque des outils de visualisation générant interactivement des graphiques qui pourraient être utilisés à leur tour pour déclencher d’autres interactions avec un texte. Imaginez que l’un des graphiques que nous avons mentionnés dans cette étude, soit interactif et qu’en cliquant sur un mot s’affiche un écran de concordance sur lequel s’inscriraient  toutes les occurrences du mot dans le texte ou bien le texte complet lui-même. Il s’agirait là vraiment de visualisation textuelle.

En nous fondant sur les caractéristiques communes aux outils de visualisation scientifique que nous avons énumérés précédemment, nous pouvons maintenant identifier celles que nous devrions trouver dans un environnement de visualisation textuelle:

- Inter-opérabilité de l’échange de données: panoplie de structures de normalisation des données qui représentent les items de base du discours à l’interne du système. Le système d’application TEI SGML pourrait constituer un bon point de départ au développement de telles normes.

- Bibliothèques de procédures de traitement des données: ensemble d’opérateurs normalisés travaillant sur des textes. Il s’agirait de modules chargés d’effectuer des opérations de base, comme repérer des chaînes de caractères, trier des mots, etc.

- Afficheurs: modules de logiciel qui prennent les résultats et les affichent à l’écran de manière adaptée à la visualisation textuelle. On s’attendrait au minimum à des modules capables de créer les types ordinaires de graphiques qui figurent dans cet article.

- Environnement visuel de programmation: environnement cadre dans lequel les usagers placeraient et relieraient les modules et les afficheurs de traitement des données. Dans cet environnement, les usagers se chargeraient des opérations créatives d’exploration en combinant les modules de manière graphique (7).

- Système de développement interface usager: assistant de programmation: ensemble de routines auxquelles tout programmeur qui crée ses propres opérateurs ou ses représentations graphiques peut faire appel. Les usagers seraient alors en mesure d’agrandir le cadre en faisant des ajouts aux bibliothèques de procédures de traitement des données et aux modules de mise à l’écran.

Il est sans doute pertinent de remarquer que l’utilisateur principal d’un logiciel de visualisation scientifique tel que l’AVS est l’ingénieur et non pas le scientifique. Il essaie d’appliquer les principes généraux de sa discipline à un problème ou à un objet particulier. La recherche qui a permis de développer les principes de base sur lesquels reposent les fondements de l’AVS a été menée ailleurs. Comme dans les cas de la visualisation scientifique, les outils de visualisation textuelle donneront à leurs utilisateurs l’accès à des méthodes et des pratiques de recherche développées par quelqu’un d’autre. Ceux qui ont la capacité de défricher des terres entièrement nouvelles dans la recherche en sciences humaines pourraient ne pas trouver ces outils faciles d’utilisation. C’est peut-être la raison pour laquelle nous avons observé que TACT a des applications pédagogiques importantes; après tout, il cerne et impose ensuite une certaine méthodologie ou approche qui s’adapte souvent à un objectif pédagogique, mais pas forcément à un objectif de recherche. Nous pourrions nous attendre à ce que les logiciels de visualisation textuelle parviennent aux mêmes fins. Ce n’est sans doute pas le chercheur à la fine pointe du progrès qui va l’utiliser mais celui qui veut vérifier rapidement si les méthodes lancées par les pionniers présentent un intérêt pour l’étude de leurs textes particuliers.

 

bullet
 
bulletVisualisation et lecture

Dans la dernière section de cet article, nous conclurons en examinant la visualisation et la lecture de manière générale. Il nous faut prendre du recul et nous poser des questions sur les fondements théoriques de la visualisation textuelle. En supposant que nous sachions ce qu’est la lecture, nous devons nous poser d’abord la question suivante:«Qu’est-ce que la visualisation?» Pour notre propos, une «visualisation» est une représentation interactive de données, sous forme graphique et métrique, pouvant être utilisée pour l’exploration. La visualisation textuelle serait donc une représentation où l’objet visualisé est le texte. Nous pourrons mieux le comprendre si nous prenons chaque partie de la définition séparément:

- Exploration interactive. Tout d’abord, nous voulons des représentations visuelles qui soient interactives pour pouvoir les modifier ou déclencher d’autres représentations qu’elles soient textuelles ou graphiques. La nature interactive des représentations graphiques tient à leur usage exploratoire. On étudie une représentation graphique en la manipulant plutôt qu’en la lisant de manière répétitive. En pratique, pour interpréter une visualisation, il faut faire varier les paramètres et observer les modifications des résultats sur le graphique. Même si on décide qu’une représentation particulière communique le mieux l’idée, c’est le processus d’interaction qui prend une représentation incontournable et qui aide à comprendre les données. Ainsi, la «lecture» des représentations visuelles tend à devenir une pratique bien plus active, proche de l’exploration d’un nouvel espace. On «regarde tout autour»: on manipule des données multidimensionnelles, projetées sur un écran en 2D, jusqu’ à ce qu’on ait une idée du tout. En fait, une partie de l’efficacité rhétorique de la représentation visuelle tient à la perception que l’image n’est pas une interprétation subjective du texte, comme l’est une illustration, mais qu’elle est métrique et s’inspire de mesures du texte. Ainsi a-t-on l’illusion que ce que l’on voit est le texte lui-même et non pas son interprétation par quelqu’un. Cette impression se renforce encore par l’activité de manipulation de l’image qui donne la sensation de toucher à l’original.

- Représentation graphique. Une visualisation textuelle est une représentation d’un texte sous forme d’image. A titre de comparaison, on pourrait dire qu’elle s’apparente aux représentations textuelles comme les abrégés et les résumés qui essaient de condenser un certain aspect du texte intégral. Une visualisation est simplement un résumé graphique plutôt que verbal. En tant que graphique, une visualisation se lit à peu près de la même manière qu’un diagramme ou un schéma quelconque. On ne le lit pas dans l’ordre, en commençant par le premier mot pour finir par le dernier. On tend plutôt à visionner les images en partant de l’aspect général pour aller aux détails et vice versa. Dans son livre superbe, The Visual Display of Quantitative Information, Edward Tufte écrit que les présentations graphiques les meilleures devraient entre autres choses «amener le regard à comparer différentes composantes des données [et] afficher les données à différents degrés de détails, en partant de la perspective générale la plus large pour aller aux plus menus détails de la structures.» (p. 14) Lorsqu’on examine un graphique, on passe de la vue générale au détail et on refait sans cesse le chemin inverse. On recule d’un pas pour contempler l’ensemble et on fait un pas en avant pour repérer la place respective des détails dans le tout. Les graphiques peuvent donc se révéler très efficaces pour montrer la structure globale d’un texte et la place de certains détails dans cette structure. Ils indiquent des tendances globales et des anomalies dans les détails qui peuvent conduire à plusieurs relectures du texte.

Comme nous l’avons remarqué, la faiblesse des représentations graphiques vient de ce que leur interprétation peut varier dans une large mesure lorsqu’il n’existe pas de normes d’interprétation des caractéristiques secondaires. C’est une raison supplémentaire qui explique que les visualisations sont plus efficaces lorsqu’elles sont utilisés par les chercheurs explorant les données que par d’autres hors contexte. Le chercheur qui a créé la visualisation connaît la signification des caractéristiques graphiques; il sait ce que signifie la proximité ou l’emploi de couleurs différentes dans le contexte d’une représentation visuelle particulière. En revanche, celui qui n’ a pas créé cette visualisation a généralement besoin d’un complément de description verbale pour que la lecture débouche sur le sens. C’est seulement lorsqu’on a compris le processus menant à la production de l’image qu’on est en mesure de la lire en la comprenant. Même les types de visualisations les plus communs ont recours à des légendes verbales et à des clefs pour expliquer ce qu’ils présentent. On serait tenté de dire que les visualisations sont un type de représentation ésotérique dont on doit avoir la clef pour l’interpréter. Une fois son initiation à la lecture générale du graphique terminée, le lecteur est investi de capacités nouvelles et puissantes de compréhension du texte.

- Représentation métrique. Pour qu’une visualisation soit interactive et exploratoire, il faut habituellement qu’elle se base sur une quantification du texte. Le texte est mesuré et ce sont les dimensions qui sont transformées en graphiques: il peut s’agir du nombre d’occurrences d’une chaîne de caractères particulière, par exemple. Les hypertextes peuvent être des graphismes interactifs non métriques où on clique sur des parties de l’illustration, ce qui conduit à une interaction avec le système. Comme nous l’avons mentionné ci-dessus, c’est le caractère métrique des visualisations qui apporte une valeur rhétorique à l’exploration. Tout d’abord, on a tendance à l’utiliser en premier lieu quand on a affaire à des données quantitatives, mais aussi parce qu’on éprouve un sentiment de proximité envers une image qui n’est pas basée sur l’interprétation de quelqu’un mais sur une mesure directe du texte. Si l’on n’est pas d’accord avec la visualisation, on peut reprendre le processus à l’envers et identifier les modifications à apporter, ce que l’on ne pourrait faire de la même manière avec une illustration. Un environnement de visualisation où la programmation graphique s’affiche sous forme de graphique permet non seulement de lire les résultats mais aussi de visualiser la logique du processus de représentation. Il est possible de changer les opérateurs ou les sources de données si l’on croit que la visualisation n’ a pas été générée correctement.

Enfin, permettez-nous de poser une question fondamentale qui sous-tend toute la problématique de l’application de la «visualisation textuelle» à l’étude de la littérature. Dans la partie théorique de son œuvre monumentale: Semiology of Graphics, Jacques Bertin établit une distinction entre le langage qu’il appelle polysémique et les données graphiques qui sont monosémiques. Par «monosémique», il veut dire que chaque signe dans un graphique possède une seule signification et que cette signification est connue avant de procéder à l’observation du graphique. Le processus de perception se concentre alors sur les relations entre les signes et avec le monde extérieur. Seules les significations données donnent lieu à une interprétation, ce qui réduit au maximum les risques de confusion. Comme l’explique Bertin, une fois les codes correctement compris, tous ceux qui regardent le graphique, y accorderont la même signification et «tomberont d’accord pour ne pas les discuter davantage». En revanche, les sciences humaines sont centrées sur les mots et exprimées par des mots. Les systèmes langagiers sont polysémiques, faits de mots à plusieurs composants sémantiques qui, de par leur vraie nature, ne peuvent pas être réduits à une seule signification. Ainsi, plusieurs problèmes relatifs aux sciences humaines sont toujours sujets à réinterprétation à la lumière de la culture du moment et de sa compréhension du mot. Il faudra bien que les gens qui désirent appliquer aux textes les méthodes scientifiques et mathématiques finissent par résorber cette dichotomie entre la nature mathématique/graphique et textuelle/métaphorique du discours.

 

 

bulletNote

7 - Nous avons réalisé un prototype de l’aspect qu’aurait un tel cadre. Voir URL: http://www.humanities.mcmaster.ca/~grockwel/ictpaper/ictintro.htm

 

bulletRéférences

Bertin, J., Semiology of Graphics, University of Wisconsin Press, Madisson, Wisconsin, 1983 (traduction de W.J. Berg).

Tufte, E.R., The Visual Display of Quantitative Information, Graphics Press, Chesire, Connecticut, 1983.

 

Visualisation scientifique et analyse de texte
de Geoffrey Rockwell, Université McMaster (Hamilton, Canada),
et John Bradley, King's College (Londres, Royaume-Uni)

 

2003 (1999)

 

Voir dans l'encyclopédie de l'Astrolabe:

L'Analyse par tableaux. III - Applications à la prose

Quelques obstacles historiques et épistémologiques dans le développement de l'analyse de texte informatisée