Visualisation scientifique et analyse de texte (1)

de Geoffrey Rockwell

Université McMaster (Hamilton, Canada)

et John Bradley

King's College (Londres, Royaume-Uni)

 

bullet1. Visualisation scientifique
bullet 2. Applications de la visualisation scientifique à l'analyse de texte
bullet 3. Visualisation et analyse de texte

 

bulletIntroduction

La reconstitution par images de synthèse du mouvement de l’air sur le fuselage d’un avion supersonique et de celui des particules subatomiques au cours d’une réaction chimique constituent deux exemples de visualisation scientifique, technique qui suscite un grand intérêt parmi les scientifiques et les ingénieurs. La visualisation scientifique implique habituellement un nombre de données quantitatives tellement énorme qu’il serait trop difficile d’en faire une lecture interactive et rhétorique efficace. Serait-il par contre possible d’appliquer ces techniques aux textes? Plus concrètement, qu’est-ce que la visualisation scientifique nous enseigne sur la compréhension graphique de l’information en général et de l’analyse de texte en particulier? Cet article examine les perspectives que la visualisation scientifique ouvre en matière de visualisation des textes. Nous soutenons que, dans les études de texte assistées par ordinateur, il existe déjà aujourd’hui un ensemble standardisé de techniques et de structures de données qui pourrait servir de base à la création d’un jeu d’outils de visualisation textuelle et que, par le biais de ce développement, un plus grand nombre de personnes, qui ne disposent pas des ressources nécessaires pour créer de tels outils, auraient accès à ces derniers.

De plus, nous sommes persuadés que davantage de travaux de ce type favoriseront le développement d’outils qu’on pourrait appliquer utilement à maints sujets de recherche en Lettres et mettre au service d’un plus grand nombre de chercheurs. Dans cette optique, nous nous proposons de discuter d’abord de la visualisation scientifique, pour débattre ensuite de l’application des techniques de visualisation à l’analyse de texte et enfin, de conclure par quelques observations sur la visualisation et sa lecture.

 

bullet1. Visualisation scientifique

Notre capacité de recueillir et de générer des données grâce à l’informatique dépasse largement celle de les interpréter. Il n’est pas rare dans les sciences appliquées de recueillir une telle quantité de données numériques que l’interprétation manuelle de ces résultats devient pratiquement impossible. La lecture de colonnes de chiffres pour y repérer les anomalies ou les tendances s’avère rapidement inutile. C’est une des raisons pour lesquelles, depuis le XVIIIe siècle, nous utilisons les graphiques pour présenter l’information quantitative. Il y a deux siècles, William Playfair, un des inventeurs des graphiques statistiques faisait déjà observer:

L’information qui n’est pas parfaitement acquise est généralement aussi imparfaitement retenue; et un homme qui examine un tableau de chiffres imprimé constate ensuite qu’il ne lui reste qu’une idée vague et partielle de ce qu’il a lu; comme empreinte dans le sable, elle s’efface bientôt totalement et n’est plus reconnaissable… L’inspection attentive de n’importe quel graphique laisse une impression suffisamment claire pour qu’elle ne s’altère pas pendant une période de temps considérable et l’idée qui en restera sera simple et complète, car englobant l’ensemble des nombres et ce, pour longtemps. (p. 3-4)

Une bonne représentation graphique des données aide non seulement le lecteur à se rappeler de l’information, elle l’aide aussi à repérer rapidement les tendances dans les données ainsi que les anomalies. Ou, comme Tufte le propose de façon programmatique dans The Visual Display of Quantitative Information, «L'excellence en matière de graphisme est ce qui donne au lecteur le plus grand nombre d’idées en un minimum de temps, avec le moins d’encre possible, dans le plus petit espace possible.» (p. 51)

Figure 1. Combinaison d’un tableau d’un côte et d’un graphique de l’autre

 

La visualisation s’appuie sur l’efficacité rhétorique des représentations graphiques pour convertir des images en outils d’exploration. Les graphiques ont traditionnellement été utilisés pour présenter l’information parfaitement comprise par un chercheur à ses pairs ou au grand public. La représentation graphique des données suit la compréhension. La visualisation, en revanche, utilise la représentation graphique pour aider à la compréhension des données. Le chercheur lui-même a recours à la visualisation pour explorer les tendances qui se dégagent des données ou pour en analyser les détails. C’est la raison pour laquelle la visualisation n’intervient pas uniquement au début du processus de recherche; elle est aussi typiquement interactive. Lorsque les représentations visuelles sont générées par ordinateur, elles ne sont pas forcément statiques; elles peuvent être dynamiques et le chercheur peut les manipuler pour en explorer les données. La visualisation informatique constitue autant un outil d’exploration qu’une représentation.

Même si les modèles et les méthodes de visualisation ont un caractère très général et sont applicables à différents problèmes scientifiques, une partie de leur utilité tient au fait qu’ils peuvent être appliqués à un problème spécifique auquel un ingénieur ou un scientifique particulier est confronté. Ces outils étant devenus conviviaux, il est maintenant possible de les utiliser avec un minimum de programmation et de faire l’économie d’analyses mathématiques laborieuses. Sans trop perdre le fil de ses idées, le chercheur est en mesure de voir sur un écran les images qui représentent ses données, de «visualiser» en fait ses données. Il peut dès lors avoir une meilleure idée des structures et des forces qui en ont tissé la trame. Dans certains cas, les tendances et les anomalies apparaissent de manière frappante alors que les méthodes statistiques appliquées à ces données brutes peuvent ne les révéler que de manière partielle ou tout simplement ne pas les détecter.

Quelle est la source de l’efficacité rhétorique des visualisations? L’impact remarquable qu’exercent les représentations visuelles tient bien entendu au réalisme qui s’attache à l’objet. Le rendu d’une image de haute définition en 3-D, projetée sur un écran en 2-D, attire le regard mais ce n’est pas la seule explication. L’image visuelle en 3-D est générée par informatique, ce qui permet rotations et changements d’échelle rapides. La fonctionnalité de faire tourner rapidement l’objet et de le regarder sous des angles variés fait que l’objet simulé devient une «chose réelle» qu’on peut manipuler. La présence de graphiques qu’on peut modeler en direct libère chez tous l’intuition naturelle qui facilite l’interaction efficace avec les choses que nous voyons en permanence dans le monde naturel. Elle s’implique dans le processus de compréhension. Au lieu d’être un simple outil de présentation, l’image graphique devient un instrument de recherche important, dont l’efficacité est la plus grande au moment où le chercheur se débat encore avec les structures de base des données qu’il ou elle a présentées à la machine.

L’acceptation de la visualisation scientifique repose sur une culture de l’interprétation. La clef du succès de la visualisation scientifique tient au moins en partie au fait que les structures de données et les méthodes qui la rendent possible sont acceptées par un grand nombre dans les cercles scientifiques. Les Sciences utilisent et enseignent traditionnellement ces méthodes, si bien que la visualisation qui s’appuie sur des méthodes complexes est facilement comprise dans les cercles scientifiques. Pour être plus précis, l’acceptation des outils de visualisation dans les Sciences est le résultat de deux forces; d’abord, la normalisation et la formalisation des structures de données et des traitements appropriés (dans le cas de la visualisation, il s’agit avant tout d’une branche particulière des mathématiques), tout autant que des méthodes mathématiques acceptées et comprises par un grand nombre, si bien que ceux qui ne sont ni mathématiciens ni programmeurs sont en mesure de bien utiliser ces outils, en peu de temps et avec un minimum d’efforts.

C’est grâce à la normalisation et à l’acceptation qui s’opèrent dans la discipline, que les représentations visuelles prennent toute leur signification et que des outils peuvent être conçus pour servir dans un éventail d’applications. Une représentation visuelle peut signifier mille mots, mais sans norme, ces mille mots ne sont pas nécessairement les mêmes pour chaque lecteur. En s’entendant sur la structure et les méthodes à utiliser, il est possible de faire une interprétation fiable des représentations visuelles et de concevoir des outils de vulgarisation.

 

bullet

 

bullet

Outils de visualisation

Il faut attribuer une partie du succès de la visualisation scientifique à la qualité des outils disponibles. Dans le monde de la visualisation scientifique, la convivialité des outils normalisés, comme celle des progiciels AVL, Explorer ou Khorus, a tellement progressé qu’ils se ressemblent et que tous les trois peuvent être utilisés de manière productive, sans programmation au sens traditionnel du terme. Un genre d’outils de visualisation a vu le jour: faciles d’utilisation, ceux-ci présentent certaines caractéristiques communes.

Figure 2. G. Rockwell et J. Bradley, Ecran Explorer


L’illustration 2 montre un écran type créé par Explorer. Le logiciel projette ici des données géographiques sur une carte de Corée. Le livre de R.A. Earnshaw et N. Wiseman, An Introductory Guide to Scientific Visualization, fait le point de la question de la visualisation telle qu’elle existait en 1992. Dans leur discussion de Khorus, ils identifient cinq composants majeurs de ce type de logiciel de visualisation scientifique. Tous ces composants se retrouvent aussi chez AVL et Explorer:

- Inter-opérabilité de l’échange de données: ensemble de structures de données qui représente les items de base du discours propre au système.

- Bibliothèques de traitement des données: ensemble d’opérateurs normalisés qui peuvent traiter ces types de données. Explorer donne à l’utilisateur une palette affichant les noms des divers opérateurs, présentés dans la fenêtre au coin supérieur gauche de la figure 2.

- Afficheur: logiciel qui prend les données résultantes et les affiche à l’écran. Voir l’afficheur d’Explorer dans la petite fenêtre située près du coin supérieur droit de la figure 2.

- Environnement de programmation visuelle: espace à deux dimensions, projeté sur l’écran de l’ordinateur, et dont les nœuds de traitement sont reliés pour fournir un flux de données. Les nœuds sont créés à partir d’une bibliothèque d’opérateurs.

- Système de développement d’une interface utilisateur: assistant de programmation: ensemble de routines auxquelles tout programmeur peut faire appel lorsqu’il crée ses propres opérateurs ou modes d’affichage graphique.

Les trois premiers de ces composants (que nous donnons dans un ordre différent de celui utilisé par Earnshaw et Wiseman dans leur livre) montre des liens directs avec les idées d’abord véhiculées par le système d’opération UNIX, y compris la fourniture de types de données normalisées, un ensemble d’opérateurs de base qui peuvent leur être appliqués ainsi que des outils rudimentaires pour les relier entre eux. Le développement des interfaces d’opération plus sophistiqué, l’idée d’«espace de travail», espace à deux dimensions sur lequel l’utilisateur assemblait les opérateurs disponibles qu’il souhaitait utiliser et indiquait la manière dont l’information circulait entre eux, finalement, le développement de paradigmes de programmation, principalement la Programmation orientée objet, ont permis le design de logiciels où les modules de transformation des données peuvent être développés indépendamment du codage de l’espace de travail lui-même, permettant ainsi à d’autres de complexifier le système, même après l’achèvement de l’espace de travail.

Un des aspects de ce genre d’outils de visualisation qui pourrait prêter à confusion est l’utilisation d’environnements visuels de programmation. Ces outils de visualisation offrent un environnement qui leur est caractéristique: le chercheur peut créer les programmes traitant les données qui génèrent à leur tour les représentations visuelles interactives. Ces programmes ne sont pas réalisés en rédigeant du code, mais en invoquant des composants (qui traitent les données) et qu’on relie dans l’espace de travail avec des tuyaux pour que les données qu’ils acheminent puissent être représentées sous une forme graphique appropriée. Le résultat étant que le lieu de travail constitue une représentation visuelle d’un autre genre. Il s’agit de la visualisation du flux de données qui montre la logique du processus par lequel les données sont préparées avant d’être transformées en graphique, non pas une visualisation des données elles-mêmes. Il s’agit d’une visualisation du processus, non du résultat, bien qu’il ne soit pas surprenant que dans une communauté qui s’intéresse à la visualisation apparaissent aussi des instruments destinés à visualiser le processus.

En résumé, la visualisation scientifique présente les aspects suivants:

- La visualisation est une technique conçue pour traiter de grandes quantités de données quantitatives. Ce sont habituellement des données à variables multiples et souvent des données qui ont une dimension spatiale ou temporelle.

- Les visualisations sont généralement des représentations graphiques interactives, générées par ordinateur, et conçues non seulement pour présenter les données aux autres, mais aussi pour les explorer et les comprendre.

- Les représentations visuelles dépendent des normes appliquées aux données et du degré d’acceptation des méthodes utilisées dans la communauté d’application.

- Les instruments de visualisation utilisent souvent des environnements graphiques de programmation.

 

 

bulletNote

1 - Ce texte est une version révisée de l'article intitulé «Empreintes dans le sable: visualisation scientifique et analyse de texte» paru dans Littérature, informatique, lecture, textes réunis par Alain Vuillemin et Michel Lenoble, Limoges, Presses universitaires de Limoges,  1999. Il est publié ici avec l'aimable autorisation d'Alain Vuillemin et de Michel Lenoble, des Pulim de l'Université de Limoges (France) et avec le concours du Certel de l'Université d'Artois. Traduction originale de Pierre Hervy.

 

bulletRéférences

Playfair, W., The Commercial and Political Atlas (repris de l’ouvrage de Tufte, E.R., The Visual Display of Quantitative Information, p. 32).

Tufte, E.R., The Visual Display of Quantitative Information, Graphics Press, Chesire, Connecticut, 1983.
 

 

Si vous ne voyez pas le bouton de navigation: Suite