La Méthode informatisée d’analyse de discours «Alceste».
Application aux Rêveries du promeneur solitaire (1)
de Max Reinert
Centre national de la recherche scientifique, UMR 8085
Université de Versailles (France)
|
Introduction |
En France, une école originale d’approche des statistiques textuelles - et plus généralement qualitatives - s’est développée dans les années soixante à partir des travaux de Jean-Paul Benzécri (2) [1], le père de l’Analyse factorielle des correspondances. Comme on sait, cette méthode a été mise au point pour traiter les données linguistiques. Benzécri [2] se réfère d'ailleurs aux travaux de Harris (3) sur l'analyse distributionnelle.
Mes propres travaux qui ont abouti à la méthode Alceste [4] sont basés sur une conception de la distribution non pas linguistique mais sémiotique. Ils ont débuté avec ma thèse en 1979 et se poursuivent aujourd'hui en contact avec des écoles de statistique textuelle [5] et d'analyse de discours [6, 21]. Formellement, la méthode Alceste repose sur un concept simple: le corpus à analyser est découpé en fragments de texte d'à peu près même taille relativement réduite, appelés les unités de contexte. Ces fragments sont ensuite classés statistiquement selon une procédure descendante hiérarchique (4). Cette méthode est entièrement informatisée. Dans sa version 5, le logiciel (5) permet d’analyser des corpus composés au plus de 40000 fragments et de les classer en tenant compte de la distribution simultanée de 3000 mots pleins. Ceci permet de traiter des corpus allant jusqu’à 60 millions de caractères.
Un point délicat de la méthode concerne l'aspect arbitraire du découpage des fragments (6). Au niveau technique, cet aspect est maîtrisé en faisant varier la grandeur des fragments et en ne retenant que les classes stables pour l’interprétation. Comme on l'a déjà suggéré, ce modèle est essentiellement sémiotique et non pas linguistique. Il s’adapte aussi bien à l’analyse de corpus de textes littéraires, de poésies, qu’à des articles scientifiques, des journaux, des entretiens, etc. Il suffit que l'ensemble des énoncés du corpus ait un sens pour l’analyste relativement à l’objet qui l’intéresse. Objet et sens, voilà les deux notions que nous devons maintenant discuter pour justifier nos choix.
|
1. Quelques analogies avec l’analyse de contenu |
Nous partirons de quelques analogies avec l’analyse de contenu. Pour Berelson (cité par Laurence Bardin [7]), l’analyse de contenu est «une technique de recherche, pour la description, objective, systématique et quantitative du contenu manifeste des communications, ayant pour but de les interpréter». L’analyste constitue une grille de «catégories». Le texte analysé est segmenté en fragments répartis dans cette grille (7)… On sait le premier problème d'une telle analyse: le résultat à obtenir (la grille de catégories) est ce qu’il faut présupposer…
Observons cependant quelques principes importants de cette méthode:
1) le corpus est supposé être une réponse aux questions de l’analyste. Plus précisément même, les fragments séparés par l'analyste sont interprétables comme des sortes de prédicats de l’objet recherché, d'ailleurs explicitement nommé par le nom de la catégorie d'affectation;
2) la grille de l’analyse de contenu est ainsi supposée représenter l’objet de la recherche sous ses différentes facettes. C’est une conception structuraliste du sens qui apparaît ici.
On retrouve cette conception du sens dans la notion de valeur chez Saussure. Pour Saussure [8], le signifié fut d’abord conçu comme concept; cette notion a été ensuite modulée pour tenir compte de ce que Saussure appelle la valeur. Par exemple, le signifié «bleu», ne dépend pas uniquement de notre expérience, mais également de la distribution des mots de couleur dans la langue française, qui implique un découpage particulier de notre expérience et modifie par là notre perception même de la réalité.
En analyse de contenu, il y a bien un problème du même type que celui de la valeur. La grille de catégories, par sa structure même, impose une certaine valeur aux catégories extraites, et ce qu’on appelle «famille» dans une grille particulière n’est pas ce qu’on appellera «famille» dans une autre grille. Autrement dit, la notion de «contenu manifeste» dépend de la manière de concevoir la grille. Tant que la grille n’est pas fixée, ce jeu des valeurs reste mobile et le jeu des significations avec… si on appelle justement signification ce qu'un signe par sa structure permet de représenter du sens.
Les critiques à l'adresse de l'analyse de contenu ne sont pas nouvelles… Elles datent des années soixante [9, 10]… Une critique plus générale pourrait aussi concerner notre méthode: qu’est-ce qu’un contenu, séparé de l’acte de parole et de la situation qui l'a engendré sinon sa signification dans un signe? Et en fragmentant le signe «texte», ne détruit-on pas la signification elle-même? On sait bien que l'on peut faire dire ce que l’on veut à un fragment de texte décontextualisé. Remarquons, cependant que l’analyse de contenu est toujours utilisée et doit donc bien répondre à quelque chose. Une réflexion sur ce qui se fait pragmatiquement à travers elle nous a justement conduit à Alceste.
|
2. Aspect sémiotique de l'approche Alceste |
La méthode que nous proposons réconcilie d’une certaine manière, l’objet d’une analyse de contenu avec le sujet d’une analyse de discours, comme deux moments s'articulant dans le parcours même d’une lecture. D’abord, nous ne nions pas qu’un aspect du contenu fasse système: c’est même un des ressorts d’Alceste qui signifie selon des classes ou des axes factoriels. Cette partie du sens qui se stabilise, se modélise, se calcule, c'est ce que nous avons appelé la signification. Signifier en ce sens, c'est construire des plans, des scénarios, des phrases, des concepts, des formes. Cela dit, en donnant à voir le sens, on le schématise et on le fige dans une structure hors temps. Mais s’il était possible de représenter l'intégralité du sens dans une telle structure, il n'y aurait plus de temps, donc plus de sujet, et donc également plus d'objet. Pour éviter cette aporie d’une conception uniquement structuraliste du sens, il est donc nécessaire d'y inclure le temps comme une composante réelle inaliénable, non représentable, qui s'évalue seulement dans un corps, ici et maintenant. Cela nous a porté vers une conception plus dynamique du sens, avec le père de la pragmatique, Charles Sanders Peirce [11]… qui fut, pourtant, avant tout un logicien, mais sa conception ne nous semble pas sans rapport avec la conception lacanienne [24] ce que montre notamment Michel Balat dans un ouvrage récent [26].
Pour Peirce, «le sens d’un signe est le signe dans lequel il doit être traduit» (8). Plus que «logique» (9), ce «il doit» est pragmatique et marque la durée d'une inférence. Le sens s’impose d'abord réellement, il s’impose notamment à travers ce que Peirce appelle «une habitude» (10). Dans cette perspective pragmatiste, «l’objet» du signe n’est pas un référent statique dénoté par un signe séparable d'une pratique; l'objet et le signe sont enveloppés dans un même usage. Aussi l’objet ne se confond pas avec son apparence dans un signe particulier mais il est dynamique du fait même qu'il est vivant dans cet usage: il se montre dans le mouvement d'un sens. La notion de signe doit donc elle-même inclure le temps de la sémiose. Aussi un signe n'est pas simplement une apparence mais une certaine manière de passer d'une apparence à l'autre. Peirce distingue trois manières de faire signe: l'icône, l'indice et le symbole. Reprenons sa conception pour ponctuer les différents moments d'une sémiose (11). On distinguera:
1) le moment iconique de la sémiose. L'attrait d'une apparence, d'une icône. Elle n’est qu’un premier «mode d’être» du signe, celui de son inscription dans un présent sensible, immédiat (notion de «priméité» chez Peirce), dont la densité, la saillance, la numinosité cependant, sont à l'exacte mesure de ce qui le rattache à des «fragments d'histoire», des expériences passées;
2) en captant un regard, cette icône a des effets réels, dans un corps réel, au niveau des désirs, des affects ou des actes, ici et maintenant. On appellera ce second moment, le moment indexical de la sémiose (notion de «secondéïté» chez Peirce [11], d'embrayage chez Jakobson [12]);
3) si la sémiose s'ouvre sur des apparences fluctuantes, se poursuit comme mouvement, elle se réfléchit également dans une représentation même de ce mouvement. Cette représentation passe par la médiatisation symbolique de nouveaux signes plus abstraits tels les lois, les concepts, les formes, les structures (notion de tiercéité chez Peirce), que Peirce appelle des interprétants symboliques. Prendre conscience d'un sens, c'est déjà le représenter comme forme, avec cette idée de permanence. C'est aussi, par là même, sortir de l'expérience immédiate en se situant soi-même comme assujetti à son histoire dans un cycle des répétitions, dans un ordre mythique [13]. On appellera ce moment, le moment symbolique de la sémiose.
La conception peircienne du signe est fondamentalement dynamique et s'oppose clairement à la conception saussurienne. Elle conduit à considérer le signe comme déterminé par son objet, celui-ci étant avant tout temporel et dynamique, enveloppé qu'il est, dans des usages et dans des corps. Certes, un signe en traduit un autre pour un sujet s'il représente un même objet. Mais la mesure de ce Même est toute relative, et porte la marque d'une histoire de ce sujet. En recherchant le bon interprétant, le sujet projette devant lui, dans un avenir toujours fuyant, l'objet qui le pousse dans le dos à poursuivre sa quête. Le sens échappe justement parce que son objet est antérieur à sa saisie consciente et la provoque. Mais peut-on encore parler d'objet pour cet avant-sujet, ce lieu origine où sujet et objet se confondent, et qui est pourtant un lieu de naissance de chaque instant ?
Revenons au discours. L'objet d'un discours est lui aussi, à la fois à l'origine du discours, qu'il provoque, et à l'horizon de tout énoncé, puisqu'en parler ne peut épuiser le réel de l'objet. Ainsi le thème circule d’énoncé en énoncé, donnant un sens au discours [14]. Ce qui reste de cette circulation du sens dans un discours, c’est le texte. Mais le sens (12) n’est pas dans le texte, le sens était dans le temps de cette circulation, dans le dynamisme d’une parole réelle [6, 16]. Il reste cependant dans le texte, une trace formelle du passage de l'objet, non seulement à travers les significations construites, représentées, mais aussi à travers ce qui se montre seulement comme des traces de pas. Si le sens particulier à l’origine du texte semble à jamais perdu, un ordre temporel, linéaire, s’y est déposé, dont la lisibilité dépendra de l’expérience réelle d’un lecteur, avec sa propre scansion, susceptible de mettre en résonance sa propre histoire.
Nous pouvons maintenant répondre à la critique posée par notre segmentation car notre propos avec Alceste [17] n’est pas d'analyser la signification représentée dans un texte dans sa complexification progressive. Le texte est déjà là dans toute sa complexité et suffit à la montrer. Notre propos est plutôt d’aller à contre-sens, vers cette origine objective et dynamique présente dans les traces les plus immédiates, les moins pensées. Et pour cela il faut déconstruire le texte; à chaque pas, cerner une marque de ce qui s'offre spontanément. Pour cela, le discours doit s'entendre dans le rythme de ses moments toujours renouvelés. Ce n'est pas tant qui parle, ou ce qui se dit, qui nous intéresse mais d’où ça parle, à chaque instant?
|
3. La Notion d’association verbale et de fond topique |
Aller vers l’origine topique du sens plutôt qu’à sa poursuite, telle fut notre premier désir avec Alceste. C’est la raison pour laquelle, je me suis intéressé dans ma thèse [27] à l'analyse de corpus d’associations verbales [19]. Associer des mots à partir d’un mot est une activité qui semble naturelle, notamment si ce mot stimulus provient d’un vocabulaire de l'enfance. Notre conscience s’est constituée peu à peu à partir de ces mots du premier âge. Ils sont le lieu de notre vraie naissance comme sujet d’une histoire. Cela est particulièrement sensible avec des mots comme «eau, terre, air, feu» dont Bachelard disait qu’ils étaient les hormones de l’imaginaire [20].
Notre hypothèse est que, dans tout énoncé, un fond associatif est opérant, qu’il se révèle à travers la cooccurrence de ses mots pleins. Plutôt que fond associatif, nous l'appelons fond topique (13) car l'association se donne a priori comme trace archaïque d'une même origine topique. Par la terminologie de «mot plein», on fait justement référence à ce premier moment d'une sémiose où le signe se donne comme une abondance. Un mot plein introduit naturellement à un lieu-source, porteur d'images et d'affects. Cet aspect de la plénitude n'est pas linguistique, n'est pas de l'ordre du signifié ou de la valeur propre à l'ordre de la langue, ni d'une signification stabilisée, d'un usage normalisé dont les dictionnaires rendent compte. Un mot est plein, pour un sujet, ici et maintenant, car il interfère avec son histoire… et il est rarement plein tout seul; cette abondance contamine tout un moment…. Mais ce moment est mal représenté par la notion d'énoncé qui s'inscrit dans la complexification d'une signification, proposition, phrase, paragraphe, chapitre, ouvrage, etc. Ce n'est pas ce qui nous intéresse ici. Notre intérêt est de pouvoir situer les mots pleins dans un même voisinage temporel comme trace par leur cooccurrence d'une même origine topique [18].
C’est une autre manière que celle de l'analyse de contenu de parler de l’origine objective du sens dans un discours. Nous ne donnons, de plus, aucun contenu particulier, a priori, à nos fragments de texte qui n'ont pas à circonscrire une quelconque signification. Ils ne délimitent que des moments dans l'activité discursive. D'où le nécessaire aspect arbitraire de leur définition.
|
4. L’Analyse des Rêveries du promeneur solitaire |
Les Rêveries (14) sont composées de 10 promenades et constituent un petit corpus d’environ 42500 occurrences. Le logiciel est programmé pour que les paramètres (15) d'une analyse s'adaptent automatiquement à la grandeur du corpus. C'est ce que nous appelons «l'analyse standard». Ce sont les résultats de cette analyse que nous présentons ici. Le corpus a été segmenté par le logiciel en 1716 fragments ou «unités de contexte élémentaires» (u.c.e.). Les 987 «mots pleins» différents d'au moins quatre occurrences (après lemmatisation) ont été retenus pour l’étude des distributions.
Le découpage des u.c.e. est relativement arbitraire, même si l'algorithme tient compte de la ponctuation lorsqu’elle existe. Aussi, dans la procédure standard, on procède à un double découpage pour tester la stabilité des résultats (16). Le nombre de classes stables obtenues varie selon le corpus. Quatre classes terminales émergent ici du calcul regroupant 64.1 % des u.c.e. composant ce corpus (cf. figure 1 et tableau 1) (17). L'analyse standard propose donc ici une partition des u.c.e. en quatre classes selon la hiérarchie (figure 1). J'ai renuméroté les classes afin que la segmentation des classes 2a et 2b apparaisse bien comme une différenciation seconde d'une même classe mère: la classe 2 (qui comprend 755 u.c.e.).
Figure 1. Dendogramme commun des deux classifications descendantes hiérarchiques (C.D.H.)

Tableau 1. Distribution croisée des U.C.E. entre les deux classifications standard

Le Tableau 2 présente la liste des bases lexicales des mots pleins par classe. Cette liste est ordonnée par Khi 2 décroissant (18). Le Tableau 3 présente la distribution croisée des u.c.e. entre classes et promenades (les deux sous-classes 2a et 2b ne sont pas distinguées) afin de faire apparaître une forte discontinuité des mondes lexicaux entre deux promenades successives. Les termes en grisé soulignent les associations privilégiées (19). Le Tableau 4 contient une sélection des u.c.e. les plus représentatives de la classe, toujours au sens (20) du Khi 2. Des intitulés ont été ajoutés en fonction de nos interprétations.
Tableau 2. Liste du vocabulaire spécifique par classe

Tableau 3. Distribution croisée «Promenades x classes»

Tableau 4. U.C.E. les plus représentatives des classes

Discussion
Je commencerai par une remarque préalable sur les moments d'une interprétation des résultats d'Alceste. Les classes obtenues peuvent être interprétées de trois points de vue: a) comme contenu, c'est-à-dire, en elles-mêmes en observant la liste des mots ou la liste des u.c.e. qui leurs sont spécifiques; b) comme activité, car leurs oppositions les unes aux autres expriment un certain dynamisme du parcours discursif; c) comme représentation, puisque ces classes font système et reflètent une certaine stabilisation de l'activité de l'auteur. Ces trois points de vue sur les classes sont prédéterminés par les modes mêmes du calcul et de la présentation des résultats choisis dans Alceste. Elles se combinent cependant de façon remarquable avec les trois moments de la sémiose déjà évoqués: iconicité, indexicalité et symbolisation. Trois moments donc que nous allons parcourir maintenant :
1) Les classes comme contenu. Un signe en lui-même ne peut s'interpréter que comme icône. Le signe s'offre comme transparence à l'interprète. Par exemple, une lecture des listes de mots spécifiques (tableau 2) donne l'impression d'en saisir quelque chose que l'on s'est contenté de traduire par un mot: Jugement pour la première liste; Affect pour la seconde; Nature pour la troisième. Mais, en les nommant, nous voilà déjà pris aux pièges des sémioses car on confond ce qui est de l'ordre d'une interprétation immédiate (moments iconique et indexical) et ce qui est de l'ordre d'une interprétation médiate (moment symbolique de la nomination). Ainsi, les intitulés Jugement, Affect, Nature, représentent (symboliquement) des interprétants du moment iconique de notre interprétation des classes (approche des contenus).
2) Les interprétants du moment de l'indexicalité. Chaque fragment de texte identifie un moment de ce qui se dit dans l'oeuvre. Les classes, en tant que classes de fragments, apparaissent maintenant, comme autant de tendances de l'auteur à revenir sur certaines problématiques. Ce retour est perçu dès lors non comme contenu mais comme une marque indexicale du sujet, marque bien sûr médiatisée dans Alceste par la représentation du cheminement de ces moments dans les classes. Le tableau 3 montre l'aspect pulsatif, hétérogène, de ce parcours, promenade après promenade. Cela est cohérent avec le point de vue de nombreux critiques, tel Jacques Voisine pour qui [22]:
Cette composition en dents de scie du recueil a exercé l'ingéniosité de la critique, intriguée par la discontinuité d'une promenade à la suivante… En gros un rythme oscillatoire se dessine ainsi entre les phases d'équilibre et les phases d'inquiétude; il correspond à peu près à la courbe de l'humeur de Rousseau, telle que la dessinent les impressions de ceux de ses contemporains qui lui ont rendu visite au cours des quinze à dix-huit mois sur lesquels s'étend la rédaction du livre…
3) Les interprétants du moment symbolique. Ce sautillement discursif tel qu'il apparaît ici a-t-il une signification? Autrement dit, en quoi les classes peuvent-elles se déduire les unes des autres ? Le premier paragraphe de la première promenade qui introduit l'œuvre est à ce titre éclairant :
Me voici donc seul sur la terre, n'ayant plus de frère, de prochain, d'ami, de société que moi-même. Le plus sociable et le plus aimant des humains en a été proscrit par un accord unanime. Ils ont cherché dans les raffinements de leur haine quel tourment pouvait être le plus cruel à mon âme sensible, et ils ont brisé violemment tous les liens qui m'attachaient à eux. […] Les voilà donc étrangers, inconnus, nuls enfin pour moi puisqu'ils l'ont voulu. Mais moi, détaché d'eux et de tout, que suis-je moi-même? Voilà ce qui me reste à chercher.
La quête de l'auteur, en fin de vie, n'est cependant pas tant identitaire que métaphysique. Qu'est-ce que «être» pour lui dorénavant? Question sans réponse, qu'il ne peut évoquer que dans un jeu tournant de postures et que nos trois classes épinglent (cf. tableau 4). Chaque posture de l'auteur y aboutit à un paradoxe:
a) Dans la première classe, Jugement, c'est la posture du Maître qui se profile: argumentation réfléchie, logique; comment prouver que son expérience intime du mensonge n'entame pas sa recherche sincère de la vérité? Le paradoxe «je mens et pourtant je dis vrai» est, à la décharge de l'auteur, le paradoxe de tout signe.
b) Dans la seconde classe, Affect, Rousseau prend la posture de l'Acteur: montrer à travers les épreuves infligées par ses «persécuteurs» que celles-ci n'entament pas sa possibilité d'être heureux malgré eux (cf. tableau 4). Ce mouvement entre ces deux pôles de l'affect est suffisamment ample pour donner naissance dans cette analyse à deux sous-classes 2a et 2b de tonalité affective contraire, comme si toute évocation du bonheur appelait une évocation du malheur et vice-versa. Ne montre-t-il pas par là le paradoxe de la jouissance?
c) La troisième classe Nature renvoie à la posture de l'Artiste. Le paradoxe y est plus subtil. Comme les fragments sélectionnés le suggèrent (cf. tableau 4), l'évocation de la nature se soutient d'un style harmonieux et ample dans le glissé de phrases sans fin. L'harmonie est cependant évoquée hors de l'auteur. En la signifiant, Rousseau s'en soustrait, s'en exclut lui même. Il y a là quelque chose du paradoxe de Narcisse: comment être l'objet que l'on voit sans se perdre?
Ces trois paradoxes, pour être compris, doivent être re-situés eux-mêmes dans nos trois moments de la sémiose relativement à la question de l'être: moment iconique de l'approche de l'être avec la recherche d'une harmonie; moment indexical de l'approche de l'être avec la recherche de la jouissance; enfin moment symbolique de l'approche de l'être avec la recherche de la vérité. Mais comme dans le noeud borroméen, la réponse à chaque moment ne tient que de nouer les deux autres moments dans un cycle sans fin. Ceci donne une texture très particulière à cette œuvre… dont l'hétérogénéité discursive est véritablement constitutive [23] de l'être qui ne peut se dévoiler. En se heurtant dans chaque posture à son double d'ombre qui s'ingénie à le contredire, Rousseau ne peut trouver le bon signifiant. Mais son échec est, par ce fait, prémonitoire du sujet lacanien irréductiblement divisé.
|
Une remarque en guise de conclusion… |
Pour en revenir à l’objectif de la méthode que nous développons, il n'est pas d'analyser la signification linguistique d'un corpus, il est de représenter les fonds topiques d'un discours à l'aide des mondes lexicaux. Il serait contradictoire avec nos références théoriques de penser qu'un calcul du sens pourrait être automatiquement effectué par un programme. Un calcul peut aboutir cependant à construire une représentation, une sorte de carte pour s'orienter. Cela étant, toute représentation, une fois calculée, ne peut être perçue et interprétée que comme icône (21), autrement dit, en fonction d'une affinité particulière avec l'expérience d'un sujet, sa manière d'y faire écho. C'est ce que nous appelons «s'engager dans un sens».
Au niveau d'une approche expérimentale, Alceste ne permet ni de valider des hypothèses a priori, ni même d'induire une hypothèse générale de cas attestés, mais bien plutôt, d'aider à formuler des hypothèses. Cet aspect abductif [11] de l'approche inférencielle est souvent négligé dans l'élaboration d'une expérience scientifique et cela nous semble très dommageable quand les données sont des discours, du fait de la complexité des objets qui les déterminent.
![]()
|
Références |
1 - BENZÉCRI J.P.,
L'Analyse des données,
DUNOD, 1973.
2
- BENZÉCRI J.P., Pratique de l'analyse
des données: linguistique et lexicologie,
DUNOD, 1981.
3
- PÊCHEUX
M., L'Inquiétude
du discours (Textes choisis et présentés par D.
Maldidier), Editions des cendres, 1990.
4
- REINERT
M., «Une méthode de
classification descendante hiérarchique», Cahiers de
l'analyse des données
, Dunod, 1983, no 3, p.
187-198.
5
- LEBART
L., SALEM A., Statistique textuelle,
Dunod, 1994.
6
- ACHARD
P., La Sociologie du langage,
P.U.F., 1993.
7
- BARDIN
L., L’Analyse de
contenu, P.U.F.,
1977.
8
- SAUSSURE F. de, Cours de
linguistique générale, Payot, 1987.
9
- HENRY P., MOSCOVICI S., «Problèmes
de l'analyse de contenu», Langages, 1968,
no 2.
10
- LEVY A.,
«L'Interprétation des discours»,
Connexions, 1974, no 11.
11
- PEIRCE Ch. S.,
Ecrits sur le signe
(Traduit et commenté par G. Deledalle), Editions
du Seuil, 1978.
12 - JAKOBSON R.,
Essai de linguistique générale, Editions de
Minuit, 1963.
13 - CASSIRER E.,
Langage et mythe, Editions
de Minuit, 1953.
14 - FOUCAULT M.,
L’Ordre du discours,
Gallimard, 1971.
15 - REINERT M., «Une
méthode d'analyse des données textuelles et une application: Aurélia de
G. de Nerval», Bulletin de méthodologie
sociologique, Paris, 1990,
no 26, p. 24-54.
16
- WALD P.,
«Classes d'énoncés, dimension modales et catégories
sociales dans Alceste», Utinam, 1999.
17 - REINERT M.,
«Quelques interrogations à
propos de l'«objet» d'une analyse de discours de type
statistique et de la réponse Alceste», Langage et
société, 1999, no 90, p. 57-70.
18 - REINERT M.,
«Mondes lexicaux et topoï dans
l'approche Alceste», dans
Mots chiffrés et déchiffrés. Mélanges offert à E.
Brunet, Honoré champion, 1998,
p. 289-303.
19 - JODELET F.,
«Les Associations verbales», dans
Traité de psychologie expérimentale, 1972, no 8,
p. 97-153.
20 - BACHELARD G.,
L’Eau et les rêves, José
Corti, 1942.
21 - ACHARD P.,
«L'Engagement de l'analyste à
l'épreuve d'un événement», Langage et société,
1997, no 79, p. 5-38.
22 - VOISINE J.,
«Préface», dans Les
Rêveries du promeneur solitaire, Flammarion, 1964.
23 - AUTHIER-REVUZ J.,
«Hétérogénéité montrée et hétérogénéité constitutive:
éléments pour une approche de l'autre dans le discours»,
DRLAV, 1982, no 26, p.
91-151.
24 - LACAN J.,
Encore. Le séminaire.
Livre 20, Editions du Seuil,
1975.
25 - EVERAERT-DESMEDT N.,
Le Processus interprétatif,
Liège, Mardaga, 1990.
26 - BALAT M., Des
fondements sémiotiques de la psychanalyse, L'Harmattan, 2000.
27 - REINERT
M., Analyse
de contenu et traitement statistique de deux corpus verbaux.
Présentation d'un programme de classification, (Thèse
de troisième cycle en statistique),
Paris VI, 1979.
28 - GUITART R., La
Pulsation mathématique,
L'Harmattan, 1999.
29 - REINERT M.,
«Alceste,
une méthode statistique et sémiotique d’analyse de discours.
Application aux Rêveries du promeneur solitaire»,
Revue française de psychiatrie
et de psychologie médicale,
tome
V, no 49, octobre 2001, p 32-36.
30 - REINERT M., «Le Rôle de la répétition dans la représentation du sens et son approche statistique par la méthode Alceste», Semiotica, 147, 1/4 (2003), p. 389-420.
|
Notes |
3 - Ce qui intéresse Benzécri c'est la possibilité d'opérationaliser
statistiquement la notion de distribution linguistique alors que
l'influence de Harris sur l'école française d'analyse de discours (travaux
de Pécheux [3]) passe beaucoup par l'intérêt idéologique pour l'analyse
des conditions de production des discours.
4 - Au premier pas, ces fragments sont distribués en deux classes les plus
différenciées possibles pour ce qui concerne leur vocabulaire spécifique.
Au second pas, on reprend les fragments de la plus grande des deux classes
et l'on réapplique le même algorithme. Au troisième pas, les fragments du
corpus sont maintenant distribués en trois classes. On choisit de nouveau
la plus grande et ainsi de suite jusqu'à obtenir le nombre désiré de
classes [15].
5 - Cette version
5 est personnelle. La version 4.7 est diffusée par la société Image de Toulouse sous licence C.N.R.S. Contact: Choeb
Zafar: contact@image-zafar.com
6 - On ne peut approfondir ici. Disons qu'il vient de ce que cette méthode ne
vise pas le niveau linguistique de la signification et que nous ne croyons
guère en la possibilité de découper un texte en «énoncés élémentaires»
(voir Reinert, 2003).
7 - De manière à assurer, entre autres: a) l’homogénéité des catégories;
b) l’exhaustivité et l’exclusivité du classement: un fragment pour une et
une seule catégorie; c) l’objectivité; d) la pertinence: les catégories
doivent à la fois être adaptées au contenu et à l’objectif.
8 - Cité par Everaert-Desmedt
[25], «Collected Papers» (4.132).
9 - Plus exactement, Peirce élargit cette notion de logique en distinguant
trois types d'inférences: déduction, induction et abduction; cette
dernière, «capacité d'émettre des hypothèses», ne pouvant être comprise sans
les apports d'une histoire individuelle et collective, et également sans
engagement personnel dans un sens.
10 - Cette «habitude» est dynamique en ce sens qu’il s’agit d’actualiser un
«fragment d’histoire» du sujet dans une situation donnée, de repérer
dans l’objet d’une situation, son expression métaphorique la renvoyant à
une expérience passée.
11 -
Notre propos est d'exposer nos hypothèses le plus simplement et nous ne
prétendons pas exposer la théorie peircienne. Cependant, il nous semble
clair qu'elles en découlent même si nous ne cherchons pas à le montrer
ici.
12 - En cela, le sens se différencie nettement de la signification.
13 - Peirce appelle
plus généralement «ground» [11] cet «avant» dynamique du
signe, qui conduit l'interprète vers une interprétation particulière.
14 - La version textuelle utilisée est celle diffusée sur Internet par
l'Association des bibliophiles universels (http://abu.cnam.fr).
15 -
Bien sûr, les paramètres standard peuvent être modifiés par l'utilisateur
à tout moment.
16 - D’où l’introduction du mot «élémentaire» car les u.c.e. servent de
«briques» de base pour construire des unités de contexte de longueur
variable. Ce double découpage conduit à construire deux tableaux de
données. Pour chaque tableau, les classes sont différenciées à l'aide de
notre algorithme de classification descendante hiérarchique
et reconverties ensuite en classes d'u.c.e. Une fois obtenue, les
deux hiérarchies de classes sont comparées. Seule la partie stable des
partitions terminales est retenue et décrite. On trouvera un exemple de ce
calcul dans [15]. Depuis, ces calculs ont été automatisés.
17 - Par exemple, on trouve 256 u.c.e. communes aux deux classes no1
différenciées dans chacune des deux classifications et parmi les 416
u.c.e. de la classe 1 de la première analyse, 93 u.c.e sont classées dans
la classe 2b de la seconde analyse, etc. Les termes diagonaux, en grisé,
indiquent le nombre d'u.c.e. stables du double classement. Ainsi, 1100
u.c.e. sont stables sur les 1716 mentionnées (64.1%) (i.e. sur ces 1716
u.c.e. recouvrant le corpus, 23 ont été éliminées au moment des
classifications; seules les 1693 u.c.e. qui ont été classées dans les deux
analyses apparaissent dans le tableau 1).
18 - Chaque mot est suivi du nombre d’u.c.e. de la classe qui le contient. Par
exemple, le mot mensonge+, en début de liste, est le plus
significatif: 33 u.c.e. de la classe 1 en font mention. A titre indicatif, le
Khi 2 (à un degré de liberté) vaut 106.97 pour mensonge+ et 19.89
pour fable+.
19 - Par exemple, 194 u.c.e. parmi les 256 de la classe 1 proviennent de la
quatrième promenade d'où une présence significative avec un Khi 2
= 751 (tous les Khi 2 présentés sont à un degré de liberté). Par contre, seules 11 u.c.e. de
cette promenade apparaissent dans la classe 3. L'absence est
significative avec un
Khi 2
de 52. Les termes en grisé soulignent les associations privilégiées. Par
exemple, 194 u.c.e. parmi les 256 de la classe 1 proviennent de la
quatrième promenade d'où une présence significative avec un
Khi 2
= 751. Par contre, seules 11 u.c.e. de cette promenade apparaissent
dans la classe 3. L'absence est significative avec un
Khi 2
de 52. Quand c'est l'absence qui est significative, on affecte le signe
«moins» à la valeur du Khi 2 (voir
le tableau 3).
20 -
Khi 2
calculé sur la distribution
des occurrences: les occurrences des mots pleins d'une u.c.e. sont-elles
des occurrences de mots spécifiques de la classe? Par exemple, la première
u.c.e. de la classe 1 (Khi
2
de 40) a été sélectionnée par le logiciel, d'une part, parce qu'elle est
bien classée dans la classe 1, dans les deux classifications, et, d'autre
part, parce qu'elle comprend un grand nombre de mots spécifiques (marqués
par un dièse, cf. tableau 4).
21 - Dans une démonstration mathématiques, René Guitart propose la notion de pulsation pour comprendre ce va-et-vient entre un «Voir» que l'on cherche à dire et un «Dire» que l'on cherche à voir. Cette formulation a le mérite de faire ressortir l'aspect récursif de cette recherche d'un sens [28].
2006
![]()
Voir dans l'encyclopédie de l'Astrolabe:
De la lexicométrie à la logométrie
Sur la possibilité de l'interprétation assistée par ordinateur