Us et abus de l’informatique et d’Internet en littérature

Andrew Olivier

Le titre suggère une dichotomie claire et nette entre le  » bon usage « , pour emprunter l’expression de Grevisse, et ce qu’on l’on pourrait considérer comme des emplois abusifs de l’application de méthodes informatiques à l’étude du texte littéraire. Une telle prise de position non seulement relèverait d’une vision proprement théologique (et simpliste), mais passerait aussi sous silence la question fondamentale du pourquoi de l’application de telles méthodes dans un domaine qui fonctionne sans elles tant bien que mal depuis que les concepts de littérature et de critique existent (soit à peu près 900 ans pour le mot  » littérature  » dans son acception générale et, chose tout à fait intéressante, depuis 450 ans seulement pour l’activité  » critique « ).

Il va de soi que les réponses que l’on obtient à la suite de n’importe quelle recherche dépendent entièrement des questions que l’on pose, et que les questions que l’on pose sont déterminées par les préjugés intellectuels, idéologiques, esthétiques de celui qui les formule. Ce qui suit, par conséquent, est la réflexion personnelle d’un dix-neuvièmiste et textologue qui utilise l’informatique dans ses recherches depuis plus de vingt ans et qui observe avec fascination l’éclosion – pour ne pas dire  » l’explosion  » – d’Internet dans le monde d’aujourd’hui.

La première question à poser, me semble-t-il, si l’on veut réfléchir de manière sérieuse sur la révolution technologique et ses influences sur les recherches littéraires est celle des rapports entre l’écriture et l’informatique. Le graphisme, on le sait, n’est que le signe documentaire d’un processus mental, imaginaire profondément enfoui dans l’inconscient du créateur : il n’est par conséquent que le signe extérieur et partiel de ce processus. Or, les méthodes informatiques sont fondées sur une taxonomie complexe d’un fonctionnement somme toute mathématique et qui a comme présupposé théorique l’immanence des structures des phénomènes soumis à l’étude, phénomènes invariables et quantifiables. Comment l’informatique peut-elle rendre compte de la multiplicité de niveaux d’opérations qui conduisent aux traces de l’écriture dans son infinie complexité, dans sa polysémie, dans sa situation culturelle – éléments dont nous, lecteurs, sommes plus ou moins conscients au moment où le texte se crée dans cette rencontre entre un livre-objet et un regard réfléchissant que constitue l’acte de lecture ? L’opération informatique est pratiquée sur les signes typographiques disposés sur la page d’un livre, cet ensemble qu’il ne faut pas confondre avec le texte, pas plus qu’il ne faut assimiler les données informatiques produites par un logiciel de concordance, par exemple, à un acte de lecture. C’est un moyen de déconstruire le texte, de le réduire à des atomes, de réorganiser ces atomes sous une forme a-signifiante, mais, ce faisant, de mettre en relief, vraisemblablement, des éléments que telle lecture n’a pas considérés comme significatifs. On pourrait objecter sans doute que les travaux en intelligence artificielle permettront tôt ou tard de rendre compte du phénomène de la lecture. Il y a quelques années j’ai été le rapporteur pour une thèse qui portait sur le balisage automatique de textes électroniques dans le but de constituer des bases de données qui donneraient, je cite  » une réponse complète à une interrogation portant sur un aspect du sens du texte « . Cette même thèse envisageait la possibilité d’un texte qui, grâce à un balisage complexe, pratique sa propre auto-analyse. Cela me fait penser à ce dessin humoristique où l’on voit un monsieur éberlué posté devant un automate qui doit lui fournir sa tasse de café. Il a mis sa pièce, mais la tasse reste bloquée et le café disparaît dans la machine. La légende ?  » C’est ça la véritable automatisation… ça te la boit aussi ! « 

Première mise en garde donc : ne pas oublier le plaisir du texte, ne pas déshumaniser la lecture. Et là je touche du doigt à la fois aux limites de l’informatique vis-à-vis de la littérature (ne pas demander à l’ordinateur de se substituer au lecteur) et à la convergence des deux dans le sens où lecture et interrogation informatisée sont toutes les deux des pratiques ludiques. Dans nos réflexions théoriques et dans nos préoccupations méthodologiques en critique littéraire, nous avons souvent tendance à perdre de vue cette vérité première que le texte est avant tout jouissance. Le jeu des manipulations faites au moyen de la souris ou du clavier, l’impact visuel de la couleur et de l’image font que l’activité critique devient un plaisir presque du même ordre.

Nombreux sont les théoriciens qui se sont penchés sur les relations entre le texte écrit et sa représentation sur un écran phosphorescent. Je pense notamment aux travaux de Roger Laufer (1), de Bernard Stiegler (2) de Roger Chartier (3) et de Michel Lenoble. Ce dernier, dans un article extrêmement provocateur, décrit de manière succincte les transformations que subit l’écrit lorsqu’il passe à l’écran et la manière dont ces transformations affectent le lecteur :

 » Le lecteur de cette fin de siècle, écrit Lenoble, est désarçonné et remis en question dans sa pratique de l’objet livre dès lors que le texte électronique est dissocié du support traditionnel de l’information textuelle, à savoir la sédimentation de la trace de l’écriture : le manuscrit ou l’imprimé sur supports tangibles. Le texte électronique est dépouillé de la choséité des supports traditionnels, il est désormais dématérialisé […]. Le texte-livre devenu texte immatériel ne peut être vu du regard, le contact physique et quasi affectif au livre est désormais interdit aux lecteurs, sa facture et sa matérialité ne leur parlent plus, et un nouvel épistémè régit sa critique .  » (4)

C’est précisément ce  » nouvel épistémè  » qui est en train de se dessiner. Pour l’instant, les préoccupations des chercheurs qui se servent de moyens informatiques demeurent celles de toujours : l’électronique est un outil ultra rapide qui permet de rassembler et d’organiser des masses de données textuelles, mais la fonction critique, celle d’interpréter ces données, de leur donner un sens, continue à être investie, n’en déplaise à mon thésard, dans le chercheur.

Sur le plan historique, on constate qu’il existe essentiellement trois types de projets où l’informatique joue un rôle prépondérant. Dès les années 40, le père Roberto Busa préparait une concordance des écrits de Saint-Thomas d’Aquin (5)et la concordance demeure sans doute l’exploitation la plus répandue de l’informatique en littérature (6). Viennent ensuite les logiciels destinés à aider dans l’établissement d’éditions critiques (7): logiciels de collationnement et logiciels qui établissent des stemmes textuels (8). La dernière catégorie est la lexicométrie ou statistique littéraire (9), domaine qui doit son existence même à l’informatique . À l’intérieur de chaque rubrique on trouve énormément de logiciels qui font, tant bien que mal, des tâches spécifiques.

Dans le domaine de l’édition critique, je pense que nous évoluons vers une situation où le livre et l’informatique co-existeront d’une manière parfaite. J’envisage des œuvres hybrides où le livre, renfermant une introduction scientifique ainsi que le texte d’aboutissement sera agrémenté d’une pochette renfermant un cédérom contenant tout l’apparat critique si coûteux à fabriquer par des moyens traditionnels. Les possibilités offertes par une telle solution sont quasiment illimitées, et les contraintes de l’édition traditionnelle disparaissent entièrement.

L’atout incontestable de l’édition électronique, c’est qu’elle permet de confronter sur écran le texte établi par l’éditeur scientifique et les états successifs qui y ont donné lieu avec la possibilité de naviguer entre eux. Vu la capacité de stockage de données d’un cédérom, on peut ambitionner une approche totalisante : présentation en hypertexte de tous les brouillons, de tous les fragments, de toutes les variantes en mode image et en mode transcription – le mode image corrigeant un défaut majeur de l’édition traditionnelle, c’est-à-dire son incapacité à représenter de manière adéquate l’espace textuel, avec ses ajouts, ses suppressions, ses surcharges, ses biffures et ses rayures, enfin toute l’aventure du tracé écrit qui a toujours fasciné l’éditeur scientifique, mais qu’il n’a jamais su représenter par l’imprimé.

Et voilà que le rôle d’Internet est indirectement posé, car travailler un texte suppose la disponibilité de ce texte sous forme électronique, et c’est grâce à Internet que l’on accède aux différentes archives électroniques. Il va de soi que toute recherche doit être fondée sur un objet dont on connaît le statut épistémologique, en l’occurrence le texte ou le corpus soumis à l’étude. Or, la pratique est tout autre. Indépendamment des éditions scientifiques générées sur ordinateur, les textes électroniques qui se trouvent dans les différentes archives sont souvent soit de paternité douteuse (on n’a aucune information sur leur provenance), soit de paternité connue mais de valeur scientifique incertaine. On pourrait objecter que cette situation prévaut pour les études littéraires en général et qu’il n’y aucune raison d’être plus exigeant pour les études d’inspiration informatique – mais le laxisme dans un domaine ne le justifie jamais dans un autre. D’autre part, il y a de fortes raisons d’être exigeant lorsqu’on se sert d’un instrument aussi puissant que l’ordinateur et d’une aussi grande précision que certains logiciels. Lorsque le puissant logiciel de lexicométrie, Hyperbase, par exemple, relève comme statistiquement significatif le nombre de points ou de virgules dans un texte donné, encore faut-il être certain que ces points ou ces virgules devraient être là avant de se livrer à une hypothèse portant sur l’emploi de la virgule et du point dans les œuvres de Victor Hugo (sujet d’une thèse soutenue à l’université de Nice !). Les statisticiens savent que, suivant l’ordre de grandeur de la population étudiée, il suffit de peu d’exemples erronés pour faire basculer un exemple de la catégorie  » non?significatif  » à celle de  » significatif « . En effet, plus l’instrument dont on se sert est précis, plus on doit être certain du bien-fondé des informations auxquelles on l’applique.

Ce sont là des questions de fond dont on parle depuis longtemps (10) mais qui, jusqu’à une date récente, n’ont pas retenu l’attention du milieu universitaire. Les sites Internet où l’on a accès à des textes électroniques se multiplient, et pourtant, exception faite du Catalogue critique des ressources textuelles sur Internet de l’Inalf-CNRS et du serveur Gallica de la BnF, aucun contrôle ne semble s’exercer sur la qualité des textes déposés. Le site ABU, par exemple, qui aurait pu donner son nom au deuxième terme du titre du présent exposé, dispose sans doute du choix le plus large de textes français en accès libre. Et pourtant la qualité est extrêmement variable. J’évoquerai deux exemples rapides : Adolphe de Benjamin Constant et La Fille aux yeux d’or de Balzac. Non seulement le texte d’Adolphe est-il établi d’après une édition moderne sans aucune prétention scientifique, il est amputé d’un élément structural fondamental, soit le cadre narratif ! Le responsable de cette édition électronique a pris l' » avis de l’éditeur « , la  » lettre à l’éditeur  » et la  » réponse  » à cette lettre pour des éléments paratextuels indignes de reproduction ! Quant à La Fille aux yeux d’or, Daniel Durosay affirme, dans la notice, s’être servi de l’édition Furne comme texte de base. Or, il n’en est rien. Un sondage rapide fait découvrir quantité de divergences d’avec le Furne. Interrogé sur ces divergences, le prétendu éditeur scientifique a répondu qu’il s’était contenté de scanner une édition moderne, il ne se rappelait même plus laquelle… Si des problèmes de cet ordre de grandeur existent pour ces deux textes, on peut être quasiment certain qu’il en existe une quantité d’autres dont personne ne s’est aperçu jusqu’ici. Par ailleurs, comme le texte électronique sert rarement à une lecture à proprement parler – il est prétexte aux manipulations diverses dont on a déjà parlé -, il y a de fortes chances pour que ces infirmités passent inaperçues. Existe-t-il une solution ? L’idéal serait un engagement collectif à l’échelle du Text Encoding Initiative, travail d’équipe qui, au terme de dix années d’efforts, a généré des normes de balisage des textes électroniques universellement reconnues. À moins qu’une institution comme le CNRS ou la nouvelle Bibliothèque de France ne décide qu’une archive électronique de textes établis conformément aux pratiques scientifiques de la textologie moderne ne vaille l’investissement de ressources considérables, nous sommes voués à l’anarchie textuelle la plus absolue, tellement il est facile de scanner un texte, le mettre en ligne et le semer à tous vents. Une visite au site, déjà mentionné, de l’Inalf est probante à cet égard. On y découvre un  » catalogue critique des ressources textuelles sur internet (CCRTI) [qui] a pour but d’aider les internautes en quête de textes littéraires en langue française « . Les fiches descriptives du catalogue sont extrêmement utiles, ainsi que le moteur de recherche du site, d’autant que l’on peut spécifier les critères de sélection des textes. Expérience révélatrice : lorsqu’on coche les cases  » Oui  » portant sur le choix de textes d’après  » Le traitement éditorial  » dans les catégories suivantes : Référence à l’édition papier numérisée – Indication de la pagination de l’édition papier numérisée – Indication de la date de publication des textes – Présence d’une notice bibliographique, on obtient trois résultats seulement :

http://www.etcl.nl/charriere/ (Mme de Charrière),

http://philos. wright.edu/DesCartes/Meditations.html (Descartes),

http://www.sju.edu/depts/foreign _lang/Constant/constant.html (Bertrand de La Borderie) !

C’est consternant. Manifestement, dans la numérisation de textes littéraires, le désir de faire vite l’emporte sur les précautions bibliographiques les plus élémentaires. Ces derniers temps, des indices encourageants commencent néanmoins à se faire jour. La BnF met en ligne un nombre croissant de textes téléchargeables en mode image ou en mode texte, encore que l’on rencontre trop souvent la restriction que les œuvres que l’on désire consulter en ligne ne sont pas accessibles parce que protégées  » au titre de la propriété littéraire et artistique « .

Finissons cette réflexion par une dernière question. Qu’est-ce qu’on est en droit d’attendre d’un site Internet ? D’un site consacré à un auteur, notamment s’il s’agit d’un grand auteur comme Flaubert, par exemple, écrivain qui, plus que quiconque, s’est soucié du menu détail, qui a pesé et soupesé d’innombrables fois les effets spécifiques de l’emploi de tel mot dans tel contexte, qui a étudié à fond les effets rythmiques de sa phrase et qui s’est consacré à la recherche de l’harmonie parfaite entre signification et expression phrastique… Poser la question de cette manière sous-entend une sensibilité envers l’œuvre flaubertienne et un dévouement aux recherches sur l’ermite de Croisset qui seraient à la hauteur de l’objet d’étude. Il faudrait un contenu intellectuel et documentaire de première qualité allié à une présentation visuelle qui rende justice à ce contenu ainsi qu’une prestation technologique qui rende la navigation facile et agréable. Sans doute est-ce trop demander, car aucun des nombreux sites consacrés à Flaubert (11) n’est tout à fait à la hauteur du sujet traité même si le tout nouveau site d’Yvan Leclerc fait de vaillants efforts…

Malgré de réels progrès, Internet demeure encore aujourd’hui un médium instable, fuyant, où la rapidité et la facilité d’accès à des quantités illimitées d’informations donne lieu à un sentiment d’hyperactivité engendrant l’impression que l’immédiatement accessible est la seule réalité qui vaille. Ce qui à son tour donne lieu au désir de rendre accessible le plus rapidement possible la somme d’informations intéressant tel individu à tel moment. Il s’agit là d’un processus aux antipodes de la recherche telle que nous l’avons toujours conçue en sciences humaines, celui d’une longue et patiente maturation d’idées nourrie par d’innombrables heures en bibliothèque pendant lesquelles on consulte livres, articles, manuscrits, qui sont eux aussi le fruit d’un processus analogue. Ce n’est pas uniquement par nostalgie que ces dernières phrases sont consacrées au livre, à l’objet poussiéreux en bibliothèque que l’on feuillette à son aise, semblable au lecteur mis en scène par Balzac au début du Père Goriot :  » Ainsi ferez-vous, vous qui tenez ce livre d’une main blanche, et vous enfoncez dans un moelleux fauteuil en vous disant : – Peut-être ceci va-t-il m’amuser ?  » Le livre existe, il a un statut bibliographique non équivoque, il a un support que l’on a plaisir à manier, il se situe dans le temps et dans l’espace, il véhicule l’histoire (aux deux sens du terme). Il est peut-être vrai, comme le suggère Michel Lenoble, qu’à l’ère électronique un nouvel épistémè régit la critique. Encore faudrait-il être certain qu’il ait les mêmes assises que la tradition dont il est issu et que l’on découvre un moyen de hiérarchiser les savoirs électroniques et d’en assurer la permanence.

NOTES

1. Il y a quelques années a paru un livre portant comme titre, Le Texte et son inscription (Éditions du CNRS, 1989), où Roger Laufer a réuni des communications présentées lors d’un colloque qui avait pour but d’étudier les rapports entre le texte et son support matériel. Y sont examinés des cas d’un intérêt exceptionnel allant du tatouage (François Boullant,  » Griffes/graphes/greffes : tatouages (carcéraux) « , pp. 167-85) à la peau scarifiée (Daniel Vidal,  » Cette peau qui n’est que chagrin  » [remarques sur la fonction de l’inscription dans le jansénisme convulsionnaire du XVIIIe siècle], pp. 155-66), à l’écriture numismatique (Michel Pastoureau,  » L’Écriture circulaire « , pp. 15-21), à la poésie visuelle (Tibor Papp,  » De la page mallarméenne à l’écran poétique « , pp. 193-206), et, bien sûr, au texte cathodique (Juliette Raabe et Étienne Pereny,  » De la page écran à l’écran texte/image « , pp. 207-21).

2. Bernard Stiegler, La Technique et le temps (Galilée/Cité des sciences et de l’industrie, 1994).

3. Roger Chartier, Forms and Meanings : Texts, Performances, and Audiences from Codex to Computer (Philadelphia, University of Pennsylvania Press, 1995).

4. Michel Lenoble,  » Une Génération perdue « , Texte, numéros 13/14, 1993, pp. 48-9.

5. Publiée sous le titre Clavis indicis thomistici : in indices distributionis, series I voll. 1-8, et in operum St. Thomae concordantiam primam, series II voll. 1-23, latine atque anglice / auctore Roberto Busa (Stuttgart-Bad Cannstatt, Frommann-Holzboog, 1979).

6. Parmi les logiciels les plus performants on trouve : Wordcruncher pour DOS seulement, développé à Brigham Young University sous le nom de Brigham Young University Concordance Program, vendu ensuite à la Electronic Text Corporation et rebaptisé WordCruncher, avant d’être racheté par la Johnson Company (Provo, Utah) ; Tact (Text Analysis Computing Tools 2.1,) développé à l’université de Toronto, par John Bradley, Lidio Presutti, Michael Stairs et Ian Lancashire, diffusé par le Centre for Computing in the Humanities de l’université de Toronto ; Micro-OCP développé aux Oxford University Computing Services par Susan Hockey, Ian Marriott et Jeremy Martin, diffusé par Oxford Electronic Publishing, Oxford University Press (Oxford et New York).

7. Dont certains logiciels intégrés comme Tustef et Micro-Tustef développés par Wilhelm Ott à l’université de Tübingen, et des logiciels de collationnement comme l’Urica (User Response Interactive Collation Assistant) de Robert Oakman et de Robert Cannon de l’université de la Caroline du Sud.

8. Dont Archetyp, Msfamtre et Prelimdi. Voir Vinton A. Dearing,  » Computer Programs for Constructing Textual Stemmas on Genealogical Principles : the Theoretical Basis of Prelimdi and Archetyp  » in Jean Irigoin et Gian Piero ZARRI éds., La Pratique des ordinateurs dans la critique des textes (Éditions du CNRS, 1979), pp. 115-20.

9. Le remarquable Hyperbase d’Étienne Brunet permet en outre des recherches d’ordre statistique des plus sophistiquées y compris une comparaison avec le Trésor de la langue française .

10. Voir Andrew Oliver,  » Du bon usage des textes électroniques : lesquels ? « , Texte, numéros 13/14, 1993, pp. 291-306.

11. Voir mon compte rendu des sites Flaubert dans Dix-neuvième siècle. Bulletin de la Société des études romantiques et dix neuvièmistes, nº 33, juin 2001.