Gallica une très grande bibliothèque en ligne

Michel Bernard, Jean-Pierre Goldenstein

[Dans cet article, Michel Bernard et Jean-Pierre Goldenstein se penchent sur Gallica, l’entreprise de numérisation de la Bibliothèque nationale de France qui a suscité d’immenses espoirs chez les chercheurs. Rappelons que la rénovation du  » site Internet  » de la rue de Richelieu et la numérisation en mode texte de l’ensemble du fonds de l’ancienne BN, avec mise à la disposition universelle de l’ensemble du fonds aurait, selon les évaluations, coûté moins cher que la construction du site François-Mitterrand. Constituée au gré de vagues successives de numérisations thématiques et rachats à divers éditeurs, Gallica est loin de cette perspective d’exhaustivité dont on caressait le rêve – ou simplement des corpus numériques aujourd’hui disponibles outre-atlantique – et offre au visiteur un fonds numérisé en mode texte, le seul véritablement exploitable, de quelques milliers de volumes. Bibliothèque parallèle, dont le fonctionnement technique est désormais assez satisfaisant, le site offre un choix souvent original, mais d’une extrême hétérogénéité quantitative et qualitative. A. Gefen]

Le site Internet Gallica, lancé par la Bibliothèque nationale de France en octobre 1997, offre dans sa version actuelle l’accès à 80 000 documents numérisés – 62 000 volumes et 80 000 images fixes – et propose  » une bibliothèque multimédia dont les ressources documentaires s’étendent du Moyen Âge au début du XXe siècle « . Avec 18 millions de pages (Gallica vise les 500 000 volumes pour commencer), ces très volumineuses archives offrent une mine d’informations pour le chercheur en littérature et constituent d’ores et déjà la seconde bibliothèque électronique au plan mondial. Bibliothèque parallèle, dont le fonctionnement technique est désormais assez satisfaisant, le site offre un choix souvent original, mais d’une extrême hétérogénéité quantitative et qualitative. Il importe donc de nous familiariser avec cet outil nouveau. Cependant, il ne s’agira pas ici de perdre tout esprit critique devant le prestige de l’électronique et nous nous emploierons à évaluer Gallica, en montrant ses indéniables qualités mais sans en cacher les imperfections et les limites actuelles.

Comment y accéder ?

L’adresse du site, qui est en accès libre, est la suivante : http://gallica.bnf.fr. Les recherches se font à l’aide d’un formulaire de recherche (requête sur le nom de l’auteur, le titre de l’œuvre, ses thèmes ou même recherche en plein texte) ou par divers tableaux présentant les œuvres classées par dates, par genres, par collections, par dossiers thématiques. Les textes peuvent alors être soit lus directement, en mode texte, à partir du navigateur Internet (en général segmentés en chapitres ou sections), soit par un logiciel courant, gratuit et aisément téléchargeable, Acrobat Reader (s’il s’agit de documents en mode image). Disons d’emblée que ces deux types de documents correspondent à des modes de consultation très différents dans Gallica : en mode image ou en mode texte. Le mode image propose une photographie du document, que l’on visualise sur l’écran de son ordinateur comme on y lirait un microfilm. S’il est intéressant de conserver ainsi la typographie, les illustrations et la mise en page de l’édition originale, ce dispositif interdit néanmoins de tirer parti de la recherche en plein texte et alourdit considérablement le poids des documents qui doivent être téléchargés à travers l’Internet. Le mode texte évite ces deux inconvénients mais cette forme de numérisation est beaucoup plus longue et onéreuse, ce qui explique que la BnF se soit souvent contentée du mode image. Les documents proposés en mode texte résultent le plus souvent de la collaboration avec la base Frantext de L’INaLF (1), comme de la coopération avec les éditeurs Acamédia (2), Bibliopolis (3) et Honoré Champion (4). Il est à noter qu’un grand nombre de tables des matières de documents en mode image sont tout de même numérisées en mode texte, ce qui permet, par exemple, de retrouver un article par son titre ou le nom de son auteur.

Dans les deux cas, le document peut être enregistré sur disque dur pour une consultation ultérieure. L’encombrement des deux modes de numérisation n’est évidemment pas le même.

Figure 1 : Les Fleurs du Mal en mode image : reproduction de l’édition originale de 1857.

Figure 2 : Les Fleurs du Mal en mode texte : reproduction de l’édition des Classiques Garnier.

Les deux exemplaires des Fleurs du mal représentés ci-dessus pèsent respectivement 7,4 Mo en mode image et 219 Ko en mode texte, soit 34 fois moins ! Il est par ailleurs possible de se livrer soi-même à la numérisation en mode texte d’un document fourni par Gallica en mode image. Il faut pour cela disposer d’un logiciel de reconnaissance de caractères, habituellement utilisé avec un scanner, et lui faire reconnaître le fichier image que l’on a téléchargé. Les résultats dépendent de la qualité de l’impression d’origine mais peuvent être assez bons pour envisager l’opération.

Quels textes peut-on lire ?

La consultation des catalogues est étourdissante, tant les ressources proposées semblent inépuisables. Nous nous sommes risqués ici à un simple sondage, pour donner une idée de cette richesse.

I. – Textes littéraires

Les Grandes-Têtes-Molles anciennes et modernes : Balzac, Barrès, Baudelaire, Beaumarchais, Boileau, Bossuet, Buffon, Chamfort, Chateaubriand, Laclos, Constant, Corneille, Diderot, Du Bellay, Fénelon, Flaubert, Fontenelle, Robert Garnier, Théophile Gautier, Gobineau, Goncourt, Helvétius, d’Holbach, Hugo, Huysmans… …

et quelques autres : Baour-Lormian, Crébillon, Vivant Denon, Florian, Remy de Gourmont, Léon Gozlan, Charles Guérin, Pierre Louÿs, Louis-Sébastien Mercier, Octave Mirbeau, Jean Moréas, Henry Murger, Charles Nodier, Édouard Pailleron, Joséphin Péladan, Philippe Quinault, Georges Rodenbach, Jean-François de Saint-Lambert, Saint-Martin, Jules Sandeau, Marcel Schwob, Paul-Jean Toulet, Émile Verhaeren, Jules Verne.

Certain(e)s seront sensibles au fait que les femmes de lettres ne sont pas absentes de cette bibliothèque numérique : Isabelle de Charrière (Caliste ou Lettres écrites de Lausanne), Sophie Ristaud Cottin (Claire d’Albe ; Mathilde), Anne Dacier (Des causes de la corruption du goust), Marceline Desbordes-Valmore (Elégies ; Idylles), Antoinette Deshoulières (Epîtres ; Idylles), Claire-Louisa-Rose-Bonne Lechal de Kersaint, duchesse de Duras (Ourika ; Edouard), Caroline-Stéphanie-Félicité Du Crest, comtesse de Genlis (Adèle et Théodore ou Lettres sur l’éducation ; Les Chevaliers du cygne ou La cour de Charlemagne), Marie de Gournay (Préface [aux] Essais de Montaigne), Françoise de Graffigny (Cénie ; Lettres d’une jeune péruvienne), Barbara Juliane von Krüdener (Valérie), Marie-Madeleine Pioche de La Vergne, comtesse de La Fayette (Romans et nouvelles), Julie de Lespinasse (Lettres de Mlle de Lespinasse ; Lettres inédites de Mlle de Lespinasse à Condorcet…), Marguerite d’Angoulême, reine de Navarre (L’Heptaméron), Marie-Jeanne Riccoboni (Histoire de Miss Jenny ; Histoire du marquis de Cressy ; Lettres d’Adélaïde de Dammartin, Comtesse de Sancerre ; Lettres de Fanny Butlerd ; Lettres de milady Juliette Catesby à milady Henriette Campley, son amie)…

II. – Autres types textuels [science, histoire, religion, essais critiques, mémoires] :

Jean-Jacques Ampère, Correspondance ; François Arago, Puissance réfractive et dispersion des liquides ; Antoine Arnauld, De la fréquente communion où Les sentimens des pères, des papes et des Conciles, touchant l’usage des sacremens de pénitence et d’Eucharistie, sont fidèlement exposez… ; François-Alexandre Aubert de La Chesnaye Des Bois, Lettres amusantes et critiques sur les romans en général, anglois et françois, tant anciens que modernes, adressées à Miledy W*** ; François Hédelin, abbé d’Aubignac, La pratique du théâtre.

Un grand nombre de revues sont également disponibles en mode image : L’Intermédiaire des chercheurs et curieux, Le Journal des savants, La Nouvelle Revue, la Revue critique d’histoire et de littérature, la Revue de Paris, la Revue des Deux-Mondes, la Revue encyclopédique, Le Magasin pittoresque, L’Année littéraire, etc.

III. – Traductions :

Mateo Alemán, Histoire de Guzman d’Alfarache ; Carlo Goldoni, Le Bourru bienfaisant ; Lucain, La Guerre civile ; John Milton, Le Paradis perdu (traduction par Chateaubriand) ; Andrew Ramsay, Les Voyages de Cyrus, avec un discours sur la mythologie ; Samuel Richardson , Lettres angloises, ou Histoire de Miss Clarisse Harlove ; Nouvelles Lettres angloises, ou Histoire du chevalier Grundisson [trad. de l’anglais par l’abbé Prévost]. À quoi il convient d’ajouter, en mode image, tout le romantisme allemand traduit ainsi que Scott et Cooper…

Cette simple tentative de classement, subjective et contestable, montre assez, pensons-nous, la richesse et la diversité de ce que Gallica présente, à juste titre, comme  » l’une des plus importantes bibliothèques numériques sur le réseau mondial « . Ces informations de base sont tellement faciles à se procurer qu’il nous semble inutile de reproduire ci-dessous la liste complète des ouvrages disponibles sur Gallica. Chaque lecteur pourra aisément en prendre connaissance lui-même.

Quelles observations les universitaires que nous sommes peuvent-ils faire sur le serveur Gallica et les services qu’il propose ? Nous noterons tout d’abord que Gallica leur offre, ainsi qu’à un large public, l’accès à des auteurs et à des œuvres que toutes les bibliothèques – même universitaires – ne possèdent pas. Nous rappellerons pour mémoire que tout le monde n’habite pas une grande ville culturellement bien dotée. Une simple sélection – toujours subjective – convaincra des services rendus par un tel outil qui renferme par exemple des textes de Théodore de Banville, Auguste Barbier, Jean-Jacques Barthélemy (le célèbre Voyage du jeune Anacharsis en Grèce), Pierre-Jean de Béranger (Chansons précédées d’une notice sur l’auteur et d’un essai sur ses poésies), Arnaud Berquin (L’Amis des enfans), Louis Bouilhet (Dernières Chansons ; Melaenis, conte romain), Élémir Bourges (Le Crépuscule des dieux), Champfleury (Les Aventures de Mlle Mariette, contes de printemps ; Les Bourgeois de Molinchart ; Les Souffrances du professeur Delteil), Antoine-Augustin Cournot (Essai sur les fondements de nos connaissances et sur les caractères de la critique philosophique), Casimir Delavigne (Les Enfants d’Édouard ; Louis XI ; Messéniennes), Jacques Delille (Les Jardins ou L’art d’embellir les paysages ; L’Homme des champs, ou Les Géorgiques françoises ; Les Géorgiques traduction par Jacques Delille).

Beaucoup de ces textes, essentiels pour l’histoire littéraire, ne sont plus disponibles en librairie. Sait-on par exemple que la dernière édition du Voyage du jeune Anacharsis a été publiée par Hachette en 1893 ? Que Les Bourgeois de Molinchart de Champfleury ne sont plus édités depuis 1880 ? Que la Lucrèce de Ponsard, qui a pu contrebalancer en 1843 les Burgraves de Hugo, n’est plus disponible depuis 1864 ? Dans ces cas-là, Gallica n’est plus une simple commodité mais la seule manière de consulter des ouvrages qui n’existent plus que dans les bibliothèques.

Des réserves peuvent être, certes, formulées lorsque l’on observe la composition actuelle du fonds de Gallica. On constatera par exemple que, sauf erreur de notre part, il manque dans Gallica Les Confessions de Rousseau, La Chartreuse de Parme et Lucien Leuwen de Stendhal et La Curée de Zola, que Mérimée n’est pratiquement représenté par aucune œuvre dans le catalogue. Mais il n’est pas de bibliothèque exhaustive et chacun de ces manques doit s’expliquer de manière anecdotique et particulière. La vraie frustration de l’usager, c’est l’absence d’œuvres récentes, que la législation sur les droits d’auteurs interdit à la BnF de proposer à tous. Cela n’est en rien la faute de Gallica mais il est toujours agaçant de constater que Proust, mort en 1922, n’est connu que pour sa traduction de Ruskin, qu’Apollinaire, mort en 1918, et Alain-Fournier, mort en 1914, n’ont pas une seule œuvre dans Gallica. La législation actuelle ne devrait-elle pas mettre dans le domaine public les œuvres d’auteurs morts depuis 70 ans ?

Quelles éditions ?

Andrew Oliver avait souligné le fait ici même ( » Us et abus de l’informatique et d’Internet en littérature « , Histoires littéraires, n° 7) et dans ses chroniques ( » Le XIXe et les recherches sur Internet « ) : à l’heure actuelle, le lecteur se heurte fréquemment à des problèmes matériels d’édition (textes peu fiables, sans indication d’origine). La question se pose bien entendu avec acuité pour les œuvres médiévales. Gallica contient par exemple Le Chevalier de la charrette : Lancelot de Chrétien de Troyes, texte établi, traduit par Alfred Foulet et Karl D. Uitti (numérisation BnF de l’édition de Paris : Bibliopolis, 1998-1999. Reproduction de l’édition de Paris : Bordas, 1989, Collection Classiques Garnier, texte en ancien français avec traduction en français moderne). Les médiévistes porteront un jugement informé sur la qualité d’un tel texte que nous jugeons pour notre part fort bien venu dans le cadre d’un emploi non spécialisé.

Sur un terrain qui nous est plus familier, nous observons que Les Chants de Maldoror du comte de Lautréamont sont reproduits en mode texte d’après l’édition Corti, 1953, édition qui a fait date dans l’histoire du texte mais qui ne présente pas toutes les garanties au regard des connaissances actuelles. Les sites de Michel Pierssens (7) et d’Hubert de Phalèse (8) proposent non seulement des textes beaucoup plus intéressants mais encore des documents et des annotations. En mode image, en revanche, Gallica nous offre les éditions originales des Chants de Maldoror mais aussi des Poésies. On pourrait faire des remarques du même ordre sur les éditions des Pensées de Pascal. Il faut remarquer cependant que les annotations et même les établissements d’éditions critiques sont protégés par le droit d’auteur et que l’on ne peut donc mettre en ligne que des éditions anciennes, et parfois scientifiquement contestables. Le recours à l’édition originale est souvent alors le parti le plus rationnel, parce qu’il évite de choisir parmi les établissements du texte et qu’il permet de mettre sous les yeux du lecteur l’édition d’époque.

De nombreux textes proviennent de la fameuse collection des  » Classiques Garnier  » et assurent a priori une fiabilité scientifique. Il n’en va pas de même pour tous les ouvrages qui ont parfois été numérisés par l’INaLF, dans des conditions inconnues, à partir soit de documents peu sûrs, soit de façon contestable. Il en est ainsi, par exemple de  » Émile Zola, Le Roman expérimental. Num. BnF de l’éd. de : INALF, 1961. Reprod. de l’éd. de Paris : Charpentier et Fasquelle, 1894. Description 18 Ko Collection Frantext ; P856 « . Les 18 Ko du fichier laissent déjà songeur et une observation rapide du document confirme aisément qu’en l’occurrence le titre est trompeur. Il ne s’agit que de quelques extraits mal édités et peu fiables qui correspondent à des passages des sections I et II de l’essai de Zola qui en comporte cinq dans son intégralité. Rien n’indique dans le texte numérisé que des sélections ont été réalisées et que les nombreuses citations de Claude Bernard ont été la plupart du temps omises. Le lecteur naïf qui penserait se trouver face au texte intégral du Roman expérimental de Zola serait, littéralement, dupé.

Cela étant dit, Gallica offre de nombreux textes empruntés à des éditions de qualité qui font référence, même si, dans ce domaine, les spécialistes peuvent juger qu’une nouvelle publication plus récente périme en partie une publication plus ancienne, par exemple : Baudelaire, Les Fleurs du mal (Reprod. de l’éd. de Paris : Bordas, 1992, Antoine Adam éd.), Choderlos de Laclos, Les Liaisons dangereuses (Reprod. de l’éd. de Paris : Garnier, 1985, Yves Le Hir éd.), Corneille, Théâtre complet, deux tomes (Reprod. de l’éd. de Paris : Bordas, 1993, Georges Couton éd.), Du Bellay, Oeuvres poétiques. Premiers recueils, 1549-1553 ; Recueils romains, 2 tomes, éd. critique établie par Daniel Aris et Françoise Joukovsky (Reprod. de l’éd. de Paris : Bordas, 1993), Flaubert, Madame Bovary : mœurs de province (Reprod. de l’éd. de Paris : Bordas, 1990, Claudine Gothot-Mersch, éd.), Robert Garnier, Bradamante : tragécomédie ; Les Juifves : tragédie (Reprod. de l’éd. de [Paris] : Bordas, 1991, Marcel Hervier éd.), Théophile Gautier, [L’]Œuvre fantastique. II, Romans (Reprod. de l’éd. de Paris : Bordas, 1993, Michel Crouzet éd.), La Bruyère, [Les] Caractères ou Les mœurs de ce siècle / [précédé de] Les Caractères de Théophraste : traduits du grec / [par] La Bruyère (Reprod. de l’éd. de Paris : Bordas, 1990, Robert Garapon éd.).

Ces questions éditoriales sont importantes. Les défaillances que l’on peut remarquer ici ou là ne doivent toutefois pas masquer les réels avantages que présente l’accès à des textes numérisés. Pouvoir lire une telle bibliothèque de n’importe où, à n’importe quelle heure, pouvoir y rechercher rapidement un mot, une expression, constituent des avantages déterminants. Au total, Gallica constitue un instrument de recherche de qualité qui pourrait bien, dans les années qui viennent, susciter des études jusque-là impossibles.