Marie Lebert

Littérature et internet des origines (1971) à nos jours: quelques expériences


Introduction
Le Projet Gutenberg (1971)
The Online Book Page (1993)
La Bibliothèque électronique de Lisieux (1996)
Rubriques à Bac (1998)
Bookshare.org (2002)
La littérature numérique (2003)
Conclusion
Sources
Liens utiles


Introduction

Tout comme l'internet, la littérature n'a pas de frontières. Le réseau littéraire doit lui aussi rapprocher les communautés linguistiques, et non les diviser, ce qui n'empêche pas chacun de contribuer au rayonnement de sa propre culture, au contraire, tout en gardant à l'esprit qu'elle fait partie d'un tout. C'est la raison pour laquelle les expériences relatées dans ces lignes ont été choisies aussi bien dans la communauté francophone que dans la communauté anglophone, puisque l'internet a d'abord été anglophone avant de devenir multilingue. Depuis 1998, la littérature francophone est fort bien représentée sur la toile, n'en déplaise aux âmes chagrines qui pleurent l'hégémonie supposée de l'anglais sans faire grand chose pour promouvoir leur propre langue et leur propre culture. Ce réseau francophone continue de progresser régulièrement, tout comme le réseau hispanophone et bien d'autres. En témoignent notamment l'activité du Net des études françaises et l'existence de ce colloque aussi bien dans un lieu géographique donné (Lisieux, Normandie, France) que sur le web, avec lecture possible des communications par l'ensemble de la communauté francophone et internationale.

Le premier contact entre la littérature et l'internet date de 1971, année de la création du Projet Gutenberg par Michael Hart. Il est assez réconfortant de constater que le premier site proposant du "contenu" sur le réseau est un site de littérature, et que l'objectif de ce site est de mettre à la disposition de tous le plus grand nombre possible d'œuvres littéraires du domaine public. Un objectif poursuivi par des générations de bibliothécaires, et qui devient enfin possible, grâce à la numérisation des livres en mode texte dans un format simple qui puisse être lu par tous les systèmes et sur toutes les machines. Au milieu des années 1990, lorsque l'utilisation du web se généralise, le projet trouve un second souffle et un rayonnement international.

Parallèlement, à compter de 1993, John Mark Ockerbloom répertorie les oeuvres en accès libre sur le web dans The Online Book Page, une initiative tout aussi utile. Pendant ce temps, la communauté francophone met en ligne ses premières bibliothèques numériques, notamment la Bibliothèque électronique de Lisieux, qui voit le jour en 1996 à l'initiative d'Olivier Bogros. Les bases de données littéraires se développent aussi, par exemple Rubriques à Bac, site créé en 1998 par Gérard Fourestier à destination des lycéens et étudiants. Avancée majeure, le numérique permet enfin l'accès de l'ensemble de la littérature - et non plus seulement d'une infime partie - aux personnes handicapées visuelles, témoin l'initiative de l'association Bookshare.org, qui ouvre son site web en février 2002. Reste encore à donner la place qui leur revient aux nouveaux genres littéraires basés sur les technologies numériques.

Ces expériences ont été choisies parmi tant d'autres parce qu'il s'agit de sites pionniers, chacun dans leur domaine, et aussi parce que leurs créateurs ont très aimablement accepté de répondre à mes questions, parfois sur plusieurs années. Qu'ils en soient ici chaleureusement remerciés.


Le Projet Gutenberg (1971)

Premier site d'information à être apparu sur l'internet, le Projet Gutenberg débute en juillet 1971 quand Michael Hart, étudiant à l'Université d'Illinois (Etats-Unis), décide de convertir des oeuvres du domaine public au format électronique pour les mettre gratuitement à la disposition de tous. Les textes électroniques sont au format ASCII, avec des lettres capitales pour les termes en italique, gras ou soulignés, afin que ces textes puissent être lus sans problème quels que soient la machine, le système d'exploitation et le logiciel utilisés.

"Nous considérons le texte électronique comme un nouveau médium, sans véritable relation avec le papier, écrit Michael Hart en août 1998. Le seul point commun est que nous diffusons les mêmes oeuvres, mais je ne vois pas comment le papier peut concurrencer le texte électronique une fois que les gens y sont habitués, particulièrement dans les établissements d'enseignement. (...) Mon projet est de mettre 10.000 textes électroniques sur l'internet. Si je pouvais avoir des subventions importantes, j'aimerais aller jusqu'à un million et étendre aussi le nombre de nos usagers potentiels de 1,x% à 10% de la population mondiale, ce qui représenterait la diffusion de 1.000 fois un milliard de textes électroniques au lieu d'un milliard seulement. (...) J'introduis une nouvelle langue par mois maintenant, et je vais poursuivre cette politique aussi longtemps que possible."

Cinquante heures environ sont nécessaires pour scanner, corriger et mettre en page un texte électronique. Un ouvrage de taille moyenne - par exemple un roman de Stendhal ou de Jules Verne - est composé de deux fichiers ASCII. Si certains livres anciens sont parfois saisis ligne après ligne, le plus souvent parce que le texte original manque de clarté, les livres sont en général scannés en utilisant un logiciel OCR (optical character recognition), puis ils sont relus et corrigés à deux reprises, parfois par deux personnes différentes.

Le premier texte scanné en juillet 1971 est la Déclaration de l'Indépendance des Etats-Unis (4 juillet 1776). Entre 1971 et 1979, Michael Hart scanne un volume par an d'une série intitulée History of Western Democracy. Entre 1980 et 1990, son équipe et lui scannent la Bible dans son entier et plusieurs oeuvres de Shakespeare. En 1990, dix textes sont prêts. Le dixième texte est The King James Bible. La moyenne mensuelle des textes scannés progresse ensuite régulièrement: un texte par mois en 1991, deux textes par mois en 1992, quatre textes par mois en 1993 et huit textes par mois en 1994. Fin 1994 les collections comprennent 100 textes. Le centième texte est l'oeuvre complète de Shakespeare, désormais scannée dans son entier. La production passe à 16 textes par mois en 1995 puis 32 textes par mois en 1996 et 1997. Fin 1997 les collections comprennent 1.000 textes. Le millième texte est La Divine Comédie de Dante, en italien. La production passe à 36 textes par mois en 1998 et 1999. Fin 1999 les collections se chiffrent à 2.000 textes. Le 2.000e texte est Don Quichotte de Cervantes, en espagnol. Le nombre de textes scannés est de 36 textes par mois en 2000, 40 textes par mois pendant le premier semestre 2001 et 50 textes par mois pendant le deuxième semestre 2001. Le 3.000e texte, disponible courant 2000, est le troisième volume de A l'ombre des jeunes filles en fleurs de Proust, en français. Le 4.000e texte, disponible courant 2001, est The French Immortals, version anglaise de la série française publiée en 1905 par la Maison Mazarin. Cette série rassemble des fictions d'écrivains couronnés par l'Académie française (Emile Souvestre, Pierre Loti, Hector Malot, Charles de Bernard, Alphonse Daudet, etc.). Le 5.000e texte, disponible en avril 2002, est la version anglaise des Carnets de Léonard de Vinci.

Depuis janvier 2002, les collections s'accroissent en moyenne de 100 titres par mois. Elles représentent le quart des œuvres numérisées appartenant au domaine public, recensées de manière pratiquement exhaustive par l'Internet Public Library (IPL), bibliothèque publique de l'internet sur l'internet. Un beau résultat pour trente ans de travail acharné basé en grande partie sur le volontariat, avec 1.500 volontaires actifs en 2002. Michael Hart espère atteindre un total de 10.000 textes électroniques à la fin de 2003.


The Online Book Page (1993)

A partir de 1993 un autre projet pionnier se développe parallèlement au Projet Gutenberg, à l'instigation de John Mark Ockerbloom, doctorant à l'Université Carnegie Mellon (CMU, Pittsburgh, Pennsylvanie, Etats-Unis). Il s'agit de The Online Books Page, dont le but n'est pas de numériser des oeuvres mais, tout aussi utile, de répertorier les oeuvres littéraires et scientifiques en accès libre sur le web en offrant au lecteur un point d'entrée commun.

"J'étais webmestre ici pour la section informatique du CMU, et j'ai débuté notre site local en 1993, raconte John Mark Ockerbloom en septembre 1998. Il comprenait des pages avec des liens vers des ressources disponibles localement, et à l'origine The Online Books Page était une de ces pages, avec des liens vers des livres mis en ligne par des collègues de notre département (par exemple Robert Stockton, qui a fait des versions web de certains textes du Projet Gutenberg). Ensuite les gens ont commencé à demander des liens vers des livres disponibles sur d'autres sites. J'ai remarqué que de nombreux sites (et pas seulement le Projet Gutenberg ou Wiretap) proposaient des livres en ligne, et qu'il serait utile d'en avoir une liste complète qui permette de télécharger ou de lire des livres où qu'ils soient sur l'internet. C'est ainsi que mon index a débuté. J'ai quitté mes fonctions de webmestre en 1996, mais j'ai gardé The Online Books Page, parce que, entre temps, je m'étais passionné pour l'énorme potentiel qu'a l'internet de rendre la littérature accessible au plus grand nombre. Maintenant il y a tant de livres mis en ligne que j'ai du mal à rester à jour (en fait j'ai beaucoup de retard). Mais je pense pourtant continuer cette activité d'une manière ou d'une autre. Je suis très intéressé par le développement de l'internet en tant que médium de communication de masse dans les prochaines années. J'aimerais aussi rester impliqué d'une manière ou d'une autre dans la mise à disposition gratuite de tous de livres sur l'internet, que ceci fasse partie intégrante de mon activité professionnelle, ou que ceci soit une activité bénévole menée sur mon temps libre."

Fin 1998 John Mark Ockerbloom obtient son doctorat en informatique. En 1999 il rejoint l'Université de Pennsylvanie, où il travaille à la R& D (recherche et développement) de la bibliothèque numérique. A la même époque, il y transfère The Online Books Page avec la même présentation, très sobre, et il poursuit son travail d'inventaire dans le même esprit. En avril 2002, ce répertoire recense plus de 16.000 textes électroniques de langue anglaise.


La Bibliothèque électronique de Lisieux (1996)

Le milieu des années 1990 marque les débuts du web francophone, d'abord au Canada et ensuite en Europe. En juin 1996 apparaît la Bibliothèque électronique de Lisieux (Normandie), une des premières bibliothèques francophones du réseau, créée à l'initiative d'Olivier Bogros, directeur de la médiathèque municipale. "Ce site est entièrement consacré et exclusivement réservé à la mise à disposition sur le réseau (librement et gratuitement) de textes littéraires et documentaires du domaine public français afin de constituer une bibliothèque virtuelle", explique Olivier Bogros en juin 1998. Dès sa création, ce site suscite beaucoup d'intérêt dans la communauté francophone parce qu'il montre ce qui est faisable sur le réseau avec beaucoup de détermination et des moyens limités. Après l'avoir d'abord hébergé sur les pages de son compte personnel CompuServe, Olivier Bogros enregistre un nom de domaine (bmlisieux.com) en juin 1998 et déménage l'ensemble sur un serveur offrant une capacité de stockage de 30 Mo (méga-octets).

En juillet 1999, 370 œuvres sont disponibles en ligne. A la même date, Olivier Bogros écrit: "nous réfléchissons, dans le domaine patrimonial, à un prolongement du site actuel vers les arts du livre - illustration, typographie... - toujours à partir de notre fonds. Sinon, pour ce qui est des textes, nous allons vers un élargissement de la part réservée au fonds normand. (...) Les oeuvres à diffuser sont choisies à partir d'exemplaires conservés à la bibliothèque municipale de Lisieux ou dans des collections particulières mises à disposition. Les textes sont saisis au clavier et relus par du personnel de la bibliothèque, puis mis en ligne après encodage. La mise à jour est mensuelle (3 à 6 textes nouveaux). Par goût, mais aussi contraints par le mode de production, nous sélectionnons plutôt des textes courts (nouvelles, brochures, tirés à part de revues, articles de journaux...). De même nous laissons à d'autres (bibliothèques ou éditeurs) le soin de mettre en ligne les grands classiques de la littérature française, préférant consacrer le peu de temps et de moyens dont nous disposons à mettre en ligne des textes excentriques et improbables." Ces textes comprennent des oeuvres littéraires, des brochures et opuscules documentaires, des manuscrits, livres et brochures sur la Normandie, et enfin des conférences et exposés transcrits par des élèves du lycée de Lisieux.

L'année 2000 marque le début d'un partenariat entre la Bibliothèque électronique de Lisieux et l'Université de Toronto. Lancé en août 2000, LexoTor est une base de données fonctionnant avec le logiciel TACTweb et permettant l'interrogation en ligne des textes de la bibliothèque (470 titres en avril 2002), ainsi que des analyses et comparaisons textuelles. Le projet est issu de la rencontre d'Olivier Bogros avec Russon Wooldridge, professeur au département d'études françaises de l'Université de Toronto, lors du premier colloque international "Les études françaises valorisées par les nouvelles technologies d'information et de communication" organisé par ce dernier les 12 et 13 mai 2000 à Toronto.


Rubriques à Bac (1998)

Site créé par Gérard Fourestier, diplômé en science politique et professeur de français à Nice, Rubriques à Bac est un ensemble de bases de données à l'intention des lycéens préparant le baccalauréat et des étudiants du premier cycle universitaire. Deux bases de données sont accessibles par souscription, avec version de démonstration en accès libre. La première, ELLIT (Eléments de littérature), a trait à la littérature française du 12e siècle à nos jours et regroupe plus de 350 articles liés entre eux par 8.500 liens, ainsi qu'un répertoire de 450 auteurs. La deuxième, RELINTER (Relations internationales depuis 1945), recense plus de 2.000 liens sur le monde contemporain de la deuxième guerre mondiale à nos jours. Lancée en juin 2001 dans le prolongement d'ELLIT, la base de données Bac-L (baccalauréat section lettres) est en accès libre.

Gérard Fourestier explique en octobre 2000: "Le site de Rubriques à Bac a été créé en 1998 pour répondre au besoin de trouver sur le net, en un lieu unique, l'essentiel, suffisamment détaillé et abordable par le grand public, dans le but: a) de se forger avant tout une culture tout en préparant à des examens probatoires à des études de lettres - c'est la raison d'ELLIT (Eléments de littérature), base de données en littérature française; b) de comprendre le monde dans lequel nous vivons en en connaissant les tenants et les aboutissants, d'où RELINTER (Relations internationales). J'ai développé ces deux matières car elles correspondent à des études que j'ai, entre autres, faites en leur temps, et parce qu'il se trouve que, depuis une dizaine d'années, j'exerce des fonctions de professeur dans l'enseignement public (18 établissements de la 6e aux terminales de toutes sections et de tous types d'établissements). (...)

Mon activité liée à internet consiste tout d'abord à en sélectionner les outils, puis à savoir les manier pour la mise en ligne de mes travaux et, comme tout a un coût et doit avoir une certaine rentabilité, organiser le commercial qui permette de dégager les recettes indispensables; sans parler du butinage indispensable pour la recherche d'informations qui seront ensuite traitées. (...) Mon initiative à propos d'internet n'est pas directement liée à mes fonctions de professeur. J'ai simplement voulu répondre à un besoin plus général et non pas étroitement scolaire, voire universitaire. Débarrassé des contraintes du programme, puisque j'agis en mon nom et pour mon compte et non "es-qualité", mais tout en en donnant la matière grise qui me paraît indispensable pour mieux faire une tête qu'à la bien remplir, je laisse à d'autres le soin de ne préparer qu'à l'examen."

Par la suite, Gérard Fourestier aimerait développer des bases de données dans d'autres domaines, par exemple l'analyse sociétale, l'analyse sémantique ou l'écologie. Il espère consacrer les recettes générées par Rubriques à Bac à la réalisation de projets éducatifs en Afrique.


Bookshare.org (2002)

La conversion désormais possible d'un fichier numérique en fichier braille ou fichier audio permet enfin aux personnes handicapées visuelles d'avoir accès à l'ensemble de la littérature, et non plus seulement à quelques dizaines de titres embossés en braille ou lus sur cassettes par des volontaires. Mais il reste un pas important à franchir entre la théorie et la pratique. Dans le monde anglophone, ce pas vient d'être franchi par la société californienne Benetech (anciennement Arkenstone). Benetech décide de créer et financer Bookshare.org, une association à but non lucratif proposant des livres numériques aux citoyens et résidents des Etats-Unis ayant un handicap visuel. Après avoir soumis la preuve écrite de leur handicap et réglé la somme de 25 dollars US (29 euros) pour l'inscription, les adhérents ont accès à une collection de livres numériques de plusieurs milliers de titres moyennant un abonnement annuel de 50 dollars US (58 euros). A la date de l'ouverture du service en février 2002, le catalogue compte 7.620 titres, avec 4.500 nouveaux titres prévus pour les mois suivants. Les livres numériques sont disponibles en deux formats : au format BRF (digital braille) pour une impression en braille, et au format DAISY (digital audio information system) pour une écoute audio.

Bookshare.org n'aurait pu voir le jour sans le travail de plus de cent volontaires scannant les livres imprimés, et sans la tenacité de l'équipe pour faire appliquer un amendement de la loi de 1997 sur le copyright (United States Code, titre 17, section 121). Cet amendement autorise la distribution d'œuvres littéraires dans des formats conçus pour des personnes handicapées visuelles, des personnes souffrant d'un handicap de lecture - par exemple la dyslexie - et des personnes à la motricité réduite - par exemple celles qui ne peuvent pas tenir un livre ou tourner les pages d'un livre. Toute version numérique doit obligatoirement inclure la mention du copyright, avec le nom de l'éditeur détenteur des droits et la date originale de publication.

L'initiative de Bookshare.org constitue une avancée considérable. Alors qu'auparavant moins de 5 % des titres publiés aux Etats-Unis étaient disponibles en braille ou en cassettes audio, la seule limite devient désormais celle du nombre de volontaires scannant les livres. Sur son site, l'association fait appel aux bonnes volontés pour grossir les rangs de l'équipe actuelle, afin de proposer à terme plusieurs dizaines de milliers de livres, y compris toutes les nouveautés. Par ailleurs, les oeuvres du domaine public sont en téléchargement libre, et disponibles en quatre formats au lieu de deux: BRF et DAISY bien sûr, mais aussi HTML et TXT. Toujours en tête de file quand il s'agit de lecture pour tous, le Projet Gutenberg a mis à la disposition de l'association la totalité de ses collections, soit les textes électroniques de 5.000 oeuvres du domaine public.

A quand une initiative semblable à celle de Bookshare.org pour la communauté francophone, dans laquelle l'édition braille et audio restent confidentielles sinon clandestines, le problème du droit d'auteur sur les transcriptions et les enregistrements n'étant toujours pas résolu?


La littérature numérique (2003)

La littérature francophone est désormais bien représentée sur le web, notamment grâce à Gallica, la bibliothèque numérique de la Bibliothèque nationale de France (BnF), qui, avec 54.000 ouvrages, 450 périodiques et 80.000 images allant du Moyen-Age au début du 20e siècle (chiffres de mars 2002), est l'une des plus importantes bibliothèques du réseau. Par contre la littérature du 20e siècle est encore insuffisamment diffusée à cause des contraintes liées au copyright. Des professionnels se battent pour tenter de concilier respect du droit d'auteur et exigences universitaires, mais la partie est loin d'être gagnée. A quand toute la littérature accessible sur le web?

S'il est essentiel de très largement diffuser les oeuvres classiques, il importe aussi de ne pas oublier la littérature des années 2000, et particulièrement la littérature numérique en train de naître sous nos yeux. Depuis 1998, de nombreux genres ont vu le jour: sites d'écriture hypermédia, oeuvres de fiction hypertexte, romans multimédia, hyper-romans, mail-romans. Certains écrivains sont en train d'explorer les possibilités offertes par l'hyperlien alors que d'autres se lancent dans le feuilleton par courrier électronique. Pour ne prendre qu'un exemple, citons l'expérience tentée en été 2001 par Jean-Pierre Balpe, écrivain, chercheur, théoricien de la littérature informatique et directeur du département hypermédia de l'Université de Paris 8. Pendant cent jours, il écrit Rien n'est sans dire, un mail-roman journalier qu'il envoie par courrier électronique à sa famille, ses amis et ses collègues, en y intégrant les réponses et les réactions des lecteurs. Cette expérience renforce sa "conviction que les technologies numériques sont une chance extraordinaire du renouvellement du littéraire".

Les auteurs multimédia et hypermédia jouent un rôle essentiel dans le renouveau de la littérature et dans la fusion désormais possible de l'écrit avec d'autres formes artistiques (dessin, photo, musique, cinéma). Il appartient aux bibliothèques de ne pas les négliger. Si leur objectif premier est la diffusion gratuite du savoir accumulé au fil des siècles, les bibliothèques numériques pourraient peut-être aussi accueillir ces nouveaux auteurs qui n'ont pas la tâche facile, entre un public quelque peu sceptique et une chaîne éditoriale passablement sclérosée. Reste à voir comment. En mettant par exemple en place un espace d'exposition virtuelle permettant de faire connaître leurs œuvres par le biais de quelques hyperliens? L'internet "est un lieu sans passé, où ce que l'on fait ne s'évalue pas par rapport à une tradition. Il y faut inventer de nouvelles manières de faire les choses" (00h00.com).


Conclusion

L'avenir sera-t-il les banques de données numériques décrites dans les dernières pages de Chaos et cyberculture (Timothy Leary et al., éditions du Lézard, Paris, 1997) ? "Toute l'information du monde est à l'intérieur. Et grâce au cyberespace, tout le monde peut y avoir accès. Tous les signaux humains contenus jusque-là dans les livres ont été numérisés. Ils sont enregistrés et disponibles dans ces banques de données, sans compter tous les tableaux, tous les films, toutes les émissions de télé, tout, absolument tout."

Reste à savoir si la consultation sera gratuite ou payante, un débat qui est déjà d'actualité et qui n'est pas près de cesser. "La nature humaine est partout la même: la soif de pouvoir chez certains vs. le partage et le pouvoir individuel", écrit en février 2001 Russon Wooldridge, professeur à l'Université de Toronto, qui, pour sa part, prône inlassablement le partage et le pouvoir individuel. Il a été l'un des premiers à créer des ressources littéraires librement accessibles en ligne, notamment le Net des études françaises, "dont les auteurs sont des personnes oeuvrant dans le champ des études françaises et partageant librement leur savoir et leurs produits avec autrui". Ces activités sont essentielles. "Il est crucial que ceux qui croient à la libre diffusion des connaissances veillent à ce que le savoir ne soit pas bouffé, pour être vendu, par les intérêts commerciaux. Ce qui se passe dans l'édition du livre en France, où on n'offre guère plus en librairie que des manuels scolaires ou pour concours (c'est ce qui s'est passé en linguistique, par exemple), doit être évité sur le web." D'où l'importance de consolider un réseau francophone libre, gratuit et solidaire dans le domaine des études littéraires. Ce colloque s'y emploie.


Sources

Les entretiens cités ont été menés entre 1998 et 2001. Ils sont disponibles en ligne sur le Net des études françaises. En janvier 1999, une première synthèse sur le sujet a été publiée dans De l'imprimé à internet (00h00.com, Paris, 1999) pour les bibliothèques francophones et dans From The Print Media to the Internet (00h00, Paris, 1999) pour les bibliothèques anglophones. En juillet 2001, une deuxième synthèse sur le sujet a été publiée dans Le Livre 010101 (2001), disponible lui aussi en ligne sur le Net des études françaises. Le passage consacré à Bookshare.org est fortement inspiré d'un article paru dans Edition Actu (n° 54, 15 mars 2002), la lettre d'information électronique de CyLibris, éditeur en ligne. Plus généralement, cette communication est une étape vers une nouvelle synthèse à paraître en juillet 2002 dans Le Livre 010101 (2002).


Liens utiles

DAISY Consortium: http://www.daisy.org/
Edition Actu: http://www.cylibris.com/cgi-bin/lettre.cgi
Editions 00h00: http://www.00h00.com/
Entretiens: http://www.etudes-francaises.net/entretiens/
Internet Public Library (IPL): http://www.ipl.org/
LexoTor: http://www.chass.utoronto.ca/epc/langueXIX/lexotor/
Livre 010101 (Le): http://www.etudes-francaises.net/entretiens/
Net des études françaises (NEF): http://www.etudes-francaises.net/
Online Books Page (The): http://digital.library.upenn.edu/books/
Bibliothèque électronique de Lisieux (La): http://www.bmlisieux.com/
Bookshare.org: http://www.bookshare.org/
Projet Gutenberg: http://www.gutenberg.org/
Rubriques à Bac: http://rabac.com/


© Marie Lebert, Paris, 7 mai 2002


Retour au programme