L'ebook a 40 ans > 1998 > Des livres numérisés en quantité

Marie Lebert - 10.06.2011

Reportage - anniversaire - ebook - numeriser


En 1998, qui dit livre numérique dit numérisation, la majorité des livres existant seulement en version imprimée. Pour pouvoir être consulté à l'écran, un livre peut être numérisé soit en mode texte soit en mode image, les deux modes de numérisation étant complémentaires.

La numérisation en mode texte

Les premiers temps, la numérisation en mode texte consiste à patiemment saisir le livre sur un clavier, page après page, solution souvent adoptée lors de la constitution des premières bibliothèques numériques, ou alors quand les documents originaux manquent de clarté, pour les livres anciens par exemple.

Les années passant, la numérisation en mode texte consiste surtout à scanner le livre en mode image, puis à le convertir en texte grâce à un logiciel OCR (Optical Character Recognition), avec relecture éventuelle à l’écran pour corriger le texte obtenu puisqu'un bon logiciel OCR serait fiable à 99 %.

 

 


La version informatique du livre ne conserve pas la présentation originale du livre ou de la page. Le livre devient texte, à savoir un ensemble de caractères apparaissant en continu à l’écran. À cause du temps passé au traitement de chaque livre, ce mode de numérisation est assez long, et donc nettement plus coûteux que la numérisation en mode image. Dans de nombreux cas, il est toutefois préférable, puisqu’il permet l’indexation, la recherche textuelle, l’analyse textuelle, une étude comparative entre plusieurs textes ou plusieurs versions du même texte, etc.

C’est la méthode utilisée par exemple par le Projet Gutenberg, fondé dès 1971 et qui propose aujourd'hui la plus grande collection numérique au format texte, avec des livres relus et corrigés à deux reprises pour être fiables à 99,95 % par rapport à la version imprimée.

La numérisation en mode image

La numérisation en mode image consiste à scanner le livre, et correspond donc à la photographie du livre page après page. La présentation originale étant conservée, on peut feuilleter le livre à l’écran. La version informatique est le fac-similé numérique de la version imprimée.

C’est la méthode employée à la fin des années 1990 pour les numérisations à grande échelle, par exemple le programme de numérisation lancé en 1997 par la Bibliothèque nationale de France (BnF) pour alimenter sa bibliothèque numérique Gallica. Ne sont numérisés en mode texte que les tables des matières, les sommaires et les corpus de documents iconographiques, afin de faciliter la recherche textuelle.

Pourquoi ne pas tout numériser en mode texte ? La BnF répond en 2000 sur le site de Gallica : « Le mode image conserve l’aspect initial de l’original y compris ses éléments non textuels. Si le mode texte autorise des recherches riches et précises dans un document et permet une réduction significative du volume des fichiers manipulés, sa réalisation, soit par saisie soit par OCR, implique des coûts de traitement environ dix fois supérieurs à la simple numérisation. Ces techniques, parfaitement envisageables pour des volumes limités, ne pouvaient ici être économiquement justifiables au vu des 50.000 documents (représentant presque 15 millions de pages) mis en ligne. »

Dans les années qui suivent, Gallica convertira toutefois nombre de ses livres du mode image au mode texte pour permettre les recherches textuelles.

 

 

 

 


Chaque mode de numérisation a son utilité

Concepteur de Mot@mot, logiciel de remise en page de fac-similés numériques, Pierre Schweitzer insiste sur l’utilité des deux modes de numérisation. Il explique en janvier 2001 : « Le mode image permet d’avancer vite et à très faible coût. C’est important, car la tâche de numérisation du domaine public est immense. Il faut tenir compte aussi des différentes éditions : la numérisation du patrimoine a pour but de faciliter l’accès aux oeuvres, il serait paradoxal qu’elle aboutisse à se focaliser sur une édition et à abandonner l’accès aux autres. Chacun des deux modes de numérisation s’applique de préférence à un type de document, ancien et fragile ou plus récent, libre de droit ou non (pour l’auteur ou pour l’édition), abondamment illustré ou pas. Les deux modes ont aussi des statuts assez différents : en mode texte ça peut être une nouvelle édition d’une oeuvre, en mode image c’est une sorte d’"édition d’édition", grâce à un de ses exemplaires (qui fonctionne alors comme une fonte d’imprimerie pour du papier). En pratique, le choix dépend bien sûr de la nature du fonds à numériser, des moyens et des buts à atteindre. Difficile de se passer d’une des deux façons de faire. » (Entretien du NEF)



Notre prochain épisode : 1998 > L’Encyclopédie de Diderot en ligne

Nos épisodes précédents


Copyright © 2011 Marie Lebert

 

 




Commentaires

Pas de commentaires

Poster un commentaire

 

grin LOL cheese smile wink smirk rolleyes confused surprised big surprise tongue laugh tongue rolleye tongue wink raspberry blank stare long face ohh grrr gulp oh oh downer red face sick shut eye hmmm mad angry zipper kiss shock cool smile cool smirk cool grin cool hmm cool mad cool cheese vampire snake exclaim question

Vous répondez au commentaire de

Cliquez ici pour ne plus répondre à ce commentaire

* Laisser vide pour ne pas reçevoir de notification par email de nouveaux commentaires.