Blogus Operandi: Digithèque des EUB : du texte sous les images !

Un Fonds d’Encouragement à la Recherche (FER) attribué aux Archives & Bibliothèques de l’ULB, pour la numérisation des têtes de série Problèmes d’histoire du Christianisme, Problèmes d’histoire des religions et Etudes du XVIIIe siècle, publiées par les Editions de l’Université de Bruxelles, nous permet de donner accès à 64 nouveaux ouvrages dont le tirage est épuisé.

Les Archives & Bibliothèques de l’ULB numérisent, depuis novembre 2005, des documents faisant partie de leurs collections, à l'aide d'un scanner de livres et à raison d'environ un mi-temps d'opérateur ; pour offrir des documents essentiellement en mode PDF image (auxquels nous ajoutons table des matières et pagination)... le peu de moyens réservés à ce projet nous empêchant d'aller plus loin (reconnaissance de caractères, mise à disposition des oeuvres via une interface de consultation dédiée, etc.).

Notre exigence de qualité des fichiers - pour balancer un 'faible' nombre de documents traités - rend le processus 'maison' coûteux (nous l'estimons à environ 1 euro la page, sans compter l'amortissement de l'appareil). Au printemps 2008, une étude menée par 4 étudiants de la Solvay Brussels School of Economics and Management, dans le cadre des travaux pratiques du séminaire Economie d’entreprise du Professeur Jean-Claude Ettinger, visait à « rechercher des mécènes et/ou sponsors potentiels pour soutenir les projets actuels de numérisation et en développer de nouveaux, et proposer un modèle de parrainage pour la numérisation de documents » de nos collections. Celle-ci avait, entre autre, rendu compte que des 'prestataires spécialisés' numérisent à un coût bien inférieur ; ce que nous allions vérifier avec notre projet FER.

L'appel à un prestataire extérieur est classiquement balisé par : la rédaction d'un appel d'offre avec une exigence de qualité au moins comparable à celle pratiquée chez nous (nature et volume des documents à traiter, procédure à suivre, délivrables, contrôle qualité et procédure de retraitement, mode opératoire) ; la sélection d'opérateurs (notre préférence allait vers des opérateurs qui travaillent en Belgique exclusivement : Arkhéia, Village n°1, bobex, Trends top 150000…) ; et le contrôle qualité une fois le travail effectué par l'opérateur choisi.

Quelques leçons à tirer de cette première expérience :

nous ferons désormais appel à un prestataire extérieur aussitôt que nous obtiendrons un financement pour le traitement, et qu'il ne s'agira pas de documents rares et/ou trop fragiles ;
les prestataires extérieurs sont très performants dans leur 'core business' : numérisation et reconnaissance de caractères 'à la chaîne'. Les tâches plus manuelles (comme l'ajout de table des matières) seront avantageusement réalisées en interne ;
le financement d'un tel projet ne doit pas se résumer au coût de l'exécution du travail par l'opérateur : la rédaction de l'appel d'offre ; et surtout, le récolement « d'exemplaires éparpillés » pour former des 'séries complètes' et le contrôle qualité des délivrables sont également à prendre en compte.

Finalement, ce projet nous a fait explorer un nouveau volet de la mise en ligne de fichiers numérisés : la reconnaissance optique de caractères (ou océrisation en bon franglais !)… et son cortège de dilemmes :

l'océrisation de fichiers couleurs est plus efficace que celle de fichiers N&B... mais la mise en ligne des fichiers intégraux en couleurs, trop lourds, est exclue ;
présenter un fichier 'PDF texte sous image' (l'utilisateur peut vérifier dans l'image si le texte est pertinemment reconnu) ; ou un simple fichier texte, où la mise en page est perdue... et les erreurs d'océrisation, indiscernables ?
océrisation imparfaite et appliquée à tous les volumes du projet versus océrisation parfaite (c’est-à-dire corrigée ‘humainement’) d'un petit nombre de volumes ?
sans les coordonnées de chaque mot reconnu, impossible de présenter des 'snipets' des oeuvres, courts extraits contextualisant les mots reconnus (comme le fait Google).

N'hésitez pas à nous donner votre avis sur cette première expérience !

Pages

mercredi 6 mai 2009

Digithèque des EUB : du texte sous les images !

Aucun commentaire: