vendredi 29 mai 2009

OCR : et après ? Discussion autour des formats de sorties…


Le logiciel de reconnaissance de caractères (OCR) propriétaire le plus performant disponible sur le marché (et à un coût raisonnable) continue probablement d’être FineReader. Il convient certainement aussi d’évaluer les alternatives libres comme : Tesseracrt-ocr, racheté par Google il y a quelques temps, et amélioré depuis, OOCR, etc. ; voire les gratuiciels comme simpleOCR... ou même des versions disponibles en ligne comme WeOCR server (voir ici) ou ocrterminal (voir la)…

Quelle que soit la solution choisie, il faut garder à l’esprit que ses performances sont très fort dépendantes du type de document original (police et taille des caractères), de son état (papier transparent), et de la qualité de la numérisation (une résolution d’acquisition de 350dpi devrait garantir la meilleure reconnaissance) ; il convient donc de tester chaque solution sur des exemples représentatifs du fonds que vous souhaitez océriser. Dans tous les cas, le meilleur taux de reconnaissance est d’environ 99,97% ; cela peut sembler énorme, mais signifie qu’il y a un peu moins d’une faute tous les 100 caractères (sur une page de 2500 cela fait quand même une petite dizaine de fautes…). On peut, il est vrai, se demander si une ressaisie des documents ne produit pas autant de fautes…

Une autre question à se poser est de savoir quel doit être le format de sortie des documents océrisés (qui rejoint la question des besoins des utilisateurs). Avec FineReader, il est possible de choisir le format PDF Texte sous image ; cela a été notre choix dans un projet de numérisation de 3 têtes de séries à l’ULB (voir p.e. la série Problèmes d’histoire du Christianisme et notre précédent billet Digithèque des EUB : du texte sous les images !). Même si nous considérons que la qualité de reconnaissance est raisonnable, nous avons dû faire des choix : la reconnaissance est meilleure sur des fichiers couleurs que sur des fichiers binarisés (en N&B uniquement), mais la mise en ligne d’un fichier PDF pour un ouvrage entier exclut la couleur (car cela donnerait des fichiers beaucoup trop lourds à charger)… pour sortir du texte sous image, nous avons donc dû océriser les fichiers binarisés, ce qui produit plus d’erreurs. D’autres formats de sortie existent, p.e. html (= des images en entrée et des fichiers HTML en sortie) : problème, la mise en page est rendue de façon très approximative… et l’utilisateur n’a plus la possibilité de vérifier s’il y a des fautes de reconnaissance.

Cette question des formats de sortie est également liée à la façon dont vous mettez les documents à disposition des utilisateurs : si vous disposez d’un logiciel de gestion de documents numérisés, peut-être vous permettra-t-il de faire afficher des extraits autour des textes reconnus (comme Google le fait). Dans ce cas, vous devrez non seulement faire de la reconnaissance de caractères, mais aussi récupérer les coordonnées de chaque mot reconnu dans les images, et vous assurer que votre logiciel peut gérer l’ensemble. Une extension de FineReader propose justement de le faire dans une option supplémentaire… payante.

D’autre part, certains travaillent effectivement sur la reconnaissance de manuscrits, mais cela reste encore assez expérimental. Apparemment, des réussites ont été obtenues pour des manuscrits rédigés avec des lettres très rondes, et très bien formées. Il est alors possible (c’est d’ailleurs le cas dans FineReader) de définir des ‘gabarits’ pour expliquer au logiciel que telle forme correspond à telle lettre… à tester donc. Pour ce type de document, l’alternative de la ressaisie du manuscrit est certainement à considérer.

La reconnaissance de caractères est donc une histoire de compromis !

Pour ce qui est de l’indexation, il est certainement important d’allier aux documents leurs métadonnées : la recherche dans le plein texte est intéressante mais est en même temps source de bruit ; il peut donc être pertinent, pour l’utilisateur, de pouvoir choisir d’interroger un fonds sur ses métadonnées ou sur le texte intégral. Attention aussi aux performances des moteurs de recherche lorsqu’ils doivent gérer un gros volume (d’indexes) de ‘texte intégral’…

Enfin, il peut être plus pertinent de confier le travail d’océrisation à un prestataire extérieur, dont c’est la spécialité : rédaction d’un cahier des charges, évaluation sur base de quelques échantillons traités… et ne pas négliger les contrôles qualité (très gourmands en temps aussi). Deux types de prestataires se dégagent : ceux qui travaillent avec des ‘buts sociaux’ (p.e. emploi de personnes fragilisées…) et ceux qui font de la sous-traitance dans des pays à faibles revenus (mais qui peuvent aussi relever du secteur de ‘développement durable’) ; ceci pour la dimension éthique de la problématique !

L’océrisation, avec le développement de projets de numérisation de masse, est devenu un domaine de recherche très fertile ; la bibliothèque nationale néerlandaise ne s’y est d’ailleurs pas trompé en organisant, en avril dernier, la conférence OCR in Mass Digitisation dont vous retrouverez toutes les présentations sur ici. La BNF propose également des informations intéressantes...

Et vous, vous faites comment ?!

4 commentaires:

Anonyme a dit…

Pour répondre à votre question "Et vous, comment faites-vous", je conseillerais le format DJVU, développé à cet effet. Il existe actuellement un ensemble complet de logiciels en sources libres qui garantit la pérennité et l'interopérabilité du format. Le format DJVU permet de conserver les informations textuelles sous-jacentes --- mots identifiés par reconnaissance optique de caractères (ROC ou OCR) et associés à leur position absolue sur la page. Ce format permet également de préserver les liens vers une adresse externe universelle (URL).

Le format DJVU a été développé pour l'enregistrement des documents numérisés et fournit des fichiers plus compacts que le format PDF.

Plus d'informations sur
http://djvu.sourceforge.net/Bon succès pour votre entreprise...

Bibliothèques de l'ULB a dit…

Merci pour votre heureuse suggestion.
Nous avions déjà admiré l'ergonomie de la navigation dans certains documents DjVu (par exemple "Le Thyrse" mis en ligne sur Internet Archive par les "Canadian Libraries" est à voir absolument : http://www.archive.org/stream/lethyrse16bruxuoft#page/n5/mode/2up/)... mais n'avons encore jamais tenté djvuocr (http://djvuocr.ucoz.ru/)... une lacune à combler sans aucun doute !

Thierry roget a dit…

Bonjour merci d'avoir mentionné mon article sur ocr terminal!

Bibliothèques de l'ULB a dit…

Toujours un plaisir de citer d'autres billets pertinents sur un sujet traité... donc continuez à poster !