Depuis le 24 novembre, la Bnf teste en temps réel la correction participative de documents via sa plateforme Correct dans sa version bêta. Les documents numériques de Gallica deviennent non seulement accessibles à tous mais aussi modifiables par tous.
Correct (Correction et Enrichissement Collaboratifs de Textes) est une plateforme expérimentale de crowdsourcing conçue et développée par la BnF dans le cadre du projet de recherche FUI12. Lancée en janvier 2012, elle propose une correction et un enrichissement collaboratifs de texte (1).
Piloté par Orange, le projet s'articule autour de 9 partenaires (Orange, BnF, Jamespot, Urbilog, I2S, ISEP, INSA Lyon, Université Lyon 1, Université Paris 8). La plateforme propose à des utilisateurs des outils intuitifs pour corriger et enrichir des documents numérisés. En proposant à des utilisateurs d'intégrer de petits groupes de correction via un réseau social collaboratif, Correct favorise l'entraide
et facilite la collaboration (2).
Des techniques pour améliorer l'OCR
Techniquement, après avoir importé des documents issus de Gallica, un premier prototype d'éditeur de correction a été testé pour proposer un rendu de texte fidèle à l'orignal car les traitements OCR sont encore imparfaits. Ensuite, le texte nécessite une reconstruction de sa mise en forme et la lecture proposée doit être logique. Enfin, l'indexation, la vocalisation ou encore l'annotation permettent d'enrichir les documents corrigés (1).
Concrètement, un bouton de correction sera prochainement intégré à Gallica : l'utilisateur sera alors directement redirigé dans Correct. L'objectif est d'y intégrer les 3 millions de pages et d'indiquer aux lecteurs le taux de fiabilité de la reconnaissance. Et le nouvel algorithme développé par les Orange Labs, devra améliorer les documents ALTO de la Bnf. Ces fichiers permettent de réaliser des actions spécifiques et appréciées des utilisateurs (copier-coller) dans les documents numérisés. Leur accès sera amélioré dans les moteurs de recherche et pour les chercheurs qui les utilisent comme référence (3).
Un corpus dépendant d'une correction collaborative
Pour la Bnf, la correction de texte permettra de mieux documenter les
collections destinées aux usagers. Plus tard, l'enrichissement des
documents corrigés permettra de développer de nouveaux projets comme des
livres numériques ou des livres pour les personnes malvoyantes. Jusqu'en juin 2015, le réseau social est en phase expérimentale en conditions réelles. Toute personne peut corriger des documents issus de Gallica. Les usages de la plateforme seront étudiés. Une évaluation permettra de recueillir les attentes des utilisateurs. Et, une réflexion sera menée pour intégrer l'aspect communautaire et collaboratif du réseau social à la bibliothèque numérique. Pour les aider, la Bnf a mis en ligne un guide pour la correction des césures ou des ligatures.
A ce jour, 57 documents, postérieurs à 1800, issus de Gallica et classés dans des collections créées pour l'expérimentation, sont mis à la disposition des premiers utilisateurs. Les 214 premiers inscrits, répartis en 6 groupes, choisissent les documents qu'ils souhaitent corriger en fonction de leurs centres
d'intérêt : roman d'anticipation, contes d'ici et d'ailleurs, cuisine et
gastronomie... (3) Les sciences occultes, domaine parmi les plus consultés et téléchargés sur Gallica, sont bien représentées dans cette phase de test.
Tous les documents corrigés seront accessibles et réutilisables de manière libre et gratuite tant que les usages restent à but non commercial. Les outils du partenariat et le réseau de correction participative feront-t-ils le succès du projet Correct ? La bnf en fait le pari.
1. BNF. Plateforme CORRECT : Projet de recherche FUI12 Ozalid, le 25/11/2014
En ligne : http://www.bnf.fr/fr/professionnels/anx_numerisation/a.projet_correct.html
(consultation le 02/12/2014)
2. JOSSE, Isabelle. Expérimentez la correction collaborative grâce à Correct !, le 14/11/2014.En ligne : http://www.bnf.fr/fr/professionnels/anx_numerisation/a.projet_correct.html
(consultation le 02/12/2014)
En ligne : http://blog.bnf.fr/gallica/index.php/2014/11/24/experimentez-la-correction-collaborative-grace-a-correct/ (consultation le 02/12/2014)
3. OURY, Antoine.La plateforme Correct de Gallica : tout l'enjeu réside dans la collaboration. le 01/12/2014
En ligne : https://www.actualitte.com/patrimoine/la-plateforme-correct-de-la-bnf-tout-l-enjeu-reside-dans-le-reseau-54077.htm (consultation le 02/12/2014)
Pour aller plus loin :
http://www.reseau-correct.fr. (consultation le 02/12/2014)
Aucun commentaire:
Enregistrer un commentaire