Le développement de l'industrie informatique se réduisait à ses débuts…
data.bnf.fr pour enrichir un portail de recherche documentaire : le cas de Canopé Académie de Poitiers
Je teste actuellement avec le Canopé Académie de Poitiers (Anciennement le CRDP Poitou-Charentes – Centre Régional de Documentation Pédagogique) l’utilisation des données mises à disposition par la BNF dans le portail data.bnf.fr pour enrichir des portails documentaires. Je donne ici un premier retour d’expérience sur ce travail, avec leur accord. Pourquoi réutiliser ces données ? comment ? quels sont les premiers résultats obtenus ?
Contexte
Le réseau Canopé a pour objectif de « renforcer l’action de la communauté éducative en faveur de la réussite des élèves », en particulier en fournissant des ressources documentaires et pédagogiques pour les enseignants, mais aussi en proposant des espaces de formation et d’animation. Canopé Poitiers a ceci de particulier que, tout en étant une émanation régionale du réseau Canopé, il a une activité d’éditeur logiciel d’envergure nationale en proposant et en hébergeant les portails de recherche documentaire des CDI de plus de 7000 collèges et lycées, dans sa solution e-sidoc (7013 portails exactement au moment de la rédaction de cet article, vous pouvez regarder la carte des déploiements d’e-sidoc pour voir si le collège ou le lycée du coin est équipé avec cette solution. Voici le portail d’un lycée à Tours pour vous faire une idée).
Objectifs
L’objectif de Canopé Poitiers est d’évaluer la faisabilité et l’intérêt d’enrichir les portails e-sidoc avec les données de data.bnf.fr. Les possibilités d’enrichissement sont ouvertes mais peuvent schématiquement se subdiviser en trois :
- L’amélioration de la recherche et des modes d’accès aux catalogues ; cette partie recouvre elle-même deux parties :
- l’amélioration des fonctions de recherche (nouvelles facettes ou de nouveaux critères de recherche) ;
- l’amélioration de la présentation des résultats de recherche;
- L’ajout de nouvelles notices, tirées de data.bnf.fr, au catalogue « local » du CDI; c’est ce qui est déjà fait par Canopé Poitiers qui propose au CDI des « réservoirs de notices« , comme le dépouillement des titres de la presse, ou une sélection de sites internet pour les collèges et les lycées. Cela pourrait avoir du sens pour inclure dans ces portail des œuvres numériques de Gallica, ou des liens vers les expositions virtuelles de la BNF, etc. Cela permettrait ensuite au collégien/lycéen d’accéder à ces ressources via le portail de recherche;
- L’enrichissement des notices documentaires (comme celle-ci) avec des informations tirées des données de data.bnf.fr;
Par ailleurs, Canopé Poitiers a de fortes contraintes de production, la réindexation de 7000 bases documentaires chaque nuit, et l’hébergement de tous ces portails pour avoir de bons temps de réponse posant un certain nombre de challenges techniques dont je ne soupçonne pas le quart…
Pour ces raisons de contraintes de production, nous expérimentons d’abord la piste de l’enrichissement des notices documentaires qui n’impacte ni sur la structure des index de recherche (ou de façon mineure), ni sur leur taille.
Quels enrichissements et comment ?
Le premier enrichissement envisagé est l’ajout d’un lien vers une version numérisée dans Gallica de l’œuvre présentée dans la notice. (voir par exemple Alice au pays des merveilles dans Gallica) La récupération de ces liens est possible car :
- Les notices du portail documentaire portent (pour la plupart) un ISBN ou un EAN;
- Les éditions d’ouvrages publiées dans data.bnf.fr portent également (pour la plupart) un ISBN ou un EAN, ce qui permet de faire un rapprochement avec nos notices;
- Les éditions d’ouvrage de data.bnf.fr sont regroupées ensemble sous des entrées correspondant à l’œuvre abstraite par une organisation FRBR, ce qui permet, même s’il n’existe pas de version numérisée pour l’ISBN exact de départ (ce qui est toujours le cas, car les versions numériques dans Gallica sont celles d’éditions anciennes), de voir si une autre édition de la même oeuvre a son équivalent numérisée;
Pour ce qui nous intéresse ici, la structuration FRBR des oeuvres est donc la principale valeur ajoutée des données data.bnf.fr, par rapport aux flux OAI ou Z3950 de la BNF, qui ne structurent pas les données de cette façon.
Donc, en résumé :
- on cherche l’édition de l’oeuvre dans data.bnf.fr via l’ISBN ou l’EAN;
- et si on l’a trouvée, on cherche une autre édition de la même oeuvre ayant une version numérique (on prend l’édition la plus récente);
Retour d'expérience technique
Pour faire ce travail de récupération des liens :
- On télécharge les données de dump de data.bnf.fr;
- On les stocke dans un triplestore Jena Fuseki avec un stockage TDB;
- On fait un prétraitement sur les ISBNs (voir ci-dessous), et on fait nos requêtes de rapprochement en SPARQL;
On s’aperçoit que :
- Les données ont quelques petits soucis de format. (ne dérogeant donc pas à la règle d’or du traitement des données sur le web : « les données sont pourries » 😉 ) en effet quelques fichiers RDF des dumps de la BNF (ceux des manifestations, le 11971, le 11975 et quelques autres) contiennent des erreurs de syntaxe qui empêchent de les charger dans une base RDF. Avant de lancer un chargement, il est préférable de vérifier les fichiers avec le script Jena ntriples et son option « validate » :
- ntriples –validate /chemin/databnf_editions_nt/databnf_editions__manif_* > /chemin/temp.txt
- le plus simple a été de supprimer tout simplement ces fichiers pour ne pas faire échouer le chargement, mais si vous voulez avoir 100% des données il faudra les corriger, ce qui n’est pas tout à fait trivial;
- Le chargement des données est plutôt rapide. 105 millions de triplets, sur un portable classique, en 1h40. Pour ce chargement, j’ai utilisé le script tdbloader2 de Jena;
- Le format des ISBN est variable (aussi bien dans les données BNF que dans les notices de départ). Parfois en format ISBN-10, parfois en format ISBN-13, parfois avec tirets, parfois sans (978-2-7116-2455-3, 1-4051-3618-9, 3832202560, etc.) Je me suis donc ramené à une version sans tirets pour tous les ISBN pour limiter le problème, mais il reste la différence entre les ISBN-10 et les ISBN-13 qui n’a pas été traitée;
Quels résultats ?
Nous avons voulu valider la couverture des données de data.bnf.fr en terme de liens vers les versions numériques des œuvres : est-ce que le jeu en vaut la chandelle ? pourra-t-on sortir suffisamment de liens vers des œuvres numériques pour justifier le travail ? Pour cela, on a d’abord testé sur 4 auteurs classiques : Jules Verne, Victor Hugo, Emile Zola, Molière, en extrayant des notices la liste des ISBN/EAN des éditions de leurs œuvres.
Voici ce qu’on obtient en terme de couverture du rapprochement des données pour ces ISBNs :
Valeur |
Chiffre |
Pourcentage |
Nombre total d’ISBN distincts | 1623 | 100% |
Nombre d’ISBN trouvés dans data.bnf.fr | 823 | 50% |
Nombre d’ISBN pour lesquels on trouve une version électronique dans Gallica de la même œuvre (mais pas de la même édition) | 429 | 26% |
On trouve une version électronique de l’oeuvre pour un ISBN sur quatre. Mais certaines œuvres ont plus d’exemplaires (d’items au sens FRBR) que d’autres (on trouvera plus d’exemplaires de « Au bonheur des dames » que de « Comment on meurt » de Zola), c’est pourquoi il était aussi intéressant de donner la couverture en nombres d’exemplaires :
Valeur |
Chiffre |
Pourcentage |
Nombre total d’items (au sens FRBR) ayant une valeur d’ISBN | 36606 | 100% |
Nombre d’items (au sens FRBR) pour lesquels l’ISBN est trouvé dans data.bnf.fr | 26366 | 72% |
Nombre d’items (au sens FRBR) pour lesquels on trouve une version électronique dans Gallica de la même œuvre (mais pas de la même édition) | 19446 | 53% |
Pour exprimer autrement le dernier chiffre de 53% : il y a une chance sur deux de trouver une version numérique dans Gallica de l’oeuvre d’un livre d’un de ces 4 auteurs pris au hasard dans les rayonnages d’un CDI.
Globalement cela encourage à continuer la démarche et montre que ce travail sera visible dans les portails e-sidoc. La récupération des versions numériques des oeuvres est un premier prétexte à ce travail de rapprochement qui permettrait ensuite de récupérer de nombreuses autres données.
Update du 16/12/2014 : les dernières versions des données de data.bnf qui seront mises en ligne fin 2014 devraient 1/ corriger le petit souci de format mentionné plus haut (si ce n’est déjà fait) et 2/ contenir plus de données (entre 1 et 2 millions d’éditions supplémentaires, et 400 000 auteurs supplémentaires), ce qui devrait améliorer le ratio de rapprochement des notices sur les ISBNs. Cela amènera data.bnf.fr à être de plus en plus incontournable par sa couverture (l’intégralité des éditions de la BNF devraient être publiées d’ici fin 2015).