Sparna Blog » data.bnf.fr

Aligner son thesaurus avec RAMEAU en utilisant OnAGUI

Thomas Francart — Tue, 17 Jul 2018 08:56:09 +0000

La BNF organisait le 10 juillet 2018 un atelier « Données liées et données à lier : quels outils pour quels alignements ?« , avec plein de bonnes choses dedans :

RobotDonnées, le module développé par Logilab pour data.bnf.fr qui permet le regroupement semi-automatique des éditions en œuvres;
- où l’on apprend que data.bnf.fr ne comporte « que » 300 000 œuvres, alors que la cible théorique serait à plusieurs millions; par exemple on voit bien en regardant les oeuvres dont Michel Houellebecq est auteur dans data.bnf.fr que « La carte et le territoire » n’apparaît pas comme œuvre, mais que toutes les éditions de cet ouvrage sont bien listées quand on regarde tous les documents dont Houellebecq est l’auteur.
- où l’on apprend également que ce regroupement en œuvre est progressivement réintroduit dans le catalogue général de la BNF;
BiblioStratus, pour aligner un catalogue externe avec celui de la BNF sur la base de plusieurs heuristiques (ISBN, EAN ou bien titre+auteur+date ou titre+auteur); où l’on apprend que la transition n’est pas qu’écologique mais qu’il existe également une transition bibliographique;
l’ANR ELKER pour « Enhancing Link Keys: Extraction and Reasoning », porté notamment par l’INRIA Grenoble pour la détection automatique des attributs permettant de trouver des correspondances dans 2 jeux de données RDF arbitraires; très impressionnant;
CultuurLink, à tester pour tous ceux qui s’intéressent aux processus d’alignement de vocabulaires, bien que l’outil soit restreint aux vocabulaires patrimoniaux des Pays-Bas;
et encore plein d’autres choses (cf les liens sur la page de l’atelier);

OnAGUI pour aligner 2 thesaurus SKOS

Je voulais profiter de cette thématique des alignements pour parler d’un autre outil d’alignement de thesaurus SKOS : OnAGUI pour « Ontology Alignment Graphical Interface« . OnAGUI est le genre d’outil qui ne paie pas de mine au premier abord mais qui est à mon avis l’outil dont la prise en main est la plus immédiate pour qui veut aligner 2 thesaurus en SKOS, tout en permettant d’outiller le processus depuis l’alignement linguistique automatique jusqu’à la validation manuelle de l’alignement produit.

L’interface d’OnAGUI pour aligner 2 thesaurus

Quelques considérations générales : d’abord l’acronyme parle d’alignement d’ « ontologies », mais pas de panique, ça marche pour des thesaurus en SKOS; surtout pour des thesaurus en SKOS, d’ailleurs. Ensuite, c’est open-source; ça s’installe facilement sur n’importe quel poste équipé de Java, c’est une application « de bureau », qui ne nécessite pas d’infrastructure client-serveur, etc. l’interface est en français (et anglais) puisque le développement à été fait par Laurent Mazuel à l’époque où il travaillait avec Jean Charlet au LIMICS (INSERM). L’outil est maintenu, notamment par votre serviteur.

Vous pouvez consulter la documentation d’OnAGUI où vous trouverez des informations plus détaillées sur le logiciel.

Alignement avec RAMEAU

Maintenant, le cas d’usage : il m’ait arrivé de rencontrer des personnes qui avaient besoin d’aligner un vocabulaire vers le langage d’indexation RAMEAU de la BNF. Comment faire ?

Je ne détaille pas ici la structure de RAMEAU et son mécanisme de « vedettes-matières pré-coordonnées » que je ne connais pas bien d’ailleurs, mais je pars (naïvement) de ce qui existe : le fichier des Thèmes Rameau que l’on télécharge depuis le site des dumps de données de la BNF. Il s’agit du fichier intitulé « [RDF/XML] Thèmes RAMEAU« .
A ce stade il faut l’avouer : la BNF a encore des efforts à faire sur diffusion des données de RAMEAU; les données telles qu’on les télécharge sont inutilisables telles qu’elles, et nécessitent : 1/ un nettoyage et 2/ une fusion en un seul fichier; je ne m’étends pas sur cette étape que j’ai réalisé à l’aide de scripts RDF4J dont je me sers régulièrement, mais on se ramène au final à un seul fichier RDF contenant tout RAMEAU en SKOS; si vous voulez tester OnAGUI sur un autre vocabulaire ne nécessitant pas cette étape de « magie noire », essayez avec le thesaurus de l’UNESCO ou Eurovoc;
Il faut ensuite avoir son propre thesaurus en SKOS; on peut utiliser pour cela l’outil de conversion Excel vers SKOS disponible dans SKOS Play;
Il faut télécharger OnAGUI en prenant soin de prendre une version postérieure à 0.3.2, version pour laquelle des améliorations ont été apportées pour fonctionner avec RAMEAU;
Muni donc de votre vocabulaire en SKOS d’un côté, de RAMEAU (nettoyé) de l’autre, et d’OnAGUI entre les deux, vous pouvez ensuite :
1. Charger votre thesaurus dans OnaGUI (Menu « Fichier > Charger vocabulaire 1 > Charger en SKOS »);
2. Charger RAMEAU dans OnaGUI (Menu « Fichier > Charger vocabulaire 2 > Charger en SKOS »), qui va vaillamment charger 160000+ concepts;
3. Lancer un alignement linguistique (Menu « Alignement > I-Sub distance ») en prenant soin de :
  1. sélectionner la langue « fr » dans les 2 thesaurus;
  2. abaisser légèrement le seuil de tolérance de l’algorithme, en le mettant à 0.85 par exemple; ne le mettez pas trop bas sinon vous aurez trop de correspondances qui ne veulent rien dire, ni trop haut sinon vous allez rater des choses;
4. Aller prendre un petit café, ou deux, ou trois… en fonction de la taille du vocabulaire que vous avez besoin d’aligner; patientez entre quelques secondes et une nuit entière;
5. Analyser le tableau de résultat fourni et soit :
  1. supprimer des lignes de correspondances fausses; regardez le score de chaque correspondance : plus le score tend vers 1, meilleure est la correspondance linguisitique, plus le score diminue, plus les libellés sont éloignés;
  2. ajouter des nouvelles correspondances qui auraient été ratées;
6. Puis exporter l’alignement (Menu « Fichier > Exporter l’alignemenr ») soit dans un format RDF EDOAL, le plus expressif, soit avec les propriétés d’alignement SKOS, soit en CSV pour une analyse dans un tableur;

Vocabulaire Rameau chargé dans OnaGUI

OnAGUI est un outil perfectible sur bien des aspects mais qui permet de valider « pour de vrai » des alignements sur des vrais projets, sans besoin d’infrastructure compliquée ou d’outil commercial. J’ai pu le mettre en œuvre à 2 reprises : pour l’alignement du thesaurus de l’IRSTEA vers le GEMET et Agrovoc, et plus récemment pour un essai d’alignement du vocabulaire thématique d’indexation de la loi Luxembourgeoise avec le thesaurus Eurovoc utilisé au niveau européen, sur la base de l’analyse des transpositions des directives européennes dans la loi nationale. Il peut également prendre en charger des cas d’usage d’alignement partiel, en alignant seulement les concepts créés ou modifiés après une certaine date, de façon à ne pas à avoir à refaire l’intégralité de l’alignement à chaque nouvelle version du thesaurus.

Si vous avez des questions, des cas d’usage ou des retours d’expérience sur OnAGUI, n’hésitez pas à soumettre des tickets dans le site du projet.

Cet article Aligner son thesaurus avec RAMEAU en utilisant OnAGUI est apparu en premier sur Sparna Blog.

SPARQL sur les données de data.bnf.fr : un exercice guidé dans les Fables

Thomas Francart — Wed, 07 Mar 2018 14:27:41 +0000

Appréhender les données de data.bnf.fr n’est pas forcément facile. Je vais expérimenter ce nouveau TP pour expliquer comment partir à la découverte des données de la BNF en utilisant SPARQL. L’énoncé permet de comprendre :

Comment trouver un auteur par son nom
Comment trouver une oeuvre par son nom
Comment chercher un mot-clé dans Rameau
Comment faire une recherche combinée sur l’auteur de l’oeuvre et un mot-clé Rameau

Découvrir les données de data.bnf.fr en utilisant SPARQL

Travaux pratiques pour explorer les oeuvres, les auteurs et les mots-clés de data.bnf.fr en utilisant des requêtes SPARQL.

Cet article SPARQL sur les données de data.bnf.fr : un exercice guidé dans les Fables est apparu en premier sur Sparna Blog.

data.bnf.fr pour enrichir un portail de recherche documentaire : le cas de Canopé Académie de Poitiers

Thomas Francart — Fri, 12 Dec 2014 14:17:08 +0000

Je teste actuellement avec le Canopé Académie de Poitiers (Anciennement le CRDP Poitou-Charentes – Centre Régional de Documentation Pédagogique) l’utilisation des données mises à disposition par la BNF dans le portail data.bnf.fr pour enrichir des portails documentaires. Je donne ici un premier retour d’expérience sur ce travail, avec leur accord. Pourquoi réutiliser ces données ? comment ? quels sont les premiers résultats obtenus ?

Contexte

Le réseau Canopé a pour objectif de « renforcer l’action de la communauté éducative en faveur de la réussite des élèves », en particulier en fournissant des ressources documentaires et pédagogiques pour les enseignants, mais aussi en proposant des espaces de formation et d’animation. Canopé Poitiers a ceci de particulier que, tout en étant une émanation régionale du réseau Canopé, il a une activité d’éditeur logiciel d’envergure nationale en proposant et en hébergeant les portails de recherche documentaire des CDI de plus de 7000 collèges et lycées, dans sa solution e-sidoc (7013 portails exactement au moment de la rédaction de cet article, vous pouvez regarder la carte des déploiements d’e-sidoc pour voir si le collège ou le lycée du coin est équipé avec cette solution. Voici le portail d’un lycée à Tours pour vous faire une idée).

Objectifs

L’objectif de Canopé Poitiers est d’évaluer la faisabilité et l’intérêt d’enrichir les portails e-sidoc avec les données de data.bnf.fr. Les possibilités d’enrichissement sont ouvertes mais peuvent schématiquement se subdiviser en trois :

L’amélioration de la recherche et des modes d’accès aux catalogues ; cette partie recouvre elle-même deux parties :
1. l’amélioration des fonctions de recherche (nouvelles facettes ou de nouveaux critères de recherche) ;
2. l’amélioration de la présentation des résultats de recherche;
L’ajout de nouvelles notices, tirées de data.bnf.fr, au catalogue « local » du CDI; c’est ce qui est déjà fait par Canopé Poitiers qui propose au CDI des « réservoirs de notices« , comme le dépouillement des titres de la presse, ou une sélection de sites internet pour les collèges et les lycées. Cela pourrait avoir du sens pour inclure dans ces portail des œuvres numériques de Gallica, ou des liens vers les expositions virtuelles de la BNF, etc. Cela permettrait ensuite au collégien/lycéen d’accéder à ces ressources via le portail de recherche;
L’enrichissement des notices documentaires (comme celle-ci) avec des informations tirées des données de data.bnf.fr;

Par ailleurs, Canopé Poitiers a de fortes contraintes de production, la réindexation de 7000 bases documentaires chaque nuit, et l’hébergement de tous ces portails pour avoir de bons temps de réponse posant un certain nombre de challenges techniques dont je ne soupçonne pas le quart…

Pour ces raisons de contraintes de production, nous expérimentons d’abord la piste de l’enrichissement des notices documentaires qui n’impacte ni sur la structure des index de recherche (ou de façon mineure), ni sur leur taille.

Quels enrichissements et comment ?

Le premier enrichissement envisagé est l’ajout d’un lien vers une version numérisée dans Gallica de l’œuvre présentée dans la notice. (voir par exemple Alice au pays des merveilles dans Gallica) La récupération de ces liens est possible car :

Les notices du portail documentaire portent (pour la plupart) un ISBN ou un EAN;
Les éditions d’ouvrages publiées dans data.bnf.fr portent également (pour la plupart) un ISBN ou un EAN, ce qui permet de faire un rapprochement avec nos notices;
Les éditions d’ouvrage de data.bnf.fr sont regroupées ensemble sous des entrées correspondant à l’œuvre abstraite par une organisation FRBR, ce qui permet, même s’il n’existe pas de version numérisée pour l’ISBN exact de départ (ce qui est toujours le cas, car les versions numériques dans Gallica sont celles d’éditions anciennes), de voir si une autre édition de la même oeuvre a son équivalent numérisée;

Pour ce qui nous intéresse ici, la structuration FRBR des oeuvres est donc la principale valeur ajoutée des données data.bnf.fr, par rapport aux flux OAI ou Z3950 de la BNF, qui ne structurent pas les données de cette façon.

Donc, en résumé :

on cherche l’édition de l’oeuvre dans data.bnf.fr via l’ISBN ou l’EAN;
et si on l’a trouvée, on cherche une autre édition de la même oeuvre ayant une version numérique (on prend l’édition la plus récente);

Retour d'expérience technique

Pour faire ce travail de récupération des liens :

On télécharge les données de dump de data.bnf.fr;
On les stocke dans un triplestore Jena Fuseki avec un stockage TDB;
On fait un prétraitement sur les ISBNs (voir ci-dessous), et on fait nos requêtes de rapprochement en SPARQL;

On s’aperçoit que :

Les données ont quelques petits soucis de format. (ne dérogeant donc pas à la règle d’or du traitement des données sur le web : « les données sont pourries » ) en effet quelques fichiers RDF des dumps de la BNF (ceux des manifestations, le 11971, le 11975 et quelques autres) contiennent des erreurs de syntaxe qui empêchent de les charger dans une base RDF. Avant de lancer un chargement, il est préférable de vérifier les fichiers avec le script Jena ntriples et son option « validate » :
- ntriples –validate /chemin/databnf_editions_nt/databnf_editions__manif_* > /chemin/temp.txt
- le plus simple a été de supprimer tout simplement ces fichiers pour ne pas faire échouer le chargement, mais si vous voulez avoir 100% des données il faudra les corriger, ce qui n’est pas tout à fait trivial;
Le chargement des données est plutôt rapide. 105 millions de triplets, sur un portable classique, en 1h40. Pour ce chargement, j’ai utilisé le script tdbloader2 de Jena;
Le format des ISBN est variable (aussi bien dans les données BNF que dans les notices de départ). Parfois en format ISBN-10, parfois en format ISBN-13, parfois avec tirets, parfois sans (978-2-7116-2455-3, 1-4051-3618-9, 3832202560, etc.) Je me suis donc ramené à une version sans tirets pour tous les ISBN pour limiter le problème, mais il reste la différence entre les ISBN-10 et les ISBN-13 qui n’a pas été traitée;

Quels résultats ?

Nous avons voulu valider la couverture des données de data.bnf.fr en terme de liens vers les versions numériques des œuvres : est-ce que le jeu en vaut la chandelle ? pourra-t-on sortir suffisamment de liens vers des œuvres numériques pour justifier le travail ? Pour cela, on a d’abord testé sur 4 auteurs classiques : Jules Verne, Victor Hugo, Emile Zola, Molière, en extrayant des notices la liste des ISBN/EAN des éditions de leurs œuvres.

Voici ce qu’on obtient en terme de couverture du rapprochement des données pour ces ISBNs :

Valeur	Chiffre	Pourcentage
Nombre total d’ISBN distincts	1623	100%
Nombre d’ISBN trouvés dans data.bnf.fr	823	50%
Nombre d’ISBN pour lesquels on trouve une version électronique dans Gallica de la même œuvre (mais pas de la même édition)	429	26%

On trouve une version électronique de l’oeuvre pour un ISBN sur quatre. Mais certaines œuvres ont plus d’exemplaires (d’items au sens FRBR) que d’autres (on trouvera plus d’exemplaires de « Au bonheur des dames » que de « Comment on meurt » de Zola), c’est pourquoi il était aussi intéressant de donner la couverture en nombres d’exemplaires :

Valeur	Chiffre	Pourcentage
Nombre total d’items (au sens FRBR) ayant une valeur d’ISBN	36606	100%
Nombre d’items (au sens FRBR) pour lesquels l’ISBN est trouvé dans data.bnf.fr	26366	72%
Nombre d’items (au sens FRBR) pour lesquels on trouve une version électronique dans Gallica de la même œuvre (mais pas de la même édition)	19446	53%

Pour exprimer autrement le dernier chiffre de 53% : il y a une chance sur deux de trouver une version numérique dans Gallica de l’oeuvre d’un livre d’un de ces 4 auteurs pris au hasard dans les rayonnages d’un CDI.

Globalement cela encourage à continuer la démarche et montre que ce travail sera visible dans les portails e-sidoc. La récupération des versions numériques des oeuvres est un premier prétexte à ce travail de rapprochement qui permettrait ensuite de récupérer de nombreuses autres données.

Update du 16/12/2014 : les dernières versions des données de data.bnf qui seront mises en ligne fin 2014 devraient 1/ corriger le petit souci de format mentionné plus haut (si ce n’est déjà fait) et 2/ contenir plus de données (entre 1 et 2 millions d’éditions supplémentaires, et 400 000 auteurs supplémentaires), ce qui devrait améliorer le ratio de rapprochement des notices sur les ISBNs. Cela amènera data.bnf.fr à être de plus en plus incontournable par sa couverture (l’intégralité des éditions de la BNF devraient être publiées d’ici fin 2015).

Cet article data.bnf.fr pour enrichir un portail de recherche documentaire : le cas de Canopé Académie de Poitiers est apparu en premier sur Sparna Blog.