<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Sparna Blog &#187; data.bnf.fr</title>
	<atom:link href="https://blog.sparna.fr/tag/data-bnf-fr/feed/" rel="self" type="application/rss+xml" />
	<link>https://blog.sparna.fr</link>
	<description>Web de données &#124; Architecture de l&#039;information &#124; Accès aux connaissances</description>
	<lastBuildDate>Tue, 03 Jun 2025 10:30:27 +0000</lastBuildDate>
	<language>fr-FR</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	
	<item>
		<title>Aligner son thesaurus avec RAMEAU en utilisant OnAGUI</title>
		<link>https://blog.sparna.fr/2018/07/17/aligner-thesaurus-rameau-onagui/</link>
		<comments>https://blog.sparna.fr/2018/07/17/aligner-thesaurus-rameau-onagui/#comments</comments>
		<pubDate>Tue, 17 Jul 2018 08:56:09 +0000</pubDate>
		<dc:creator><![CDATA[Thomas Francart]]></dc:creator>
				<category><![CDATA[Editeurs]]></category>
		<category><![CDATA[Linked Data]]></category>
		<category><![CDATA[OnAGUI]]></category>
		<category><![CDATA[SKOS]]></category>
		<category><![CDATA[Thesaurus]]></category>
		<category><![CDATA[alignement]]></category>
		<category><![CDATA[bnf]]></category>
		<category><![CDATA[data.bnf.fr]]></category>
		<category><![CDATA[mapping]]></category>
		<category><![CDATA[onagui]]></category>
		<category><![CDATA[Rameau]]></category>
		<category><![CDATA[thesaurus]]></category>

		<guid isPermaLink="false">http://blog.sparna.fr/?p=1212</guid>
		<description><![CDATA[<p>La BNF organisait le 10 juillet 2018 un atelier &#171;&#160;Données liées et données à lier : quels outils pour quels alignements ?&#171;&#160;, avec plein de bonnes choses dedans : RobotDonnées, le module développé par Logilab pour data.bnf.fr qui permet le regroupement semi-automatique des éditions en œuvres; où l&#8217;on apprend que data.bnf.fr ne comporte &#171;&#160;que&#160;&#187; 300&#8230;</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2018/07/17/aligner-thesaurus-rameau-onagui/">Aligner son thesaurus avec RAMEAU en utilisant OnAGUI</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></description>
				<content:encoded><![CDATA[<p style="text-align: justify;">La BNF organisait le 10 juillet 2018 un <a href="https://bnf.hypotheses.org/3077">atelier &laquo;&nbsp;<em>Données liées et données à lier : quels outils pour quels alignements ?</em>&laquo;&nbsp;</a>, avec plein de bonnes choses dedans :</p>
<ul>
<li style="text-align: justify;">RobotDonnées, le module développé par Logilab pour data.bnf.fr qui permet le regroupement semi-automatique des éditions en œuvres;
<ul>
<li>où l&rsquo;on apprend que <a href="http://data.bnf.fr">data.bnf.fr</a> ne comporte &laquo;&nbsp;que&nbsp;&raquo; 300 000 œuvres, alors que la cible théorique serait à plusieurs millions; par exemple on voit bien en regardant <a href="http://data.bnf.fr/12249911/michel_houellebecq/#rdt70-12249911">les oeuvres dont Michel Houellebecq est auteur dans data.bnf.fr</a> que &laquo;&nbsp;<em>La carte et le territoire</em>&nbsp;&raquo; n’apparaît pas comme œuvre, mais que toutes les éditions de cet ouvrage sont bien listées quand on regarde <a href="http://data.bnf.fr/documents-by-rdt/12249911/70/page1">tous les documents dont Houellebecq est l&rsquo;auteur</a>.</li>
<li>où l&rsquo;on apprend également que ce regroupement en œuvre est progressivement réintroduit dans le catalogue général de la BNF;</li>
</ul>
</li>
<li style="text-align: justify;">BiblioStratus, pour aligner un catalogue externe avec celui de la BNF sur la base de plusieurs heuristiques (ISBN, EAN ou bien titre+auteur+date ou titre+auteur); où l&rsquo;on apprend que la transition n&rsquo;est pas qu&rsquo;écologique mais qu&rsquo;il existe également une <a href="https://www.transition-bibliographique.fr/17-06-20-notice-bibliographique-manifestation-notice-autorite-titre-oeuvre/">transition bibliographique</a>;</li>
<li style="text-align: justify;">l&rsquo;ANR <a href="https://project.inria.fr/elker/">ELKER</a> pour &laquo;&nbsp;Enhancing Link Keys: Extraction and Reasoning&nbsp;&raquo;, porté notamment par l&rsquo;INRIA Grenoble pour la détection automatique des attributs permettant de trouver des correspondances dans 2 jeux de données RDF arbitraires; très impressionnant;</li>
<li style="text-align: justify;"><a href="http://cultuurlink.beeldengeluid.nl">CultuurLink</a>, à tester pour tous ceux qui s&rsquo;intéressent aux processus d&rsquo;alignement de vocabulaires, bien que l&rsquo;outil soit restreint aux vocabulaires patrimoniaux des Pays-Bas;</li>
<li style="text-align: justify;"><em>et encore plein d&rsquo;autres choses (cf les liens sur la page de l&rsquo;atelier);</em></li>
</ul>
<h2 style="text-align: justify;">OnAGUI pour aligner 2 thesaurus SKOS</h2>
<p style="text-align: justify;">Je voulais profiter de cette thématique des alignements pour parler d&rsquo;un autre outil d&rsquo;alignement de thesaurus SKOS : <strong><a href="https://github.com/lmazuel/onagui">OnAGUI</a> </strong>pour &laquo;&nbsp;<em>Ontology Alignment Graphical Interface</em>&laquo;&nbsp;. OnAGUI est le genre d&rsquo;outil qui ne paie pas de mine au premier abord mais qui est à mon avis<strong> l&rsquo;outil dont la prise en main est la plus immédiate pour qui veut aligner 2 thesaurus en SKOS, </strong>tout en permettant d&rsquo;<strong>outiller le processus depuis l&rsquo;alignement linguistique automatique jusqu&rsquo;à la validation manuelle de l&rsquo;alignement produit</strong>.</p>
<div id="attachment_1170" style="width: 660px" class="wp-caption aligncenter"><a href="http://blog.sparna.fr/wp-content/uploads/2018/01/onagui-irstea-gemet.png"><img class="size-large wp-image-1170" src="http://blog.sparna.fr/wp-content/uploads/2018/01/onagui-irstea-gemet-1024x582.png" alt="L'interface d'OnAGUI pour aligner 2 thesaurus" width="650" height="369" /></a><p class="wp-caption-text">L&rsquo;interface d&rsquo;OnAGUI pour aligner 2 thesaurus</p></div>
<p style="text-align: justify;">Quelques considérations générales : d&rsquo;abord l&rsquo;acronyme parle d&rsquo;alignement d&rsquo; &laquo;&nbsp;ontologies&nbsp;&raquo;, mais pas de panique, ça marche pour des <strong>thesaurus en SKOS</strong>; surtout pour des thesaurus en SKOS, d&rsquo;ailleurs. Ensuite, c&rsquo;est <strong>open-source</strong>; ça s&rsquo;installe facilement sur n&rsquo;importe quel poste équipé de Java, c&rsquo;est une <strong>application &laquo;&nbsp;de bureau&nbsp;&raquo;</strong>, qui ne nécessite pas d&rsquo;infrastructure client-serveur, etc. l&rsquo;interface est en <strong>français</strong> (et anglais) puisque le développement à été fait par <a href="https://github.com/lmazuel">Laurent Mazuel</a> à l&rsquo;époque où il travaillait avec <a href="http://www.limics.fr/fr/annuaire/fiche-membre/voir/18-CHARLET-Jean">Jean Charlet</a> au <a href="http://www.limics.fr/fr/">LIMICS</a> (INSERM). L&rsquo;outil est maintenu, notamment par votre serviteur.</p>
<p style="text-align: justify;">Vous pouvez consulter la <a href="https://github.com/lmazuel/onagui/wiki">documentation d&rsquo;OnAGUI</a> où vous trouverez des informations plus détaillées sur le logiciel.</p>
<h2 style="text-align: justify;">Alignement avec RAMEAU</h2>
<p style="text-align: justify;">Maintenant, le cas d&rsquo;usage : il m&rsquo;ait arrivé de rencontrer des personnes qui avaient besoin d&rsquo;<strong>aligner un vocabulaire vers le <a href="http://rameau.bnf.fr/">langage d&rsquo;indexation RAMEAU de la BNF</a></strong>. Comment faire ?</p>
<ol>
<li style="text-align: justify;">Je ne détaille pas ici la structure de RAMEAU et son mécanisme de &laquo;&nbsp;vedettes-matières pré-coordonnées&nbsp;&raquo; que je ne connais pas bien d&rsquo;ailleurs, mais je pars (naïvement) de ce qui existe : le fichier des Thèmes Rameau que l&rsquo;on télécharge depuis le site des <a href="http://api.bnf.fr/dumps-de-databnffr">dumps de données de la BNF</a>. Il s&rsquo;agit du fichier intitulé &laquo;&nbsp;<a href="ftp://databnf:databnf@pef.bnf.fr/DATA/databnf_rameau_xml.tar.gz">[RDF/XML] Thèmes RAMEAU</a>&laquo;&nbsp;.</li>
<li style="text-align: justify;">A ce stade il faut l&rsquo;avouer : <em>la BNF a encore des efforts à faire sur diffusion des données de RAMEAU</em>; les données telles qu&rsquo;on les télécharge sont inutilisables telles qu&rsquo;elles, et nécessitent : 1/ un nettoyage et 2/ une fusion en un seul fichier; je ne m&rsquo;étends pas sur cette étape que j&rsquo;ai réalisé à l&rsquo;aide de scripts <a href="http://rdf4j.org">RDF4J</a> dont je me sers régulièrement, mais on se ramène au final à un seul fichier RDF contenant tout RAMEAU en SKOS; si vous voulez tester OnAGUI sur un autre vocabulaire ne nécessitant pas cette étape de &laquo;&nbsp;magie noire&nbsp;&raquo;, essayez avec <a href="http://vocabularies.unesco.org/browser/en/about">le thesaurus de l&rsquo;UNESCO</a> ou <a href="http://data.europa.eu/euodp/fr/data/dataset/eurovoc">Eurovoc</a>;</li>
<li style="text-align: justify;">Il faut ensuite avoir son propre thesaurus en SKOS; on peut utiliser pour cela l&rsquo;<a href="http://labs.sparna.fr/skos-play/convert">outil de conversion Excel vers SKOS disponible dans SKOS Play</a>;</li>
<li style="text-align: justify;">Il faut <a href="https://github.com/lmazuel/onagui/releases">télécharger OnAGUI</a> en prenant soin de prendre une version postérieure à 0.3.2, version pour laquelle des améliorations ont été apportées pour fonctionner avec RAMEAU;</li>
<li>Muni donc de votre vocabulaire en SKOS d&rsquo;un côté, de RAMEAU (nettoyé) de l&rsquo;autre, et d&rsquo;OnAGUI entre les deux, vous pouvez ensuite :
<ol>
<li style="text-align: justify;">Charger votre thesaurus dans OnaGUI (Menu &laquo;&nbsp;Fichier &gt; Charger vocabulaire 1 &gt; Charger en SKOS&nbsp;&raquo;);</li>
<li style="text-align: justify;">Charger RAMEAU dans OnaGUI (Menu &laquo;&nbsp;Fichier &gt; Charger vocabulaire 2 &gt; Charger en SKOS&nbsp;&raquo;), qui va vaillamment charger 160000+ concepts;</li>
<li style="text-align: justify;">Lancer un alignement linguistique (Menu &laquo;&nbsp;Alignement &gt; I-Sub distance&nbsp;&raquo;) en prenant soin de :
<ol>
<li>sélectionner la langue &laquo;&nbsp;fr&nbsp;&raquo; dans les 2 thesaurus;</li>
<li>abaisser légèrement le seuil de tolérance de l&rsquo;algorithme, en le mettant à 0.85 par exemple; ne le mettez pas trop bas sinon vous aurez trop de correspondances qui ne veulent rien dire, ni trop haut sinon vous allez rater des choses;</li>
</ol>
</li>
<li style="text-align: justify;">Aller prendre un petit café, ou deux, ou trois&#8230; en fonction de la taille du vocabulaire que vous avez besoin d&rsquo;aligner; patientez entre quelques secondes et une nuit entière;</li>
<li style="text-align: justify;">Analyser le tableau de résultat fourni et soit :
<ol>
<li>supprimer des lignes de correspondances fausses; regardez le score de chaque correspondance : plus le score tend vers 1, meilleure est la correspondance linguisitique, plus le score diminue, plus les libellés sont éloignés;</li>
<li>ajouter des nouvelles correspondances qui auraient été ratées;</li>
</ol>
</li>
<li style="text-align: justify;">Puis exporter l&rsquo;alignement (Menu &laquo;&nbsp;Fichier &gt; Exporter l&rsquo;alignemenr&nbsp;&raquo;) soit dans un format RDF <a href="http://alignapi.gforge.inria.fr/edoal.html">EDOAL</a>, le plus expressif, soit avec les <a href="https://www.w3.org/TR/2009/REC-skos-reference-20090818/#mapping">propriétés d&rsquo;alignement SKOS</a>, soit en CSV pour une analyse dans un tableur;</li>
</ol>
</li>
</ol>
<div id="attachment_1216" style="width: 537px" class="wp-caption aligncenter"><a href="http://blog.sparna.fr/wp-content/uploads/2018/07/onagui-rameau.png"><img class="wp-image-1216 size-full" src="http://blog.sparna.fr/wp-content/uploads/2018/07/onagui-rameau.png" alt="Vocabulaire Rameau dans OnaGUI" width="527" height="903" /></a><p class="wp-caption-text">Vocabulaire Rameau chargé dans OnaGUI</p></div>
<p>&nbsp;</p>
<p style="text-align: justify;">OnAGUI est un outil perfectible sur bien des aspects mais qui permet de valider &laquo;&nbsp;pour de vrai&nbsp;&raquo; des alignements sur des vrais projets, sans besoin d&rsquo;infrastructure compliquée ou d&rsquo;outil commercial. J&rsquo;ai pu le mettre en œuvre à 2 reprises : pour l&rsquo;alignement du <a href="https://vocabulaires.irstea.fr/">thesaurus de l&rsquo;IRSTEA</a> vers le <a href="http://www.eionet.europa.eu/gemet/en/themes/">GEMET</a> et <a href="http://aims.fao.org/vest-registry/vocabularies/agrovoc">Agrovoc</a>, et plus récemment pour un essai d&rsquo;alignement du <a href="http://data.legilux.public.lu/vocabulaires/legal-subject-theme/fr/">vocabulaire thématique d&rsquo;indexation de la loi Luxembourgeoise</a> avec le <a href="http://eurovoc.europa.eu/">thesaurus Eurovoc</a> utilisé au niveau européen, sur la base de l&rsquo;analyse des <a href="https://fr.wikipedia.org/wiki/Transposition_(droit)">transpositions des directives européennes</a> dans la loi nationale. Il peut également prendre en charger des cas d&rsquo;usage d&rsquo;<em>alignement partiel</em>, en alignant seulement les concepts créés ou modifiés après une certaine date, de façon à ne pas à avoir à refaire l&rsquo;intégralité de l&rsquo;alignement à chaque nouvelle version du thesaurus.</p>
<p style="text-align: justify;">Si vous avez des questions, des cas d&rsquo;usage ou des retours d&rsquo;expérience sur OnAGUI, n&rsquo;hésitez pas à <a href="https://github.com/lmazuel/onagui/issues">soumettre des tickets dans le site du projet</a>.</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2018/07/17/aligner-thesaurus-rameau-onagui/">Aligner son thesaurus avec RAMEAU en utilisant OnAGUI</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></content:encoded>
			<wfw:commentRss>https://blog.sparna.fr/2018/07/17/aligner-thesaurus-rameau-onagui/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>SPARQL sur les données de data.bnf.fr : un exercice guidé dans les Fables</title>
		<link>https://blog.sparna.fr/2018/03/07/data-bnf-fr-sparql-exercice/</link>
		<comments>https://blog.sparna.fr/2018/03/07/data-bnf-fr-sparql-exercice/#comments</comments>
		<pubDate>Wed, 07 Mar 2018 14:27:41 +0000</pubDate>
		<dc:creator><![CDATA[Thomas Francart]]></dc:creator>
				<category><![CDATA[Linked Data]]></category>
		<category><![CDATA[SKOS]]></category>
		<category><![CDATA[SPARQL]]></category>
		<category><![CDATA[data.bnf.fr]]></category>
		<category><![CDATA[FRBR]]></category>
		<category><![CDATA[Rameau]]></category>

		<guid isPermaLink="false">http://blog.sparna.fr/?p=1182</guid>
		<description><![CDATA[<p>Appréhender les données de data.bnf.fr n&#8217;est pas forcément facile. Je vais expérimenter ce nouveau TP pour expliquer comment partir à la découverte des données de la BNF en utilisant SPARQL. L&#8217;énoncé permet de comprendre : Comment trouver un auteur par son nom Comment trouver une oeuvre par son nom Comment chercher un mot-clé dans Rameau&#8230;</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2018/03/07/data-bnf-fr-sparql-exercice/">SPARQL sur les données de data.bnf.fr : un exercice guidé dans les Fables</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></description>
				<content:encoded><![CDATA[<p>Appréhender les données de data.bnf.fr n&rsquo;est pas forcément facile. Je vais expérimenter ce nouveau TP pour expliquer comment partir à la découverte des données de la BNF en utilisant SPARQL. L&rsquo;énoncé permet de comprendre :</p>
<ul>
<li>Comment trouver un auteur par son nom</li>
<li>Comment trouver une oeuvre par son nom</li>
<li>Comment chercher un mot-clé dans Rameau</li>
<li>Comment faire une recherche combinée sur l&rsquo;auteur de l&rsquo;oeuvre et un mot-clé Rameau</li>
</ul>
<blockquote class="embedly-card"><h4><a href="https://www.slideshare.net/thomasfrancart/dcouvrir-les-donnes-de-databnffr-en-utilisant-sparql/thomasfrancart/dcouvrir-les-donnes-de-databnffr-en-utilisant-sparql">Découvrir les données de data.bnf.fr en utilisant SPARQL</a></h4>
<p>Travaux pratiques pour explorer les oeuvres, les auteurs et les mots-clés de data.bnf.fr en utilisant des requêtes SPARQL.</p>
</blockquote>
<p><script async src="//cdn.embedly.com/widgets/platform.js" charset="UTF-8"></script></p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2018/03/07/data-bnf-fr-sparql-exercice/">SPARQL sur les données de data.bnf.fr : un exercice guidé dans les Fables</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></content:encoded>
			<wfw:commentRss>https://blog.sparna.fr/2018/03/07/data-bnf-fr-sparql-exercice/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>data.bnf.fr pour enrichir un portail de recherche documentaire : le cas de Canopé Académie de Poitiers</title>
		<link>https://blog.sparna.fr/2014/12/12/data-bnf-fr-enrichir-portail-documentaire-crdp-canope-poitou-charentes/</link>
		<comments>https://blog.sparna.fr/2014/12/12/data-bnf-fr-enrichir-portail-documentaire-crdp-canope-poitou-charentes/#comments</comments>
		<pubDate>Fri, 12 Dec 2014 14:17:08 +0000</pubDate>
		<dc:creator><![CDATA[Thomas Francart]]></dc:creator>
				<category><![CDATA[Open Data]]></category>
		<category><![CDATA[RDF]]></category>
		<category><![CDATA[Recherche d'informations]]></category>
		<category><![CDATA[Triplestores]]></category>
		<category><![CDATA[bnf]]></category>
		<category><![CDATA[canopé]]></category>
		<category><![CDATA[crdp]]></category>
		<category><![CDATA[data.bnf.fr]]></category>
		<category><![CDATA[e-sidoc]]></category>
		<category><![CDATA[Jena]]></category>

		<guid isPermaLink="false">http://blog.sparna.fr/?p=824</guid>
		<description><![CDATA[<p>Je teste actuellement avec le Canopé Académie de Poitiers (Anciennement le CRDP Poitou-Charentes &#8211; Centre Régional de Documentation Pédagogique) l&#8217;utilisation des données mises à disposition par la BNF dans le portail data.bnf.fr pour enrichir des portails documentaires. Je donne ici un premier retour d&#8217;expérience sur ce travail, avec leur accord. Pourquoi réutiliser ces données ?&#8230;</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2014/12/12/data-bnf-fr-enrichir-portail-documentaire-crdp-canope-poitou-charentes/">data.bnf.fr pour enrichir un portail de recherche documentaire : le cas de Canopé Académie de Poitiers</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></description>
				<content:encoded><![CDATA[<p style="text-align: justify;">Je teste actuellement avec le <a href="http://web.crdp-poitiers.org/crdp/" target="_blank">Canopé Académie de Poitiers</a> (Anciennement le CRDP Poitou-Charentes &#8211; Centre Régional de Documentation Pédagogique) l&rsquo;utilisation des données mises à disposition par la <a href="http://www.bnf.fr" target="_blank">BNF</a> dans le portail <a href="http://data.bnf.fr" target="_blank">data.bnf.fr</a> pour enrichir des portails documentaires. Je donne ici un premier retour d&rsquo;expérience sur ce travail, avec leur accord. Pourquoi réutiliser ces données ? comment ? quels sont les premiers résultats obtenus ?</p>
<p><span id="more-824"></span></p>
<h2 class="symple-heading symple-heading- text-align-left "style="color: undefined;margin-bottom: 30px;margin-top: 30px;"><span>Contexte</span></h2>
<p style="text-align: justify;">Le réseau Canopé a pour <a href="http://www.reseau-canope.fr/qui-sommes-nous.html" target="_blank">objectif</a> de &laquo;&nbsp;renforcer l’action de la communauté éducative en faveur de la réussite des élèves&nbsp;&raquo;, en particulier en fournissant des ressources documentaires et pédagogiques pour les enseignants, mais aussi en proposant des espaces de formation et d&rsquo;animation. Canopé Poitiers a ceci de particulier que, tout en étant une émanation régionale du réseau Canopé, il a une activité d&rsquo;éditeur logiciel d&rsquo;envergure nationale en proposant et en hébergeant les portails de recherche documentaire des CDI de plus de <strong>7000 collèges et lycées</strong>, dans sa solution <a href="http://www.crdp2-poitiers.org/soldoc/v3/secondaire_esidoc.php?actif=C&amp;menu2=A" target="_blank">e-sidoc</a> (7013 portails exactement au moment de la rédaction de cet article, vous pouvez regarder la <a href="http://www.crdp2-poitiers.org/soldoc/e-sidoc/questionreponse/cartedyn.htm" target="_blank">carte des déploiements d&rsquo;e-sidoc</a> pour voir si le collège ou le lycée du coin est équipé avec cette solution. Voici <a href="http://0370038r.esidoc.fr/" target="_blank">le portail d&rsquo;un lycée à Tours</a> pour vous faire une idée).</p>
<h2 class="symple-heading symple-heading- text-align-left "style="color: undefined;margin-bottom: 30px;margin-top: 30px;"><span>Objectifs</span></h2>
<p style="text-align: justify;">L&rsquo;objectif de Canopé Poitiers est d&rsquo;évaluer la faisabilité et l&rsquo;intérêt d&rsquo;enrichir les portails e-sidoc avec les données de <a href="http://data.bnf.fr" target="_blank">data.bnf.fr.</a> Les possibilités d&rsquo;enrichissement sont ouvertes mais peuvent schématiquement se subdiviser en trois :</p>
<ol style="text-align: justify;">
<li>L&rsquo;<span style="text-decoration: underline;"><strong>amélioration de la recherche</strong></span> et des modes d&rsquo;accès aux catalogues ; cette partie recouvre elle-même deux parties :
<ol>
<li>l&rsquo;amélioration des fonctions de recherche (nouvelles facettes ou de nouveaux critères de recherche) ;</li>
<li>l&rsquo;amélioration de la présentation des résultats de recherche;</li>
</ol>
</li>
<li>L&rsquo;<span style="text-decoration: underline;"><strong>ajout de nouvelles notices</strong></span>, tirées de <a href="http://data.bnf.fr" target="_blank">data.bnf.fr</a>, au catalogue &laquo;&nbsp;local&nbsp;&raquo; du CDI; c&rsquo;est ce qui est déjà fait par Canopé Poitiers qui propose au CDI des &laquo;&nbsp;<a href="http://www.crdp2-poitiers.org/soldoc/v3/secondaire_soldoc.php?actif=D&amp;menu2=A" target="_blank">réservoirs de notices</a>&laquo;&nbsp;, comme le dépouillement des titres de la presse, ou une sélection de sites internet pour les collèges et les lycées. Cela pourrait avoir du sens pour inclure dans ces portail des œuvres numériques de <a href="http://gallica.bnf.fr/" target="_blank">Gallica</a>, ou des <a href="http://expositions.bnf.fr/" target="_blank">liens vers les expositions virtuelles de la BNF</a>, etc. Cela permettrait ensuite au collégien/lycéen d&rsquo;accéder à ces ressources via le portail de recherche;</li>
<li>L&rsquo;<span style="text-decoration: underline;"><strong>enrichissement des notices</strong></span> documentaires (comme <a href="http://0370038r.esidoc.fr/search.php?pid=&amp;action=Record&amp;id=0370038r_80656&amp;num=2&amp;total=263" target="_blank">celle-ci</a>) avec des informations tirées des données de data.bnf.fr;</li>
</ol>
<p style="text-align: justify;">Par ailleurs, Canopé Poitiers a de fortes contraintes de production, la réindexation de <strong>7000 bases documentaires</strong> chaque nuit, et l&rsquo;hébergement de tous ces portails pour avoir de bons temps de réponse posant un certain nombre de challenges techniques dont je ne soupçonne pas le quart&#8230;</p>
<p style="text-align: justify;">Pour ces raisons de contraintes de production, nous expérimentons d&rsquo;abord la piste de l&rsquo;<strong>enrichissement des notices documentaires</strong> qui n&rsquo;impacte ni sur la structure des index de recherche (ou de façon mineure), ni sur leur taille.</p>
<h2 class="symple-heading symple-heading- text-align-left "style="color: undefined;margin-bottom: 30px;margin-top: 30px;"><span>Quels enrichissements et comment ?</span></h2>
<p style="text-align: justify;"><img class="alignright wp-image-846 size-full" src="http://blog.sparna.fr/wp-content/uploads/2014/12/4d5655df171e8e2a5c9880416faeb0ce.png" alt="4d5655df171e8e2a5c9880416faeb0ce" width="198" height="68" /> Le premier enrichissement envisagé est l&rsquo;<strong>ajout d&rsquo;un lien vers une version numérisée dans Gallica de l’œuvre présentée dans la notice</strong>. (voir par exemple <a href="http://gallica.bnf.fr/ark:/12148/bpt6k1045580k" target="_blank">Alice au pays des merveilles dans Gallica</a>) La récupération de ces liens est possible car :</p>
<ol style="text-align: justify;">
<li>Les notices du portail documentaire portent (pour la plupart) un <strong>ISBN</strong> ou un EAN;</li>
<li>Les éditions d&rsquo;ouvrages publiées dans data.bnf.fr portent également (pour la plupart) un ISBN ou un EAN, ce qui permet de faire un rapprochement avec nos notices;</li>
<li>Les éditions d&rsquo;ouvrage de data.bnf.fr sont regroupées ensemble sous des entrées correspondant à l&rsquo;œuvre abstraite par une organisation <strong><a href="http://www.bnf.fr/fr/professionnels/modelisation_ontologies/a.modele_FRBR.html" target="_blank">FRBR</a></strong>, ce qui permet, même s&rsquo;il n&rsquo;existe pas de version numérisée pour l&rsquo;ISBN exact de départ (ce qui est toujours le cas, car les versions numériques dans Gallica sont celles d&rsquo;éditions anciennes), de voir si une <strong>autre édition de la même oeuvre</strong> a son équivalent numérisée;</li>
</ol>
<p style="text-align: justify;">Pour ce qui nous intéresse ici, <span style="text-decoration: underline;"><strong>la structuration FRBR des oeuvres est donc la principale valeur ajoutée des données data.bnf.fr</strong></span>, par rapport aux <a href="http://www.bnf.fr/fr/professionnels/protocoles_echange_donnees/a.proto_oai.html" target="_blank">flux OAI</a> ou <a href="http://www.bnf.fr/fr/professionnels/protocoles_echange_donnees/a.proto_z3950.html" target="_blank">Z3950</a> de la BNF, qui ne structurent pas les données de cette façon.</p>
<p style="text-align: justify;">Donc, en résumé :</p>
<ul>
<li style="text-align: justify;">on cherche l&rsquo;édition de l&rsquo;oeuvre dans data.bnf.fr via l&rsquo;ISBN ou l&rsquo;EAN;</li>
<li style="text-align: justify;">et si on l&rsquo;a trouvée, on cherche une autre édition de la même oeuvre ayant une version numérique (on prend l&rsquo;édition la plus récente);</li>
</ul>
<h2 class="symple-heading symple-heading- text-align-left "style="color: undefined;margin-bottom: 30px;margin-top: 30px;"><span>Retour d'expérience technique</span></h2>
<p style="text-align: justify;">Pour faire ce travail de récupération des liens :</p>
<ul style="text-align: justify;">
<li>On télécharge les <a href="http://data.bnf.fr/semanticweb#Ancre2" target="_blank">données de dump de data.bnf.fr</a>;</li>
<li>On les stocke dans un triplestore <a href="http://jena.apache.org/documentation/serving_data/" target="_blank">Jena Fuseki</a> avec un stockage <a href="http://jena.apache.org/documentation/tdb/" target="_blank">TDB</a>;</li>
<li>On fait un prétraitement sur les ISBNs (voir ci-dessous), et on fait nos requêtes de rapprochement en <a href="http://fr.wikipedia.org/wiki/SPARQL" target="_blank">SPARQL</a>;</li>
</ul>
<p style="text-align: justify;">On s&rsquo;aperçoit que :</p>
<ul>
<li style="text-align: justify;"><span style="text-decoration: underline;"><strong>Les données ont quelques petits soucis de format</strong></span>. (ne dérogeant donc pas à la règle d&rsquo;or du traitement des données sur le web : &laquo;&nbsp;<a href="http://fr.slideshare.net/thomasfrancart/partager-et-rutiliser-des-donnes-sur-le-web" target="_blank">les données sont pourries</a>&nbsp;&raquo; <img src="https://s.w.org/images/core/emoji/72x72/1f609.png" alt="😉" class="wp-smiley" style="height: 1em; max-height: 1em;" /> ) en effet quelques fichiers RDF des dumps de la BNF (ceux des manifestations, le 11971, le 11975 et quelques autres) contiennent des erreurs de syntaxe qui empêchent de les charger dans une base RDF. Avant de lancer un chargement, il est préférable de vérifier les fichiers avec le <a href="https://jena.apache.org/documentation/tdb/commands.html" target="_blank">script Jena ntriples</a> et son option &laquo;&nbsp;validate&nbsp;&raquo; :
<ul>
<li>ntriples &#8211;validate /chemin/databnf_editions_nt/databnf_editions__manif_* &gt; /chemin/temp.txt</li>
<li>le plus simple a été de supprimer tout simplement ces fichiers pour ne pas faire échouer le chargement, mais si vous voulez avoir 100% des données il faudra les corriger, ce qui n&rsquo;est pas tout à fait trivial;</li>
</ul>
</li>
<li style="text-align: justify;"><span style="text-decoration: underline;"><strong>Le chargement des données est plutôt rapide</strong></span>.  105 millions de triplets, sur un portable classique, en 1h40. Pour ce chargement, j&rsquo;ai utilisé le <a href="https://jena.apache.org/documentation/tdb/commands.html#tdbloader2" target="_blank">script tdbloader2 de Jena</a>;</li>
<li style="text-align: justify;"><span style="text-decoration: underline;"><strong>Le format des ISBN est variable</strong></span> (aussi bien dans les données BNF que dans les notices de départ). Parfois en format ISBN-10, parfois en format ISBN-13, parfois avec tirets, parfois sans (978-2-7116-2455-3, 1-4051-3618-9, 3832202560, etc.) Je me suis donc ramené à une version sans tirets pour tous les ISBN pour limiter le problème, mais il reste la différence entre les ISBN-10 et les ISBN-13 qui n&rsquo;a pas été traitée;</li>
</ul>
<h2 class="symple-heading symple-heading- text-align-left "style="color: undefined;margin-bottom: 30px;margin-top: 30px;"><span>Quels résultats ?</span></h2>
<p style="text-align: justify;">Nous avons voulu valider la <em>couverture des données</em> de data.bnf.fr en terme de liens vers les versions numériques des œuvres : est-ce que le jeu en vaut la chandelle ? pourra-t-on sortir suffisamment de liens vers des œuvres numériques pour justifier le travail ? Pour cela, on a d&rsquo;abord testé sur 4 auteurs classiques : Jules Verne, Victor Hugo, Emile Zola, Molière, en extrayant des notices la liste des ISBN/EAN des éditions de leurs œuvres.</p>
<p style="text-align: justify;">Voici ce qu&rsquo;on obtient en terme de couverture du rapprochement des données pour ces ISBNs :</p>
<table width="638" cellspacing="0" cellpadding="7">
<colgroup>
<col width="351" />
<col width="109" />
<col width="134" /> </colgroup>
<tbody>
<tr valign="top">
<td bgcolor="#d6e3bc" width="351">
<p align="center"><span lang="fr-FR"><b>Valeur</b></span></p>
</td>
<td bgcolor="#d6e3bc" width="109">
<p align="center"><span lang="fr-FR"><b>Chiffre</b></span></p>
</td>
<td bgcolor="#d6e3bc" width="134">
<p align="center"><span lang="fr-FR"><b>Pourcentage</b></span></p>
</td>
</tr>
<tr valign="top">
<td width="351"><span lang="fr-FR">Nombre total d’ISBN distincts</span></td>
<td width="109"><span lang="fr-FR">1623</span></td>
<td width="134"><span lang="fr-FR">100%</span></td>
</tr>
<tr valign="top">
<td width="351"><span lang="fr-FR">Nombre d’ISBN trouvés dans data.bnf.fr</span></td>
<td width="109"><span lang="fr-FR">823</span></td>
<td width="134"><span lang="fr-FR">50%</span></td>
</tr>
<tr valign="top">
<td width="351"><span lang="fr-FR">Nombre d’ISBN pour lesquels on trouve une version électronique dans Gallica de la même œuvre (mais pas de la même édition)</span></td>
<td width="109"><span lang="fr-FR">429</span></td>
<td width="134"><strong><span lang="fr-FR">26%</span></strong></td>
</tr>
</tbody>
</table>
<p style="text-align: justify;"><strong>On trouve une version électronique de l&rsquo;oeuvre pour un ISBN sur quatre</strong>. Mais certaines œuvres ont plus d&rsquo;exemplaires (d&rsquo;items au sens FRBR) que d&rsquo;autres (on trouvera plus d&rsquo;exemplaires de &laquo;&nbsp;Au bonheur des dames&nbsp;&raquo; que de &laquo;&nbsp;Comment on meurt&nbsp;&raquo; de Zola), c&rsquo;est pourquoi il était aussi intéressant de donner la couverture en nombres d&rsquo;exemplaires :</p>
<table width="638" cellspacing="0" cellpadding="7">
<colgroup>
<col width="351" />
<col width="109" />
<col width="134" /> </colgroup>
<tbody>
<tr valign="top">
<td bgcolor="#d6e3bc" width="351">
<p align="center"><span lang="fr-FR"><b>Valeur</b></span></p>
</td>
<td bgcolor="#d6e3bc" width="109">
<p align="center"><span lang="fr-FR"><b>Chiffre</b></span></p>
</td>
<td bgcolor="#d6e3bc" width="134">
<p align="center"><span lang="fr-FR"><b>Pourcentage</b></span></p>
</td>
</tr>
<tr valign="top">
<td width="351"><span lang="fr-FR">Nombre total d’items (au sens FRBR) ayant une valeur d’ISBN</span></td>
<td width="109"><span lang="fr-FR">36606</span></td>
<td width="134"><span lang="fr-FR">100%</span></td>
</tr>
<tr valign="top">
<td width="351"><span lang="fr-FR">Nombre d’items (au sens FRBR) pour lesquels l’ISBN est trouvé dans data.bnf.fr</span></td>
<td width="109"><span lang="fr-FR">26366</span></td>
<td width="134"><span lang="fr-FR">72%</span></td>
</tr>
<tr valign="top">
<td width="351"><span lang="fr-FR">Nombre d’items (au sens FRBR) pour lesquels on trouve une version électronique dans Gallica de la même œuvre (mais pas de la même édition)</span></td>
<td width="109"><span lang="fr-FR">19446</span></td>
<td width="134"><strong><span lang="fr-FR">53%</span></strong></td>
</tr>
</tbody>
</table>
<p style="text-align: justify;">Pour exprimer autrement le dernier chiffre de 53% : <strong> il y a une chance sur deux de trouver une version numérique dans Gallica de l&rsquo;oeuvre d&rsquo;un livre d&rsquo;un de ces 4 auteurs pris au hasard dans les rayonnages d&rsquo;un CDI.</strong></p>
<p style="text-align: justify;"><span style="text-decoration: underline;"><strong>Globalement cela encourage à continuer la démarche</strong></span> et montre que ce travail sera visible dans les portails e-sidoc. La récupération des versions numériques des oeuvres est un premier prétexte à ce travail de rapprochement qui permettrait ensuite de récupérer de nombreuses autres données.</p>
<hr />
<p style="text-align: justify;"><span style="text-decoration: underline;"><strong>Update du 16/12/2014</strong></span> : les dernières versions des données de data.bnf qui seront mises en ligne fin 2014 devraient 1/ corriger le petit souci de format mentionné plus haut (si ce n&rsquo;est déjà fait) et 2/ contenir plus de données (entre 1 et 2 millions d&rsquo;éditions supplémentaires, et 400 000 auteurs supplémentaires), ce qui devrait améliorer le ratio de rapprochement des notices sur les ISBNs.  Cela amènera data.bnf.fr à être de plus en plus incontournable par sa couverture (l&rsquo;intégralité des éditions de la BNF devraient être publiées d&rsquo;ici fin 2015).</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2014/12/12/data-bnf-fr-enrichir-portail-documentaire-crdp-canope-poitou-charentes/">data.bnf.fr pour enrichir un portail de recherche documentaire : le cas de Canopé Académie de Poitiers</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></content:encoded>
			<wfw:commentRss>https://blog.sparna.fr/2014/12/12/data-bnf-fr-enrichir-portail-documentaire-crdp-canope-poitou-charentes/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>
