<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Sparna Blog &#187; e-sidoc</title>
	<atom:link href="https://blog.sparna.fr/tag/e-sidoc/feed/" rel="self" type="application/rss+xml" />
	<link>https://blog.sparna.fr</link>
	<description>Web de données &#124; Architecture de l&#039;information &#124; Accès aux connaissances</description>
	<lastBuildDate>Tue, 03 Jun 2025 10:30:27 +0000</lastBuildDate>
	<language>fr-FR</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	
	<item>
		<title>data.bnf.fr pour enrichir un portail de recherche documentaire : le cas de Canopé Académie de Poitiers</title>
		<link>https://blog.sparna.fr/2014/12/12/data-bnf-fr-enrichir-portail-documentaire-crdp-canope-poitou-charentes/</link>
		<comments>https://blog.sparna.fr/2014/12/12/data-bnf-fr-enrichir-portail-documentaire-crdp-canope-poitou-charentes/#comments</comments>
		<pubDate>Fri, 12 Dec 2014 14:17:08 +0000</pubDate>
		<dc:creator><![CDATA[Thomas Francart]]></dc:creator>
				<category><![CDATA[Open Data]]></category>
		<category><![CDATA[RDF]]></category>
		<category><![CDATA[Recherche d'informations]]></category>
		<category><![CDATA[Triplestores]]></category>
		<category><![CDATA[bnf]]></category>
		<category><![CDATA[canopé]]></category>
		<category><![CDATA[crdp]]></category>
		<category><![CDATA[data.bnf.fr]]></category>
		<category><![CDATA[e-sidoc]]></category>
		<category><![CDATA[Jena]]></category>

		<guid isPermaLink="false">http://blog.sparna.fr/?p=824</guid>
		<description><![CDATA[<p>Je teste actuellement avec le Canopé Académie de Poitiers (Anciennement le CRDP Poitou-Charentes &#8211; Centre Régional de Documentation Pédagogique) l&#8217;utilisation des données mises à disposition par la BNF dans le portail data.bnf.fr pour enrichir des portails documentaires. Je donne ici un premier retour d&#8217;expérience sur ce travail, avec leur accord. Pourquoi réutiliser ces données ?&#8230;</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2014/12/12/data-bnf-fr-enrichir-portail-documentaire-crdp-canope-poitou-charentes/">data.bnf.fr pour enrichir un portail de recherche documentaire : le cas de Canopé Académie de Poitiers</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></description>
				<content:encoded><![CDATA[<p style="text-align: justify;">Je teste actuellement avec le <a href="http://web.crdp-poitiers.org/crdp/" target="_blank">Canopé Académie de Poitiers</a> (Anciennement le CRDP Poitou-Charentes &#8211; Centre Régional de Documentation Pédagogique) l&rsquo;utilisation des données mises à disposition par la <a href="http://www.bnf.fr" target="_blank">BNF</a> dans le portail <a href="http://data.bnf.fr" target="_blank">data.bnf.fr</a> pour enrichir des portails documentaires. Je donne ici un premier retour d&rsquo;expérience sur ce travail, avec leur accord. Pourquoi réutiliser ces données ? comment ? quels sont les premiers résultats obtenus ?</p>
<p><span id="more-824"></span></p>
<h2 class="symple-heading symple-heading- text-align-left "style="color: undefined;margin-bottom: 30px;margin-top: 30px;"><span>Contexte</span></h2>
<p style="text-align: justify;">Le réseau Canopé a pour <a href="http://www.reseau-canope.fr/qui-sommes-nous.html" target="_blank">objectif</a> de &laquo;&nbsp;renforcer l’action de la communauté éducative en faveur de la réussite des élèves&nbsp;&raquo;, en particulier en fournissant des ressources documentaires et pédagogiques pour les enseignants, mais aussi en proposant des espaces de formation et d&rsquo;animation. Canopé Poitiers a ceci de particulier que, tout en étant une émanation régionale du réseau Canopé, il a une activité d&rsquo;éditeur logiciel d&rsquo;envergure nationale en proposant et en hébergeant les portails de recherche documentaire des CDI de plus de <strong>7000 collèges et lycées</strong>, dans sa solution <a href="http://www.crdp2-poitiers.org/soldoc/v3/secondaire_esidoc.php?actif=C&amp;menu2=A" target="_blank">e-sidoc</a> (7013 portails exactement au moment de la rédaction de cet article, vous pouvez regarder la <a href="http://www.crdp2-poitiers.org/soldoc/e-sidoc/questionreponse/cartedyn.htm" target="_blank">carte des déploiements d&rsquo;e-sidoc</a> pour voir si le collège ou le lycée du coin est équipé avec cette solution. Voici <a href="http://0370038r.esidoc.fr/" target="_blank">le portail d&rsquo;un lycée à Tours</a> pour vous faire une idée).</p>
<h2 class="symple-heading symple-heading- text-align-left "style="color: undefined;margin-bottom: 30px;margin-top: 30px;"><span>Objectifs</span></h2>
<p style="text-align: justify;">L&rsquo;objectif de Canopé Poitiers est d&rsquo;évaluer la faisabilité et l&rsquo;intérêt d&rsquo;enrichir les portails e-sidoc avec les données de <a href="http://data.bnf.fr" target="_blank">data.bnf.fr.</a> Les possibilités d&rsquo;enrichissement sont ouvertes mais peuvent schématiquement se subdiviser en trois :</p>
<ol style="text-align: justify;">
<li>L&rsquo;<span style="text-decoration: underline;"><strong>amélioration de la recherche</strong></span> et des modes d&rsquo;accès aux catalogues ; cette partie recouvre elle-même deux parties :
<ol>
<li>l&rsquo;amélioration des fonctions de recherche (nouvelles facettes ou de nouveaux critères de recherche) ;</li>
<li>l&rsquo;amélioration de la présentation des résultats de recherche;</li>
</ol>
</li>
<li>L&rsquo;<span style="text-decoration: underline;"><strong>ajout de nouvelles notices</strong></span>, tirées de <a href="http://data.bnf.fr" target="_blank">data.bnf.fr</a>, au catalogue &laquo;&nbsp;local&nbsp;&raquo; du CDI; c&rsquo;est ce qui est déjà fait par Canopé Poitiers qui propose au CDI des &laquo;&nbsp;<a href="http://www.crdp2-poitiers.org/soldoc/v3/secondaire_soldoc.php?actif=D&amp;menu2=A" target="_blank">réservoirs de notices</a>&laquo;&nbsp;, comme le dépouillement des titres de la presse, ou une sélection de sites internet pour les collèges et les lycées. Cela pourrait avoir du sens pour inclure dans ces portail des œuvres numériques de <a href="http://gallica.bnf.fr/" target="_blank">Gallica</a>, ou des <a href="http://expositions.bnf.fr/" target="_blank">liens vers les expositions virtuelles de la BNF</a>, etc. Cela permettrait ensuite au collégien/lycéen d&rsquo;accéder à ces ressources via le portail de recherche;</li>
<li>L&rsquo;<span style="text-decoration: underline;"><strong>enrichissement des notices</strong></span> documentaires (comme <a href="http://0370038r.esidoc.fr/search.php?pid=&amp;action=Record&amp;id=0370038r_80656&amp;num=2&amp;total=263" target="_blank">celle-ci</a>) avec des informations tirées des données de data.bnf.fr;</li>
</ol>
<p style="text-align: justify;">Par ailleurs, Canopé Poitiers a de fortes contraintes de production, la réindexation de <strong>7000 bases documentaires</strong> chaque nuit, et l&rsquo;hébergement de tous ces portails pour avoir de bons temps de réponse posant un certain nombre de challenges techniques dont je ne soupçonne pas le quart&#8230;</p>
<p style="text-align: justify;">Pour ces raisons de contraintes de production, nous expérimentons d&rsquo;abord la piste de l&rsquo;<strong>enrichissement des notices documentaires</strong> qui n&rsquo;impacte ni sur la structure des index de recherche (ou de façon mineure), ni sur leur taille.</p>
<h2 class="symple-heading symple-heading- text-align-left "style="color: undefined;margin-bottom: 30px;margin-top: 30px;"><span>Quels enrichissements et comment ?</span></h2>
<p style="text-align: justify;"><img class="alignright wp-image-846 size-full" src="http://blog.sparna.fr/wp-content/uploads/2014/12/4d5655df171e8e2a5c9880416faeb0ce.png" alt="4d5655df171e8e2a5c9880416faeb0ce" width="198" height="68" /> Le premier enrichissement envisagé est l&rsquo;<strong>ajout d&rsquo;un lien vers une version numérisée dans Gallica de l’œuvre présentée dans la notice</strong>. (voir par exemple <a href="http://gallica.bnf.fr/ark:/12148/bpt6k1045580k" target="_blank">Alice au pays des merveilles dans Gallica</a>) La récupération de ces liens est possible car :</p>
<ol style="text-align: justify;">
<li>Les notices du portail documentaire portent (pour la plupart) un <strong>ISBN</strong> ou un EAN;</li>
<li>Les éditions d&rsquo;ouvrages publiées dans data.bnf.fr portent également (pour la plupart) un ISBN ou un EAN, ce qui permet de faire un rapprochement avec nos notices;</li>
<li>Les éditions d&rsquo;ouvrage de data.bnf.fr sont regroupées ensemble sous des entrées correspondant à l&rsquo;œuvre abstraite par une organisation <strong><a href="http://www.bnf.fr/fr/professionnels/modelisation_ontologies/a.modele_FRBR.html" target="_blank">FRBR</a></strong>, ce qui permet, même s&rsquo;il n&rsquo;existe pas de version numérisée pour l&rsquo;ISBN exact de départ (ce qui est toujours le cas, car les versions numériques dans Gallica sont celles d&rsquo;éditions anciennes), de voir si une <strong>autre édition de la même oeuvre</strong> a son équivalent numérisée;</li>
</ol>
<p style="text-align: justify;">Pour ce qui nous intéresse ici, <span style="text-decoration: underline;"><strong>la structuration FRBR des oeuvres est donc la principale valeur ajoutée des données data.bnf.fr</strong></span>, par rapport aux <a href="http://www.bnf.fr/fr/professionnels/protocoles_echange_donnees/a.proto_oai.html" target="_blank">flux OAI</a> ou <a href="http://www.bnf.fr/fr/professionnels/protocoles_echange_donnees/a.proto_z3950.html" target="_blank">Z3950</a> de la BNF, qui ne structurent pas les données de cette façon.</p>
<p style="text-align: justify;">Donc, en résumé :</p>
<ul>
<li style="text-align: justify;">on cherche l&rsquo;édition de l&rsquo;oeuvre dans data.bnf.fr via l&rsquo;ISBN ou l&rsquo;EAN;</li>
<li style="text-align: justify;">et si on l&rsquo;a trouvée, on cherche une autre édition de la même oeuvre ayant une version numérique (on prend l&rsquo;édition la plus récente);</li>
</ul>
<h2 class="symple-heading symple-heading- text-align-left "style="color: undefined;margin-bottom: 30px;margin-top: 30px;"><span>Retour d'expérience technique</span></h2>
<p style="text-align: justify;">Pour faire ce travail de récupération des liens :</p>
<ul style="text-align: justify;">
<li>On télécharge les <a href="http://data.bnf.fr/semanticweb#Ancre2" target="_blank">données de dump de data.bnf.fr</a>;</li>
<li>On les stocke dans un triplestore <a href="http://jena.apache.org/documentation/serving_data/" target="_blank">Jena Fuseki</a> avec un stockage <a href="http://jena.apache.org/documentation/tdb/" target="_blank">TDB</a>;</li>
<li>On fait un prétraitement sur les ISBNs (voir ci-dessous), et on fait nos requêtes de rapprochement en <a href="http://fr.wikipedia.org/wiki/SPARQL" target="_blank">SPARQL</a>;</li>
</ul>
<p style="text-align: justify;">On s&rsquo;aperçoit que :</p>
<ul>
<li style="text-align: justify;"><span style="text-decoration: underline;"><strong>Les données ont quelques petits soucis de format</strong></span>. (ne dérogeant donc pas à la règle d&rsquo;or du traitement des données sur le web : &laquo;&nbsp;<a href="http://fr.slideshare.net/thomasfrancart/partager-et-rutiliser-des-donnes-sur-le-web" target="_blank">les données sont pourries</a>&nbsp;&raquo; <img src="https://s.w.org/images/core/emoji/72x72/1f609.png" alt="😉" class="wp-smiley" style="height: 1em; max-height: 1em;" /> ) en effet quelques fichiers RDF des dumps de la BNF (ceux des manifestations, le 11971, le 11975 et quelques autres) contiennent des erreurs de syntaxe qui empêchent de les charger dans une base RDF. Avant de lancer un chargement, il est préférable de vérifier les fichiers avec le <a href="https://jena.apache.org/documentation/tdb/commands.html" target="_blank">script Jena ntriples</a> et son option &laquo;&nbsp;validate&nbsp;&raquo; :
<ul>
<li>ntriples &#8211;validate /chemin/databnf_editions_nt/databnf_editions__manif_* &gt; /chemin/temp.txt</li>
<li>le plus simple a été de supprimer tout simplement ces fichiers pour ne pas faire échouer le chargement, mais si vous voulez avoir 100% des données il faudra les corriger, ce qui n&rsquo;est pas tout à fait trivial;</li>
</ul>
</li>
<li style="text-align: justify;"><span style="text-decoration: underline;"><strong>Le chargement des données est plutôt rapide</strong></span>.  105 millions de triplets, sur un portable classique, en 1h40. Pour ce chargement, j&rsquo;ai utilisé le <a href="https://jena.apache.org/documentation/tdb/commands.html#tdbloader2" target="_blank">script tdbloader2 de Jena</a>;</li>
<li style="text-align: justify;"><span style="text-decoration: underline;"><strong>Le format des ISBN est variable</strong></span> (aussi bien dans les données BNF que dans les notices de départ). Parfois en format ISBN-10, parfois en format ISBN-13, parfois avec tirets, parfois sans (978-2-7116-2455-3, 1-4051-3618-9, 3832202560, etc.) Je me suis donc ramené à une version sans tirets pour tous les ISBN pour limiter le problème, mais il reste la différence entre les ISBN-10 et les ISBN-13 qui n&rsquo;a pas été traitée;</li>
</ul>
<h2 class="symple-heading symple-heading- text-align-left "style="color: undefined;margin-bottom: 30px;margin-top: 30px;"><span>Quels résultats ?</span></h2>
<p style="text-align: justify;">Nous avons voulu valider la <em>couverture des données</em> de data.bnf.fr en terme de liens vers les versions numériques des œuvres : est-ce que le jeu en vaut la chandelle ? pourra-t-on sortir suffisamment de liens vers des œuvres numériques pour justifier le travail ? Pour cela, on a d&rsquo;abord testé sur 4 auteurs classiques : Jules Verne, Victor Hugo, Emile Zola, Molière, en extrayant des notices la liste des ISBN/EAN des éditions de leurs œuvres.</p>
<p style="text-align: justify;">Voici ce qu&rsquo;on obtient en terme de couverture du rapprochement des données pour ces ISBNs :</p>
<table width="638" cellspacing="0" cellpadding="7">
<colgroup>
<col width="351" />
<col width="109" />
<col width="134" /> </colgroup>
<tbody>
<tr valign="top">
<td bgcolor="#d6e3bc" width="351">
<p align="center"><span lang="fr-FR"><b>Valeur</b></span></p>
</td>
<td bgcolor="#d6e3bc" width="109">
<p align="center"><span lang="fr-FR"><b>Chiffre</b></span></p>
</td>
<td bgcolor="#d6e3bc" width="134">
<p align="center"><span lang="fr-FR"><b>Pourcentage</b></span></p>
</td>
</tr>
<tr valign="top">
<td width="351"><span lang="fr-FR">Nombre total d’ISBN distincts</span></td>
<td width="109"><span lang="fr-FR">1623</span></td>
<td width="134"><span lang="fr-FR">100%</span></td>
</tr>
<tr valign="top">
<td width="351"><span lang="fr-FR">Nombre d’ISBN trouvés dans data.bnf.fr</span></td>
<td width="109"><span lang="fr-FR">823</span></td>
<td width="134"><span lang="fr-FR">50%</span></td>
</tr>
<tr valign="top">
<td width="351"><span lang="fr-FR">Nombre d’ISBN pour lesquels on trouve une version électronique dans Gallica de la même œuvre (mais pas de la même édition)</span></td>
<td width="109"><span lang="fr-FR">429</span></td>
<td width="134"><strong><span lang="fr-FR">26%</span></strong></td>
</tr>
</tbody>
</table>
<p style="text-align: justify;"><strong>On trouve une version électronique de l&rsquo;oeuvre pour un ISBN sur quatre</strong>. Mais certaines œuvres ont plus d&rsquo;exemplaires (d&rsquo;items au sens FRBR) que d&rsquo;autres (on trouvera plus d&rsquo;exemplaires de &laquo;&nbsp;Au bonheur des dames&nbsp;&raquo; que de &laquo;&nbsp;Comment on meurt&nbsp;&raquo; de Zola), c&rsquo;est pourquoi il était aussi intéressant de donner la couverture en nombres d&rsquo;exemplaires :</p>
<table width="638" cellspacing="0" cellpadding="7">
<colgroup>
<col width="351" />
<col width="109" />
<col width="134" /> </colgroup>
<tbody>
<tr valign="top">
<td bgcolor="#d6e3bc" width="351">
<p align="center"><span lang="fr-FR"><b>Valeur</b></span></p>
</td>
<td bgcolor="#d6e3bc" width="109">
<p align="center"><span lang="fr-FR"><b>Chiffre</b></span></p>
</td>
<td bgcolor="#d6e3bc" width="134">
<p align="center"><span lang="fr-FR"><b>Pourcentage</b></span></p>
</td>
</tr>
<tr valign="top">
<td width="351"><span lang="fr-FR">Nombre total d’items (au sens FRBR) ayant une valeur d’ISBN</span></td>
<td width="109"><span lang="fr-FR">36606</span></td>
<td width="134"><span lang="fr-FR">100%</span></td>
</tr>
<tr valign="top">
<td width="351"><span lang="fr-FR">Nombre d’items (au sens FRBR) pour lesquels l’ISBN est trouvé dans data.bnf.fr</span></td>
<td width="109"><span lang="fr-FR">26366</span></td>
<td width="134"><span lang="fr-FR">72%</span></td>
</tr>
<tr valign="top">
<td width="351"><span lang="fr-FR">Nombre d’items (au sens FRBR) pour lesquels on trouve une version électronique dans Gallica de la même œuvre (mais pas de la même édition)</span></td>
<td width="109"><span lang="fr-FR">19446</span></td>
<td width="134"><strong><span lang="fr-FR">53%</span></strong></td>
</tr>
</tbody>
</table>
<p style="text-align: justify;">Pour exprimer autrement le dernier chiffre de 53% : <strong> il y a une chance sur deux de trouver une version numérique dans Gallica de l&rsquo;oeuvre d&rsquo;un livre d&rsquo;un de ces 4 auteurs pris au hasard dans les rayonnages d&rsquo;un CDI.</strong></p>
<p style="text-align: justify;"><span style="text-decoration: underline;"><strong>Globalement cela encourage à continuer la démarche</strong></span> et montre que ce travail sera visible dans les portails e-sidoc. La récupération des versions numériques des oeuvres est un premier prétexte à ce travail de rapprochement qui permettrait ensuite de récupérer de nombreuses autres données.</p>
<hr />
<p style="text-align: justify;"><span style="text-decoration: underline;"><strong>Update du 16/12/2014</strong></span> : les dernières versions des données de data.bnf qui seront mises en ligne fin 2014 devraient 1/ corriger le petit souci de format mentionné plus haut (si ce n&rsquo;est déjà fait) et 2/ contenir plus de données (entre 1 et 2 millions d&rsquo;éditions supplémentaires, et 400 000 auteurs supplémentaires), ce qui devrait améliorer le ratio de rapprochement des notices sur les ISBNs.  Cela amènera data.bnf.fr à être de plus en plus incontournable par sa couverture (l&rsquo;intégralité des éditions de la BNF devraient être publiées d&rsquo;ici fin 2015).</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2014/12/12/data-bnf-fr-enrichir-portail-documentaire-crdp-canope-poitou-charentes/">data.bnf.fr pour enrichir un portail de recherche documentaire : le cas de Canopé Académie de Poitiers</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></content:encoded>
			<wfw:commentRss>https://blog.sparna.fr/2014/12/12/data-bnf-fr-enrichir-portail-documentaire-crdp-canope-poitou-charentes/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>
