<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Sparna Blog &#187; web de données</title>
	<atom:link href="https://blog.sparna.fr/tag/web-de-donnees/feed/" rel="self" type="application/rss+xml" />
	<link>https://blog.sparna.fr</link>
	<description>Web de données &#124; Architecture de l&#039;information &#124; Accès aux connaissances</description>
	<lastBuildDate>Tue, 03 Jun 2025 10:30:27 +0000</lastBuildDate>
	<language>fr-FR</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	
	<item>
		<title>Référentiel ROME de Pôle Emploi en SKOS (à partir de data.gouv.fr)</title>
		<link>https://blog.sparna.fr/2017/04/18/rome-pole-emploi-skos-rdf-data-gouv-fr/</link>
		<comments>https://blog.sparna.fr/2017/04/18/rome-pole-emploi-skos-rdf-data-gouv-fr/#comments</comments>
		<pubDate>Tue, 18 Apr 2017 08:31:17 +0000</pubDate>
		<dc:creator><![CDATA[Thomas Francart]]></dc:creator>
				<category><![CDATA[Open Data]]></category>
		<category><![CDATA[SKOS]]></category>
		<category><![CDATA[SKOS Play]]></category>
		<category><![CDATA[Thesaurus]]></category>
		<category><![CDATA[Visualisation de données]]></category>
		<category><![CDATA[data.gouv.fr]]></category>
		<category><![CDATA[RDF]]></category>
		<category><![CDATA[rome]]></category>
		<category><![CDATA[skos play]]></category>
		<category><![CDATA[web de données]]></category>
		<category><![CDATA[web de données de l'emploi]]></category>

		<guid isPermaLink="false">http://blog.sparna.fr/?p=1132</guid>
		<description><![CDATA[<p>Etalab, la mission chargée de la politique Open Data de l’administration aujourd’hui intégrée à la DSI de l’Etat, vient d’ouvrir le portail du service public de la donnée (lire l&#8217;article sur silicon.fr) : des jeux de données de référence, &#171;&#160;à fort impact économique et social&#160;&#187;, d&#8217;un niveau de qualité et de fraîcheur garanti. Parmi ceux-ci&#8230;</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2017/04/18/rome-pole-emploi-skos-rdf-data-gouv-fr/">Référentiel ROME de Pôle Emploi en SKOS (à partir de data.gouv.fr)</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></description>
				<content:encoded><![CDATA[<p style="text-align: justify;">Etalab, la mission chargée de la politique Open Data de l’administration aujourd’hui intégrée à la DSI de l’Etat, vient d’ouvrir le <a href="http://www.data.gouv.fr/fr/reference" target="_blank">portail du service public de la donnée</a> (lire l&rsquo;<a href="http://www.silicon.fr/open-data-service-public-donnee-ouvre-171799.html" target="_blank">article sur silicon.fr</a>) : des jeux de données de référence, &laquo;&nbsp;à fort impact économique et social&nbsp;&raquo;, d&rsquo;un niveau de qualité et de fraîcheur garanti. Parmi ceux-ci le <strong><a href="https://www.data.gouv.fr/fr/datasets/repertoire-operationnel-des-metiers-et-des-emplois-rome/" target="_blank">Répertoire Opérationnel des Métiers et de l&rsquo;Emploi (ROME)</a></strong>, la classification utilisée par Pôle Emploi.</p>
<p style="text-align: justify;">A partir des fichiers de données du Répertoire Opérationnel des Métiers et de l&rsquo;Emploi, j&rsquo;ai mis en ligne des <a href="http://labs.sparna.fr/code-rome.html" target="_blank"><strong>visualisations de données du ROME</strong></a>, après nettoyage, traitement, et conversion des données en <a href="http://www.sparna.fr/skos/SKOS-traduction-francais.html">SKOS</a>.</p>
<h3 style="text-align: justify;">Le Répertoire ROME</h3>
<p style="text-align: justify;">Ce répertoire ROME m&rsquo;avait intéressé il y a 4 ans lorsque j&rsquo;avais effectué une mission pour l&rsquo;optimisation sémantique du moteur de recherche SolR d&rsquo;un <em>job board</em>. Nous nous étions demandé à l&rsquo;époque si nous pouvions réutiliser une partie de ce référentiel pour effectuer un rapprochement (automatique ou manuelle) des titres d&rsquo;annonces d&rsquo;emplois vers le référentiel. Cela aurait permis, à partir de l&rsquo;identification du nom du poste, de <strong>catégoriser automatiquement les annonces dans la catégorie ROME appropriée</strong>. Le ROME contient en effet plus de <strong>11000 dénominations de postes/métiers</strong>, catégorisés dans une double classification : une arborescence principale, et une arborescence thématique. On y trouve donc des entrées comme :</p>
<ul style="text-align: justify;">
<li><span id="19f41e49-c1fc-4e81-9b60-c5805abd8aab1348877816"><span class="ext-uri" title="http://data.sparna.fr/vocabulaires/code-rome/G1201-3570">Accompagnateur / Accompagnatrice en écotourisme</span></span></li>
<li>Responsable de rayon produits alimentaires</li>
<li>Assistant / Assistante mise en scène</li>
<li>etc.</li>
</ul>
<p style="text-align: justify;">Ces noms de postes sont organisés dans une classification à 3 niveaux : &laquo;&nbsp;AGRICULTURE ET PÊCHE, ESPACES NATURELS ET ESPACES VERTS, SOINS AUX ANIMAUX &gt; Espaces naturels et espaces verts &gt; Bûcheronnage et élagage&nbsp;&raquo;. Le 3eme niveau (ici &laquo;&nbsp;Bûcheronnage et élagage&nbsp;&raquo;) correspond à une <strong>fiche métier</strong> (ici <a href="http://candidat.pole-emploi.fr/marche-du-travail/fichemetierrome?codeRome=A1201">http://candidat.pole-emploi.fr/marche-du-travail/fichemetierrome?codeRome=A1201</a>) et est associé à un code (ici A1201).</p>
<div style="width: 1189px" class="wp-caption aligncenter"><a href="http://labs.sparna.fr/code-rome.html"><img src="http://labs.sparna.fr/code-rome/code-rome-arborescence.png" alt="" width="1179" height="716" /></a><p class="wp-caption-text">Arborescence principale du code ROME dans SKOS-Play</p></div>
<h3 style="text-align: justify;">Conversion en SKOS</h3>
<p style="text-align: justify;">Je suis reparti ici des fichiers bruts fournis sur data.gouv.fr, et j&rsquo;ai passé un peu de temps à les convertir en SKOS avec le <a href="http://labs.sparna.fr/skos-play/convert" target="_blank">convertisseur Excel vers SKOS de SKOS Play</a> :</p>
<ul style="text-align: justify;">
<li>ajustement manuel de certaines valeurs mal séparées par des virgules dans le fichier CSV de départ;</li>
<li>suppression des guillemets simples et doubles;</li>
<li>fusion des 2 fichiers fournis (arborescence principale et arborescence thématique);</li>
<li>réorganisation des colonnes;</li>
</ul>
<p style="text-align: justify;">Il s&rsquo;agit ensuite de construire un tableau Excel au format adéquat pour une conversion vers SKOS, en adaptant la structure des fichiers, typiquement en calculant le contenu de nouvelles colonnes avec des formules Excel. En particulier, il s&rsquo;agit de <strong>donner des identifiants URI à toutes les entrées du code ROME, pour arriver ainsi à des <a href="http://5stardata.info/fr/">données open data &laquo;&nbsp;4 étoiles&nbsp;&raquo;</a>.  </strong>Cette conversion SKOS est relativement aisée à réaliser, <strong>sans écriture de code ni script</strong>. Elle est accessible à toute personne capable de manipuler Excel.</p>
<p style="text-align: justify;">Ces données SKOS du ROME sont publiées à <a href="http://data.sparna.fr/vocabulaires/code-rome"><strong>http://data.sparna.fr/vocabulaires/code-rome</strong></a>.</p>
<p style="text-align: justify;">Je ne rentrerai pas dans les détails de modélisation du ROME en SKOS, sauf sur 1 point : on peut <strong>se demander ce qu&rsquo;il convient d&rsquo;identifier comme &laquo;&nbsp;Concept&nbsp;&raquo;</strong> dans ce référentiel. J&rsquo;ai pris le parti de considérer chaque nom de <em>poste</em> comme un <a href="http://www.w3.org/2004/02/skos/core#Concept">skos:Concept</a>, et tous les éléments de classification thématiques comme des <a href="http://www.w3.org/2004/02/skos/core#Collection">skos:Collection</a> (donc des tiroirs, qui ne sont pas utilisables dans une indexation). Un point de vue différent mais tout aussi valable serait de considérer non pas les noms de <em>poste</em> comme des concepts, mais bien les noms de <em>métier</em>, chaque métier ayant une correspondance avec une fiche sur le site Pôle Emploi; les noms de poste seraient alors des synonymes (<a href="http://www.w3.org/2004/02/skos/core#altLabel">skos:altLabel</a>) du métier (dans l&rsquo;exemple au-dessus, le métier A1202 &laquo;&nbsp;Bûcheronnage et élagage&nbsp;&raquo; aurait alors pour synonymes &laquo;&nbsp;Agent / Agente d&rsquo;aménagement des haies et fossés&nbsp;&raquo;, &laquo;&nbsp;Agent / Agente d&rsquo;entretien des espaces naturels&nbsp;&raquo;, &laquo;&nbsp;Ouvrier / Ouvrière d&rsquo;entretien des espaces naturels&nbsp;&raquo;, etc.).</p>
<h3 style="text-align: justify;">Visualisations de données</h3>
<p style="text-align: justify;">A partir des données SKOS, on peut ensuite générer des visualisations avec <a href="http://labs.sparna.fr/skos-play">SKOS Play</a> : ces visualisations sont publiés à <strong><a href="http://labs.sparna.fr/code-rome.html" target="_blank">http://labs.sparna.fr/code-rome.html</a></strong>. 3 visualisations ont été produites :</p>
<ol style="text-align: justify;">
<li><a href="http://labs.sparna.fr/code-rome/code-rome-autocomplete-pole-emploi.html">Un champ de recherche assisté</a> (avec une autocompletion sur les noms des métiers), permettant de lancer une recherche d&rsquo;annonces sur le site Pôle Emploi à partir d&rsquo;un nom de métier; on pourrait imaginer quelque chose de similaire pour accéder aux fiches métiers plutôt qu&rsquo;aux annonces;</li>
<li><a href="http://labs.sparna.fr/code-rome/code-rome-visualisation-arbre.html">Une vue arborescente</a> avec d3js, permettant de naviguer visuellement dans l&rsquo;arbre;</li>
<li><a href="http://labs.sparna.fr/code-rome/code-rome-arborescence.html">Un listing indenté</a> en HTML, que l&rsquo;on peut plier et déplier;</li>
</ol>
<p>On notera que, sauf pour l&rsquo;articulation entre le champ de recherche assisté et le site de Pôle Emploi qui demande 10 lignes de javascript, ces visualisations sont produites directement par SKOS Play sans avoir à écrire de code.</p>
<h3 style="text-align: justify;">Un &laquo;&nbsp;Web des données de l&rsquo;emploi&nbsp;&raquo; ?</h3>
<p style="text-align: justify;">On a donc ici fait passer le référentiel ROME à un meilleur niveau de qualité des données, permettant une intégration facilitée dans d&rsquo;autres systèmes, d&rsquo;autres outils de recherche. Au delà de la démonstration sur la conversion et la visualisation de données, j&rsquo;aimerai dans une deuxième étape illustrer l&rsquo;<strong>alignement des données du ROME avec d&rsquo;autres référentiels</strong> (probablement <a href="https://ec.europa.eu/esco/portal/home">ESCO</a>), en utilisant <a href="https://github.com/lmazuel/onagui">OnaGUI,</a> qui permet de simplifier les alignements de vocabulaires. On aurait alors un beau référentiel 5 étoiles, <em>_dans_</em> le web (et pas simplement <em>_sur_</em> le web), avec des correspondances vers d&rsquo;autres données. Un <strong>&laquo;&nbsp;web des données de l&rsquo;emploi&nbsp;&raquo;</strong> ? il fallait bien ça à quelques jours des présidentielles !</p>
<p style="text-align: justify;">Dans une deuxième étape je publierai le SKOS généré pour que les URIs soient déréférençables, en utilisant <a href="http://skosmos.org/">SKOSMOS</a>, dans un déploiement similaire à celui utilisé pour <a href="http://blog.sparna.fr/2017/02/06/unesco-thesaurus-published-with-semantic-web-standards-and-open-source-software/">publier le thesaurus de l&rsquo;UNESCO</a>.</p>
<p style="text-align: justify;">J&rsquo;espère que cette conversion de données en SKOS permettra une diffusion et une intégration plus large de ce référentiel utile pour la recherche d&rsquo;emplois. Dites-moi si vous réutilisez ces données pour d&rsquo;autres visualisations ou d&rsquo;autres systèmes, ou si vous souhaitez de l&rsquo;aide pour son intégration.</p>
<p style="text-align: justify;"><em>Illustration de l&rsquo;article tirée de Wikimedia Commons : <a href="https://fr.wikipedia.org/wiki/Fichier:Metro_de_Paris_-_Ligne_2_-_Rome_07.jpg">https://fr.wikipedia.org/wiki/Fichier:Metro_de_Paris_-_Ligne_2_-_Rome_07.jpg</a></em></p>
<p style="text-align: justify;">
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2017/04/18/rome-pole-emploi-skos-rdf-data-gouv-fr/">Référentiel ROME de Pôle Emploi en SKOS (à partir de data.gouv.fr)</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></content:encoded>
			<wfw:commentRss>https://blog.sparna.fr/2017/04/18/rome-pole-emploi-skos-rdf-data-gouv-fr/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>Article ArABESque &#8211; Le web de données, de &#171;&#160;l&#8217;information en réseau&#160;&#187;</title>
		<link>https://blog.sparna.fr/2016/08/01/article-arabesque-web-de-donnees-information-reseau/</link>
		<comments>https://blog.sparna.fr/2016/08/01/article-arabesque-web-de-donnees-information-reseau/#comments</comments>
		<pubDate>Mon, 01 Aug 2016 12:29:56 +0000</pubDate>
		<dc:creator><![CDATA[Thomas Francart]]></dc:creator>
				<category><![CDATA[Linked Data]]></category>
		<category><![CDATA[Ontologies]]></category>
		<category><![CDATA[OWL]]></category>
		<category><![CDATA[RDF]]></category>
		<category><![CDATA[abes]]></category>
		<category><![CDATA[arABESque]]></category>
		<category><![CDATA[web de données]]></category>

		<guid isPermaLink="false">http://blog.sparna.fr/?p=1050</guid>
		<description><![CDATA[<p>La revue &#171;&#160;ArABESque&#160;&#187; publie dans son numéro 83 un dossier intitulé &#171;&#160;Créer du lien, faire sens  &#8211; Un nouveau souffle sur les données&#171;&#160;. Je signe l&#8217;article d&#8217;introduction de ce dossier, qui brosse le paysage, revient sur l&#8217;historique et donne quelques perspectives de l&#8217;écosystème du web de données. ArABESque est la revue de l&#8217;ABES (Agence Bibliographique&#8230;</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2016/08/01/article-arabesque-web-de-donnees-information-reseau/">Article ArABESque &#8211; Le web de données, de &laquo;&nbsp;l&rsquo;information en réseau&nbsp;&raquo;</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></description>
				<content:encoded><![CDATA[<p><em>La revue &laquo;&nbsp;<a href="http://www.abes.fr/Arabesques" target="_blank">ArABESque</a>&nbsp;&raquo; publie dans son numéro 83 un dossier intitulé &laquo;&nbsp;<a href="http://www.abes.fr/Arabesques/Arabesques-n-83" target="_blank"><b>Créer du lien, faire sens  &#8211; Un nouveau souffle sur les données</b></a>&laquo;&nbsp;. Je signe l&rsquo;article d&rsquo;introduction de ce dossier, qui brosse le paysage, revient sur l&rsquo;historique et donne quelques perspectives de l&rsquo;écosystème du web de données. ArABESque est la revue de l&rsquo;<a href="http://abes.fr" target="_blank">ABES</a> (Agence Bibliographique de l&rsquo;Enseignement Supérieur), qui gère notamment le <a href="http://www.abes.fr/Sudoc/Sudoc-public-presentation" target="_blank">SUDOC</a>, catalogue collectif des bibliothèques de l&rsquo;enseignement supérieur, 10 millions de notices, en RDF, évidemment !<br />
</em></p>
<p><span id="more-1050"></span></p>
<h1>Le web de données, de « l’information en réseau »</h1>
<p class="western" align="justify"><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">Le web de données (on préférera ce terme à celui plus ambigu de web sémantique), ce n&rsquo;est pas compliqué ; ça marche et c&rsquo;est utile, en particulier pour les bibliothèques.<b> </b></span></span></span></p>
<h2>Retour aux racines du web</h2>
<p class="western" align="justify"><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">Le web n&rsquo;a pas été conçu pour n&rsquo;être qu&rsquo;un paquet de documents mis en lien. Il intègre, dès sa conception en 1989 par Tim Berners Lee<a class="sdfootnoteanc" href="#sdfootnote1sym" name="sdfootnote1anc"><sup>1</sup></a>, plus de sémantique que l&rsquo;utilisation qui en sera faite ensuite. En particulier par la dualité Identifiant/Représentation :</span></span></span></p>
<ul>
<li>
<p class="western" align="justify"><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">Identifiant : ce qui commence par &laquo;&nbsp;http://&#8230;&nbsp;&raquo; et que l&rsquo;on voit dans la barre d&rsquo;adresse de notre navigateur est une URL, où le &laquo;&nbsp;L&nbsp;&raquo; est mis pour &laquo;&nbsp;Locator&nbsp;&raquo;. C&rsquo;est donc </span></span></span><span style="font-family: Arial,serif;"><span style="font-size: small;"><b>l&rsquo;</b></span></span><span style="font-family: Arial,serif;"><span style="font-size: small;"><b>adresse d&rsquo;un document sur le web</b></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">; mais ce n&rsquo;est qu&rsquo;un cas particulier des URIs, où le &laquo;&nbsp;I&nbsp;&raquo; est mis pour &laquo;&nbsp;</span></span></span><span style="font-family: Arial,serif;"><span style="font-size: small;"><i>Identifier</i></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">&laquo;&nbsp;, qui sont des </span></span></span><span style="font-family: Arial,serif;"><span style="font-size: small;"><b>identifiants, dans le contexte du web, de choses du monde réel</b></span></span><span style="font-family: Arial,serif;"><span style="font-size: small;"><b>. </b></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">On comprend donc qu&rsquo;on peut identifier sur le web n&rsquo;importe quoi à l&rsquo;aide d&rsquo;une URI : Victor Hugo, les pizzas </span></span></span><span style="font-family: Arial,serif;"><span style="font-size: small;"><i>margherita</i></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">, le terme de thésaurus &laquo;&nbsp;gouvernance&nbsp;&raquo;, la Loire, la caractéristique &laquo;&nbsp;se situe à&nbsp;&raquo;, etc. On parle d&rsquo;une façon générale de </span></span></span><span style="font-family: Arial,serif;"><span style="font-size: small;"><b>ressources</b></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">.</span></span></span></p>
</li>
<li>
<p class="western" align="justify"><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">Représentation : si une URI est l&rsquo;identifiant d&rsquo;une &laquo;&nbsp;ressource&nbsp;&raquo;, alors quel &laquo;&nbsp;document&nbsp;&raquo; obtiendra-t-on en naviguant vers cette URI ? On a l&rsquo;habitude d&rsquo;obtenir pour une même adresse toujours le même document, mais d&rsquo;une façon générale un identifiant peut être associé à </span></span></span><span style="font-family: Arial,serif;"><span style="font-size: small;"><b>plusieurs représentations</b></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;"> qui varient &#8211; de façon transparente &#8211; en fonction de préférences de langue, de format, de lieu, etc. C&rsquo;est ce qu&rsquo;on appelle la </span></span></span><span style="font-family: Arial,serif;"><span style="font-size: small;"><b>négociation de contenu</b></span></span><span style="font-family: Arial,serif;"><span style="font-size: small;"><b>.</b></span></span></p>
</li>
</ul>
<p class="western" align="justify"><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">Cette capacité des URIs d&rsquo;identifier absolument n&rsquo;importe quoi, indépendamment d’une représentation particulière, est la clé de voûte de l&rsquo;universalité du web (de données).</span></span></span></p>
<p class="western" align="justify"><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">Une fois les &laquo;&nbsp;choses&nbsp;&raquo; identifiées et rendues indépendantes des documents qui les représentent, il devient possible de parler de ces choses : je peux publier sur le web l&rsquo;assertion que &laquo;&nbsp;La Tour Eiffel se situe à Paris&nbsp;&raquo;, en utilisant 3 URIs pour identifier les 3 composantes de cette assertion : La Tour Eiffel, la notion de &laquo;&nbsp;se situer à&nbsp;&raquo;, et Paris. C&rsquo;est le standard RDF (Resource Description Framework) qui permet d’employer ces assertions en triplets. Notons au passage que, le web étant par nature décentralisé, n&rsquo;importe qui est libre :</span></span></span></p>
<ul>
<li>
<p class="western" align="justify"><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">de créer une nouvelle URI pour identifier Paris ;</span></span></span></p>
</li>
<li>
<p class="western" align="justify"><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">ou de créer une assertion en se référant à une URI déjà existante pour Paris (par exemple celle définie par l&rsquo;Insee<a class="sdfootnoteanc" href="#sdfootnote2sym" name="sdfootnote2anc"><sup>2</sup></a>) ;</span></span></span></p>
</li>
<li>
<p class="western" align="justify"><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">ou encore d&rsquo;exprimer des liens d&rsquo;équivalence entre identifiants : l&rsquo;URI que je définis pour Paris représente la même &laquo;&nbsp;chose&nbsp;&raquo; que celle définie par l&rsquo;Insee.</span></span></span></p>
</li>
</ul>
<p class="western" align="justify"><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">On voit donc se dessiner ce qui nous occupe : un réseau décentralisé de données liées par des triplets.</span></span></span></p>
<p class="western" align="justify"><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">Mais il faut aller plus loin pour que l&rsquo;interopérabilité soit complète &#8211; puisque le web de données n&rsquo;est qu&rsquo;une solution à la problématique de l&rsquo;interopérabilité. En effet, pour qu&rsquo;une autre application puisse décoder mon assertion, il faut que je donne une définition précise des identifiants que j&rsquo;ai utilisés, qui sont sans doute différents de ceux que comprend cette application. En particulier, il faut que je donne une définition précise de mes &laquo;&nbsp;verbes&nbsp;&raquo; (&laquo;&nbsp;est situé à&nbsp;&raquo;) et mes &laquo;&nbsp;types&nbsp;&raquo; (&laquo;&nbsp;Lieu&nbsp;&raquo;, &laquo;&nbsp;Personne&nbsp;&raquo;, etc.). C&rsquo;est ce que permettent les </span></span></span><span style="font-family: Arial,serif;"><span style="font-size: small;"><b>ontologies</b></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">, dont l&rsquo;objectif est de donner un sens univoque à ce dont je parle, à l&rsquo;aide de la logique formelle (on parle également de </span></span></span><span style="font-family: Arial,serif;"><span style="font-size: small;"><b>vocabulaire</b></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;"> ou de </span></span></span><span style="font-family: Arial,serif;"><span style="font-size: small;"><b>modèle de données</b></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">, un peu par abus de langage). Les ontologies permettent également de déclarer des équivalences entre verbes ou entre types, rendant ainsi interopérables des données hétérogènes. Par exemple, je peux dire que, dans mon contexte &laquo;&nbsp;est situé à &nbsp;&raquo; relie quelque chose à un &laquo;&nbsp;Lieu&nbsp;&raquo; et que cela représente la même notion que l&rsquo;identifiant &laquo;&nbsp;basedNear&nbsp;&raquo; défini dans une autre ontologie bien connue, FOAF<a class="sdfootnoteanc" href="#sdfootnote3sym" name="sdfootnote3anc"><sup>3</sup></a>.</span></span></span></p>
<p class="western" align="justify"><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">Les ontologies font donc émerger de cet océan de liens des structures interopérables, rendant ainsi les données liées plus &laquo;&nbsp;sémantiques&nbsp;&raquo;, c’est-à-dire plus facilement réutilisables.</span></span></span></p>
<h2>Quels enjeux et quelles conséquences ?</h2>
<p class="western" align="justify"><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">Souvenons-nous des fausses promesses entendues au milieu des années 2000 à propos du web de données : les machines allaient bientôt comprendre &laquo;&nbsp;le sens&nbsp;&raquo; des textes, on nous parlait de web 3.0, de &laquo;&nbsp;Twine&nbsp;&raquo; (un site qui n’existe plus maintenant mais qui promettait la révolution des réseaux sociaux), on cherchait quelle serait la &laquo;&nbsp;</span></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;"><i>killer-app</i></span></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">&nbsp;&raquo; &#8211; une application si attrayante qu’elle aurait justifié la technologie à elle seule, etc. Rien de tout cela n&rsquo;est arrivé, mais d&rsquo;autres conséquences ont eu lieu.</span></span></span></p>
<p class="western" align="justify"><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">D&rsquo;abord une quantité grandissante de &laquo;&nbsp;données ouvertes et liées&nbsp;&raquo; publiées par une variété importante de producteurs de données : c&rsquo;est le fameux &laquo;&nbsp;</span></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;"><i>Linked Open Data</i></span></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">&laquo;&nbsp;<a class="sdfootnoteanc" href="#sdfootnote4sym" name="sdfootnote4anc"><sup>4</sup></a>. Citons-en quelques points notables: DBPedia francophone (une extraction en RDF des données de Wikipedia), data.bnf.fr (notices FRBRisées &#8211; voir plus bas -, autorités et thématiques de la Bibliothèque Nationale de France), ou encore VIAF (Virtual International Authority File, une mise en commun des fichiers d&rsquo;autorité d&rsquo;une quarantaine de bibliothèques et de musées).</span></span></span></p>
<p class="western" align="justify"><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">Dans cet ensemble de données, il faut en mentionner certaines ayant un statut particulier : les thésaurus. Ceux-ci peuvent être représentés et publiés dans le modèle <a href="http://www.sparna.fr/skos/SKOS-traduction-francais.html" target="_blank">SKOS</a>. Ce modèle permet d&rsquo;aligner les thésaurus pour permettre l&rsquo;interopérabilité de catalogues documentaires utilisant des vocabulaires d&rsquo;indexation différents (&laquo;&nbsp;Désobéissance civile&nbsp;&raquo; dans Rameau est ainsi rapprochée de &laquo;&nbsp;</span></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;"><i>Civil disobedience</i></span></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">&nbsp;&raquo; dans les sujets de la librairie du congrès américain<a class="sdfootnoteanc" href="#sdfootnote5sym" name="sdfootnote5anc"><sup>5</sup></a>). Quant aux ontologies, on se référera au projet LOV &#8211; </span></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;"><i>Linked Open Vocabularies<a class="sdfootnoteanc" href="#sdfootnote6sym" name="sdfootnote6anc"><sup>6</sup></a></i></span></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">.</span></span></span></p>
<p class="western" align="justify"><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">Ensuite, une appropriation de cet enjeu des données structurées et liées par les grands moteurs de recherche : c&rsquo;est l&rsquo;initiative </span></span></span><span style="font-family: Arial,serif;"><span style="font-size: small;"><u>schema.org<a class="sdfootnoteanc" href="#sdfootnote7sym" name="sdfootnote7anc"><sup>7</sup></a></u></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">, qui propose un modèle de description de &laquo;&nbsp;plein de choses dont on parle sur le web&nbsp;&raquo; (blogs, livres, films, produits, etc.), compréhensible par Google, Yahoo, Bing et consorts. On peut reprocher à </span></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;"><u>schema.org</u></span></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;"> son biais vers le e-commerce, sa vision occidentalisée et son manque de transparence dans la gouvernance, mais si les bibliothèques souhaitent rendre leurs données plus visibles par les moteurs, cela passe par la publication de données compatibles avec </span></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;"><u>schema.org</u></span></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">.</span></span></span></p>
<p class="western" align="justify"><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">D&rsquo;une façon plus profonde, ces technologies induisent une représentation générale de l&rsquo;information en </span></span></span><span style="font-family: Arial,serif;"><span style="font-size: small;"><b>graphe décentralisé</b></span></span><span style="font-family: Arial,serif;"><span style="font-size: small;"><b>,</b></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;"> en réseau. Ce mode de structuration, de pensée, fait suite à celui plutôt tabulaire des bases relationnelles, et plutôt hiérarchique de XML. La conséquence est flagrante sur les notices bibliographiques avec le modèle FRBR. Les &laquo;&nbsp;</span></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;"><i>Functionnal Requirement for Bibliographic Records</i></span></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">&laquo;&nbsp;, successeurs de l&rsquo;ISBD (&laquo;&nbsp;</span></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;"><i>International Standard for Bibliographic Record</i></span></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">&laquo;&nbsp;) proposent en effet un éclatement de la notice en 4 niveaux conceptuels, eux-mêmes reliés aux personnes ou aux organisations impliquées dans la vie du document (auteur, contributeur, éditeur, possesseur), lesquelles sont elles-mêmes reliées entre elles ou à d&rsquo;autres données du web.</span></span></span></p>
<p class="western" align="justify"><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">Cette tendance est à rapprocher du constat que de plus en plus de systèmes informatiques de diffusion des catalogues utilisent une base de graphe RDF (&laquo;&nbsp;</span></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;"><i>triplestore</i></span></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">&laquo;&nbsp;) pour centraliser les métadonnées des notices FRBRisées, les fiches d&rsquo;autorité et les thésaurus. Cette base devient le pivot central des canaux de diffusion (sites web, flux RSS, formats d&rsquo;échange métier, etc.). Les lois européennes sont notamment diffusées sur ce mode, via la base Cellar et le portail Eur-Lex<a class="sdfootnoteanc" href="#sdfootnote8sym" name="sdfootnote8anc"><sup>8</sup></a>.</span></span></span></p>
<h2>Prochaines promesses ?</h2>
<p class="western" align="justify"><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">Sans retomber dans les promesses hasardeuses évoquées plus haut, on peut néanmoins esquisser les lignes de force du web de données pour les prochaines années : une utilisation grandissante de </span></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;"><u>schema.org</u></span></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;"> par les moteurs de recherche et les projets de diffusion de données; l&rsquo;intégration native des fonctions de publication/récupération de données du web dans les Content management system (CMS) et les SIGB; la publication et l&rsquo;alignement de plus en plus de données &#8211; dont des thésaurus ou des données de la recherche; la généralisation de FRBR et de ses dérivés pour la description des notices bibliographiques, etc.</span></span></span></p>
<p class="western" align="justify"><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: small;">Au-delà des aspects technologiques, ce sont des logiques de partage, de réutilisation, de mise en réseau, de collaboration, ou d&rsquo;insertion dans un écosystème d&rsquo;acteurs, qui sont favorisés par cet artefact unique qu’est le web de données.</span></span></span></p>
<div id="sdfootnote1">
<p><span style="font-size: small;"><a class="sdfootnotesym" href="#sdfootnote1anc" name="sdfootnote1sym">1</a><sup><span style="font-size: xx-small;"></span></sup> <span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: xx-small;">Voir l&rsquo;article de référence sur le sujet : Tim Berners-Lee, James Hendler and Ora Lassila, &laquo;&nbsp;The Semantic Web&nbsp;&raquo;, </span></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: xx-small;"><i>Scientific American</i></span></span></span><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: xx-small;">, Mai 2001.</span></span></span></span></p>
</div>
<div id="sdfootnote2">
<p class="western" align="justify"><a class="sdfootnotesym" href="#sdfootnote2anc" name="sdfootnote2sym">2</a><sup><span style="font-size: xx-small;"></span></sup> <span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: xx-small;">URI de Paris définie par l&rsquo;Insee : </span></span></span><a href="http://id.insee.fr/geo/commune/75056"><span style="font-family: Arial,serif;"><span style="font-size: xx-small;">http://id.insee.fr/geo/commune/75056</span></span></a><span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: xx-small;"> , voir </span></span></span><a href="http://rdf.insee.fr/geo"><span style="font-family: Arial,serif;"><span style="font-size: xx-small;">http://rdf.insee.fr/geo</span></span></a></p>
</div>
<div id="sdfootnote3">
<p class="western" align="justify"><a class="sdfootnotesym" href="#sdfootnote3anc" name="sdfootnote3sym">3</a><sup><span style="font-size: xx-small;"></span></sup> <span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: xx-small;"><span lang="en-US">FOAF : </span></span></span></span><a href="http://xmlns.com/foaf/spec/"><span style="font-family: Arial,serif;"><span style="font-size: xx-small;"><span lang="en-US">http://xmlns.com/foaf/spec/</span></span></span></a></p>
</div>
<div id="sdfootnote4">
<p><span style="font-size: small;"><a class="sdfootnotesym" href="#sdfootnote4anc" name="sdfootnote4sym">4</a><sup><span style="font-size: xx-small;"></span></sup> <span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: xx-small;"><span lang="en-US">Linked Open Data : </span></span></span></span><a href="http://linkeddata.org/"><span style="font-family: Arial,serif;"><span style="font-size: xx-small;"><span lang="en-US">http://linkeddata.org/</span></span></span></a> </span></p>
</div>
<div id="sdfootnote5">
<p><span style="font-size: small;"><a class="sdfootnotesym" href="#sdfootnote5anc" name="sdfootnote5sym">5</a><sup><span style="font-size: xx-small;"></span></sup> <span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: xx-small;"><span lang="en-US">En triplet RDF : &lt;http://data.bnf.fr/ark:/12148/cb12049451f&gt; skos:closeMatch &lt;http://id.loc.gov/authorities/subjects/sh90000103&gt;</span></span></span></span></span></p>
</div>
<div id="sdfootnote6">
<p class="western" align="justify"><a class="sdfootnotesym" href="#sdfootnote6anc" name="sdfootnote6sym">6</a><sup><span style="font-size: xx-small;"></span></sup> <span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: xx-small;"><span lang="en-US">LOV : </span></span></span></span><a href="http://lov.okfn.org/"><span style="font-family: Arial,serif;"><span style="font-size: xx-small;"><span lang="en-US">http://lov.okfn.org</span></span></span></a></p>
</div>
<div id="sdfootnote7">
<p class="western" align="justify"><a class="sdfootnotesym" href="#sdfootnote7anc" name="sdfootnote7sym">7</a><sup><span style="font-size: xx-small;"></span></sup> <a href="http://schema.org/"><span style="font-family: Arial,serif;"><span style="font-size: xx-small;"><span lang="en-US">http://schema.org</span></span></span></a></p>
</div>
<div id="sdfootnote8">
<p><span style="font-size: small;"><a class="sdfootnotesym" href="#sdfootnote8anc" name="sdfootnote8sym">8</a><sup><span style="font-size: xx-small;"></span></sup> <span style="color: #000000;"><span style="font-family: Arial,serif;"><span style="font-size: xx-small;">EurLex : </span></span></span><a href="http://eurlex.europa.eu/"><span style="font-family: Arial,serif;"><span style="font-size: xx-small;">http://eurlex.europa.eu</span></span></a> </span></p>
</div>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2016/08/01/article-arabesque-web-de-donnees-information-reseau/">Article ArABESque &#8211; Le web de données, de &laquo;&nbsp;l&rsquo;information en réseau&nbsp;&raquo;</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></content:encoded>
			<wfw:commentRss>https://blog.sparna.fr/2016/08/01/article-arabesque-web-de-donnees-information-reseau/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Linked Open Data Cloud : nouvelle version</title>
		<link>https://blog.sparna.fr/2014/09/04/linked-open-data-cloud-nouvelle-version/</link>
		<comments>https://blog.sparna.fr/2014/09/04/linked-open-data-cloud-nouvelle-version/#comments</comments>
		<pubDate>Thu, 04 Sep 2014 17:05:21 +0000</pubDate>
		<dc:creator><![CDATA[Thomas Francart]]></dc:creator>
				<category><![CDATA[Linked Data]]></category>
		<category><![CDATA[RDF]]></category>
		<category><![CDATA[dataset]]></category>
		<category><![CDATA[données liées]]></category>
		<category><![CDATA[jeu de données]]></category>
		<category><![CDATA[linked data cloud]]></category>
		<category><![CDATA[linkset]]></category>
		<category><![CDATA[web de données]]></category>

		<guid isPermaLink="false">http://blog.sparna.fr/?p=660</guid>
		<description><![CDATA[<p>Beaucoup de discours de présentation sur le web de données utilisent l&#8217;image du &#171;&#160;Linked Open Data Cloud&#171;&#160;, le nuage des données liées, pour illustrer la notion de publication de données sur le web, et celle de liens entre les jeux de données. Ce visuel illustre chaque dataset par un cercle (coloré) et indique les liens&#8230;</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2014/09/04/linked-open-data-cloud-nouvelle-version/">Linked Open Data Cloud : nouvelle version</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></description>
				<content:encoded><![CDATA[<p style="text-align: justify;">Beaucoup de discours de présentation sur le web de données utilisent l&rsquo;image du &laquo;&nbsp;<a href="http://lod-cloud.net/" target="_blank">Linked Open Data Cloud</a>&laquo;&nbsp;, le nuage des données liées, pour illustrer la notion de publication de données sur le web, et celle de liens entre les jeux de données. Ce visuel illustre chaque dataset par un cercle (coloré) et indique les liens entre dataset par des flèches. Certains montrent l&rsquo;évolution de ce &laquo;&nbsp;nuage&nbsp;&raquo; dans le temps, pour illustrer la croissance de la quantité de données liées disponibles, et dire que &laquo;&nbsp;vite, dépêchez-vous, il y a plein de données à réutiliser et _vous aussi_, vous pourriez faire partie de ce nuage en publiant vos données&nbsp;&raquo;. Le problème est que cette image de nuage de données étaient un peu passée car la dernière version datait de septembre 2011&#8230; La bonne nouvelle c&rsquo;est que<a href="http://lists.w3.org/Archives/Public/public-lod/2014Sep/0013.html" target="_blank"> l&rsquo;image vient d&rsquo;être remise au goût du jour</a> (par Chris Bizer et son équipe de l&rsquo;Universität Mannheim en Allemagne), presque 3 ans après sa dernière mouture. Et ça se passe <strong><a href="http://data.dws.informatik.uni-mannheim.de/lodcloud/2014/" target="_blank">ici</a></strong>.</p>
<p style="text-align: justify;"><span id="more-660"></span></p>
<p style="text-align: justify;">Il faut toujours prendre un peu de recul et se méfier de la propagation des discours qui ne sont pas toujours fondés : ce visuel présente un certain danger de réduction de la problématique du partage de données structurées sur le web, d&rsquo;abord parce que d&rsquo;autres données liées sont disponibles que celles représentées par cette image (ne pas prendre ce diagramme comme un point d&rsquo;entrée si vous cherchez des données), ensuite parce que cette image a tendance à masquer les problématiques bien différentes qui se cachent derrière ces données (mise en ligne de bases de données déjà structurées, utilisation de données crowdsourcées, traitement automatique du langage, retraitement de formats semi-structurés, aggrégations de plusieurs bases, etc.), ensuite encore parce qu&rsquo;il ne dit rien de la qualité des données publiées, finalement parce que les données structurées sur le web, c&rsquo;est aussi l&rsquo;open data ou la structuration des contenus (RDFa, <a href="http://schema.org" target="_blank">schema.org</a>). Mais cette image reste un excellent support de communication pour introduire la problématique.</p>
<p>&nbsp;</p>
<p>Bon, et sinon, si on regarde d&rsquo;un peu plus près cette image, qu&rsquo;y voit-on ?</p>
<ul>
<li>D&rsquo;abord (mais ça ne se voit pas), la détection des données est faite à la fois à partir des données référencés dans l&rsquo;annuaire <a href="http://datahub.io/" target="_blank">datahub.io</a> (<a href="http://datahub.io/dataset?tags=lod" target="_blank">tag lod</a>) et (c&rsquo;est nouveau) à partir d&rsquo;un crawl automatique des données du web datant d&rsquo;avril 2014;</li>
<li>Il y a plus de jeux de données : 520 contre 337 dans la version précédente; et 2900 liens entre jeux de données;</li>
<li>La taille des cercles n&rsquo;est plus proportionnelle à la quantité de données, mais aux nombres de liens entrants. Ce n&rsquo;est pas la taille qui compte (!), mais, dans ce monde en réseau, le nombre de données qui référencent les vôtres;</li>
<li>Geonames occupe une place (presque) aussi centrale que DBPedia;</li>
<li>Il y a un nouveau code couleur pour les datasets relatifs à la linguistique;</li>
<li>On y trouve maintenant les déclinaisons linguistiques de DBPedia, comme <a href="http://fr.dbpedia.org">le DBPedia francophone</a>;</li>
</ul>
<p>&nbsp;</p>
<p style="text-align: justify;">Et si l&rsquo;image a été remise à jour, le message qui l&rsquo;accompagne dans les présentations devrait lui-aussi subir un petit lifting, et c&rsquo;est intéressant de lire <a href="http://lists.w3.org/Archives/Public/public-lod/2014Aug/0072.html" target="_blank">ce que réponds Chris Bizer là-dessus</a> notamment en comparant les données liées et les contenus structurés (Microdata/RDFa/Microformats) :</p>
<ul style="text-align: justify;">
<li style="text-align: justify;">Les sites qui mettent à disposition des données structurées sous forme de Microdata/RDFa/Microformats sont 1000 fois plus nombreux (&laquo;&nbsp;three order of magnitude larger&nbsp;&raquo;) que ceux publiant de la données liée;</li>
<li style="text-align: justify;">Les données liées et les données disponibles via Microdata/RDFa/Microformats ne couvrent pas les mêmes domaines : e-gouvernment, bibliothèques, sciences de la vie, linguistiques, géographie pour les premières, et produits, commentaires utilisateur, adresses, événements, offres d&rsquo;emploi, recettes, personnes pour les secondes. Peu de recouvrement entre les 2 technologies en terme de données;</li>
<li style="text-align: justify;">dans le monde Microdata/RDFa/Microformats, on ne trouve pas, ou très peu, de liens vers d&rsquo;autres données, là où on en trouve dans le monde des données liées, jusqu&rsquo;à un certain point (normal, c&rsquo;est fait pour ça); et la présence de liens, notamment vers des référentiels terminologiques partagés, peut favoriser la réutilisation des données;</li>
<li style="text-align: justify;">Les données que l&rsquo;on trouve dans les données liées sont très structurées, celles que l&rsquo;on trouve en Microdata/RDFa/Microformats ne vont en général pas plus loin que 3 ou 4 attributs, contenant en général du texte;</li>
</ul>
<p style="text-align: justify;">Et de conclure : &laquo;&nbsp;Les données liées ont donc été adoptées par des communautés qui ont un intérêt à voir leurs données facilement réutilisées et sont prêtes à en faire l&rsquo;effort, comme les bibliothèques, les gouvernements, le monde de la recherche (avec en tête les sciences du vivant et la linguistique qui ont adopté en premier ces technologies) et les réseaux sociaux. Et il est aussi logique de voir que d&rsquo;autres communautés adoptent Microdata/RDFa/Microformats, celles qui veulent principalement pousser leurs données vers les applications Google pour avoir plus de trafic sur leur site et qui n&rsquo;ont pas d&rsquo;intérêt à créer des liens [dans leurs données] vers d&rsquo;autres (qui sont probablement de toutes façons leurs concurrents)&nbsp;&raquo;.</p>
<p style="text-align: justify;">Alors, en caricaturant, les données liées pour le public, Microdata/RDFa/Microformats pour le privé ? on n&rsquo;est pas si loin de la vérité, sans doute.</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2014/09/04/linked-open-data-cloud-nouvelle-version/">Linked Open Data Cloud : nouvelle version</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></content:encoded>
			<wfw:commentRss>https://blog.sparna.fr/2014/09/04/linked-open-data-cloud-nouvelle-version/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Des articles enrichis grâce au web de données (DBpedia, Isidore)</title>
		<link>https://blog.sparna.fr/2013/03/22/articles-enrichis-web-de-donnees-dbpedia-isidore/</link>
		<comments>https://blog.sparna.fr/2013/03/22/articles-enrichis-web-de-donnees-dbpedia-isidore/#comments</comments>
		<pubDate>Fri, 22 Mar 2013 09:21:55 +0000</pubDate>
		<dc:creator><![CDATA[Thomas Francart]]></dc:creator>
				<category><![CDATA[Linked Data]]></category>
		<category><![CDATA[RDF]]></category>
		<category><![CDATA[SPARQL]]></category>
		<category><![CDATA[Annotation]]></category>
		<category><![CDATA[DBpedia]]></category>
		<category><![CDATA[Isidore]]></category>
		<category><![CDATA[labs]]></category>
		<category><![CDATA[métadonnées]]></category>
		<category><![CDATA[presse]]></category>
		<category><![CDATA[rdfa]]></category>
		<category><![CDATA[web de données]]></category>

		<guid isPermaLink="false">http://blog.sparna.fr/?p=320</guid>
		<description><![CDATA[<p>(english summary scroll down) Je continue à creuser le sillon entamé précédemment de démos simples et réutilisables de ce que peuvent apporter les données disponibles sur le web pour enrichir un texte, sans infrastructure compliquée. Pour cela je vous invite à entrer dans le laboratoire de sparna.fr ! http://labs.sparna.fr sera un terrain de jeu qui hébergera&#8230;</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2013/03/22/articles-enrichis-web-de-donnees-dbpedia-isidore/">Des articles enrichis grâce au web de données (DBpedia, Isidore)</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></description>
				<content:encoded><![CDATA[<p style="text-align: justify;"><span style="font-size: x-small;"><em>(english summary scroll down)</em></span></p>
<p style="text-align: justify;">Je continue à creuser <a title="Démo de l’utilisation de RDFa &amp; SPARQL pour enrichir une page HTML" href="http://blog.sparna.fr/demo-utilisation-de-rdfa-sparql-pour-enrichir-une-page-html/" target="_blank">le sillon entamé précédemment</a> de démos simples et réutilisables de ce que peuvent apporter les données disponibles sur le web pour enrichir un texte, sans infrastructure compliquée. Pour cela je vous invite à entrer dans <a href="http://labs.sparna.fr" target="_blank">le laboratoire de sparna.fr</a> ! <strong><a href="http://labs.sparna.fr" target="_blank">http://labs.sparna.fr</a></strong> sera un terrain de jeu qui hébergera dans le futur d&rsquo;autres applications et illustrations des technologies du web de données et de l&rsquo;open data, &laquo;&nbsp;so stay tuned&nbsp;&raquo; !</p>
<p style="text-align: justify;">Mais revenons à la démo, ou aux démos puisqu&rsquo;il s&rsquo;agit de 2 pages :</p>
<ul style="text-align: justify;">
<li>la <strong><a href="http://labs.sparna.fr/isidore-enrichissement-article.html" target="_blank">première page de démo</a></strong> est un article scientifique en français enrichi grâce aux données de la base <a href="http://rechercheisidore.fr" target="_blank">Isidore;</a></li>
<li>la <strong><a href="http://labs.sparna.fr/dbpedia-enrich-news-article.html" target="_blank">seconde</a></strong> est un article de presse en anglais enrichi grâce aux données de <a href="http://dbpedia.org" target="_blank">DBpedia</a>.</li>
</ul>
<p style="text-align: justify;"><span id="more-320"></span></p>
<p style="text-align: justify;">Qu&rsquo;est-ce qu&rsquo;elles illustrent ?</p>
<ol style="text-align: justify;">
<li>La <strong>génération du contenu</strong> d&rsquo;une partie du contenu à partir des données du web : ici, la <a href="http://labs.sparna.fr/isidore-enrichissement-article.html#articles" target="_blank">génération automatique de la liste des articles du même auteur</a> dans la page Isidore;</li>
<li><strong>L&rsquo;affichage d&rsquo;informations contextuelles</strong> lorsqu&rsquo;on clique sur un élément annoté dans le texte : dans le cas de l&rsquo;article scientifique, on va chercher sur Isidore, dans le cas de la news, sur DBpedia, mais le principe est le même : on affiche un encart avec titre, photo, définition ou description et un lien vers une page plus complète;</li>
<li>Dans la <a href="http://labs.sparna.fr/dbpedia-enrich-news-article.html" target="_blank">démo DBpedia</a>, la <strong>l&rsquo;affichage sur une carte des noms de lieux mentionnés dans le texte</strong> : les noms des villes, régions ou pays sont marqués avec un identifiant DBpedia, et on va récupérer dynamiquement l&rsquo;information de positionnement dans DBpedia, pour afficher un marqueur sur la carte; la carte et le texte sont synchronisés, quand on passe la souris sur un lieu géographique dans le texte, le marqueur correspondant sur la carte se met en surbrillance, et inversement;</li>
<li>Dans la <a href="http://labs.sparna.fr/isidore-enrichissement-article.html" target="_blank">démo Isidore</a>, la <strong>navigation dans les termes des thesaurus</strong>; certains mots du texte dans l&rsquo;article (&laquo;&nbsp;habitat&nbsp;&raquo;, &laquo;&nbsp;XVIIIe siècle&nbsp;&raquo;, etc.) renvoient vers les concepts abstraits d&rsquo;un thesaurus; on récupère alors les notions plus génériques et plus spécifiques de cette notion, qui seront elles-mêmes cliquables et permettent donc de naviguer dans la hiérarchie des terminologies associées à l&rsquo;article;</li>
<li>Dans le <a href="http://labs.sparna.fr/dbpedia-enrich-news-article.html" target="_blank">démo DBpedia</a>, la possibilité d&rsquo;<strong>afficher les informations dans plusieurs langues</strong>, simplement en changeant un paramètre de la page : essayez <a href="http://labs.sparna.fr/dbpedia-enrich-news-article.html?lang=fr" target="_blank">en français</a>, <a href="http://labs.sparna.fr/dbpedia-enrich-news-article.html?lang=ru" target="_blank">en russe</a>, <a href="http://labs.sparna.fr/dbpedia-enrich-news-article.html?lang=nl" target="_blank">en néerlandais</a>, etc. vous avez compris l&rsquo;idée, il suffit de changer le paramètre de langue dans l&rsquo;adresse de la page;</li>
<li>Enfin, tout cela illustre <strong>l&rsquo;interrogation de bases SPARQL directement depuis les pages HTML</strong>, sans infrastructure serveur, puisque les requêtes sont envoyées en utilisant JSONP depuis du javascript; A noter que cela demande que le endpoint SPARQL supporte le <a href="http://en.wikipedia.org/wiki/JSONP">JSONP</a>; c&rsquo;est le cas de Virtuoso qui est utilisé pour DBpedia et Isidore; Sesame le supportera dans sa prochaine version.</li>
</ol>
<p style="text-align: justify;">Que peut-on imaginer à partir de ça ? Plusieurs idées :</p>
<ul style="text-align: justify;">
<li>se brancher derrière un annotateur automatique qui mettrait les annotations automatiquement (type <a href="http://dbpedia-spotlight.github.com/demo/">DBpedia Spotlight</a>), pour présenter une interface de navigation enrichie à partir de n&rsquo;importe quel texte;</li>
<li>imaginer une interface de navigation dans des thesaurus <a href="http://www.w3.org/TR/2009/REC-skos-reference-20090818/">SKOS</a> que l&rsquo;on pourrait &laquo;&nbsp;brancher&nbsp;&raquo; sur n&rsquo;importe quelle source de données contenant du SKOS pour naviguer dans des terminologies;</li>
</ul>
<p style="text-align: justify;"><strong>Vos idées et vos cas d&rsquo;usage sont les bienvenus ! n&rsquo;hésitez pas à montrer ces pages comme des démos ou à les récupérer et les adapter avec votre propre contenu !</strong></p>
<hr />
<p style="text-align: justify;">English summary :</p>
<p style="text-align: justify;">I have launched <a href="http://labs.sparna.fr">http://labs.sparna.fr</a> and I am presenting 2 demos of articles augmented with linked data :</p>
<ul style="text-align: justify;">
<li>the first one is a <a href="http://labs.sparna.fr/dbpedia-enrich-news-article.html">demo of a news article in english augmented with DBpedia data</a>;</li>
<li>the second one is a <a href="http://labs.sparna.fr/isidore-enrichissement-article.html">demo of a scientific article in french augmented with data from Isidore</a> (<a href="http://rechercheisidore.fr">Isidore</a> is a data repository containing humanities articles metadata and classification thesaurii);</li>
</ul>
<p style="text-align: justify;">These pages illustrate :</p>
<ul style="text-align: justify;">
<li>How you can <strong>generate part of the content dynamically from the web of data</strong> : the <a href="http://labs.sparna.fr/isidore-enrichissement-article.html#articles">list of articles from the same author in the Isidore demo</a> is fetched dynamically when the page loads;</li>
<li>How you can pull and <strong>display contextual information</strong> besides the text, in an &laquo;&nbsp;infobox&nbsp;&raquo;, when the reader clicks an underlined word;</li>
<li>How you can fetch geographic coordinates from DBpedia to <strong>automatically plot the locations mentionned in the text on a map</strong> (provided they have been &laquo;&nbsp;tagged&nbsp;&raquo; with a DBpedia identifier), in the <a href="http://labs.sparna.fr/dbpedia-enrich-news-article.html">DBpedia demo</a>;</li>
<li>How you can <strong>navigate thesaurus terms</strong> in the <a href="http://labs.sparna.fr/isidore-enrichissement-article.html">Isidore demo</a> : some words correspond to thesaurus concepts (&laquo;&nbsp;habitat&nbsp;&raquo;, &laquo;&nbsp;XVIIIe siècle&nbsp;&raquo;), thus generic and specific concepts are displayed in the infobox;</li>
<li>That the <strong>data in DBpedia can be fecthed in diferent languages to adapt to the reader&rsquo;s language</strong> : try to load the DBpedia demo <a href="http://labs.sparna.fr/dbpedia-enrich-news-article.html?lang=fr">in french</a>, <a href="http://labs.sparna.fr/dbpedia-enrich-news-article.html?lang=ru">in russian</a>, <a href="http://labs.sparna.fr/dbpedia-enrich-news-article.html?lang=nl">in dutch</a>&#8230; and try playing with the 2-letter language code in the URLs to display other languages;</li>
<li>How <strong>SPARQL queries can be executed directly from within an HTML page without requiring any server infrastructure</strong>, provided the SPARQL endpoint supports JSONP;</li>
</ul>
<p style="text-align: justify;"><strong>Don&rsquo;t hesitate to save the webpages and adapt them with your own annotated content, and drop me a note if you have other use-cases in mind !</strong></p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2013/03/22/articles-enrichis-web-de-donnees-dbpedia-isidore/">Des articles enrichis grâce au web de données (DBpedia, Isidore)</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></content:encoded>
			<wfw:commentRss>https://blog.sparna.fr/2013/03/22/articles-enrichis-web-de-donnees-dbpedia-isidore/feed/</wfw:commentRss>
		<slash:comments>9</slash:comments>
		</item>
		<item>
		<title>Bénéfices clés des technologies du web de données 2/2 – absence de modèle, raisonnement</title>
		<link>https://blog.sparna.fr/2012/10/25/benefices-cles-des-technologies-du-web-de-donnees-22-absence-de-modele-raisonnement/</link>
		<comments>https://blog.sparna.fr/2012/10/25/benefices-cles-des-technologies-du-web-de-donnees-22-absence-de-modele-raisonnement/#comments</comments>
		<pubDate>Thu, 25 Oct 2012 08:41:20 +0000</pubDate>
		<dc:creator><![CDATA[Thomas Francart]]></dc:creator>
				<category><![CDATA[Linked Data]]></category>
		<category><![CDATA[OWL]]></category>
		<category><![CDATA[RDF]]></category>
		<category><![CDATA[avantages]]></category>
		<category><![CDATA[ontologies]]></category>
		<category><![CDATA[raisonnement]]></category>
		<category><![CDATA[semantic web]]></category>
		<category><![CDATA[Triplestore]]></category>
		<category><![CDATA[vocabulaires]]></category>
		<category><![CDATA[web de données]]></category>
		<category><![CDATA[web of data]]></category>
		<category><![CDATA[web sémantique]]></category>

		<guid isPermaLink="false">http://blog.sparna.fr/?p=227</guid>
		<description><![CDATA[<p>Dans la première partie de cette étude sur les avantages des technologies du web de données &#8211; que je valorise au sein de la société Sparna, j&#8217;avais étudié ce qui fait leur essence, leur &#171;&#160;principe actif&#160;&#187;, c&#8217;est-à-dire les mécanismes de publication de données dans un environnement distribué. Je continue ici l&#8217;analyse sur deux autres aspects&#8230;</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2012/10/25/benefices-cles-des-technologies-du-web-de-donnees-22-absence-de-modele-raisonnement/">Bénéfices clés des technologies du web de données 2/2 – absence de modèle, raisonnement</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></description>
				<content:encoded><![CDATA[<p style="text-align: justify;">Dans la <a title="Bénéfices clés des technologies du web de données 1/2 – l’environnement distribué" href="http://blog.sparna.fr/benefices-cles-des-technologies-du-web-de-donnees-12-lenvironnement-distribue/">première partie</a> de cette étude sur les avantages des technologies du web de données &#8211; que je valorise au sein de la société <a href="http://sparna.fr">Sparna</a>, j&rsquo;avais étudié ce qui fait leur essence, leur &laquo;&nbsp;principe actif&nbsp;&raquo;, c&rsquo;est-à-dire les mécanismes de publication de données dans un environnement distribué. Je continue ici l&rsquo;analyse sur deux autres aspects qui font l&rsquo;originalité de ces approches : <strong>l&rsquo;absence de modèle de données</strong> et <strong>les possibilités offertes par le raisonnement</strong>.</p>
<p>&nbsp;</p>
<h2>Le schéma de données, quel schéma de données ?</h2>
<p>&nbsp;</p>
<p style="text-align: justify;"><span style="text-decoration: underline;">Facilite les phases de prototypage</span></p>
<p style="text-align: justify;">Dans les approches à base de RDF+SPARQL, on n&rsquo;a pas besoin d&rsquo;avoir un schéma de données pour commencer à travailler. <span class="pullquote">On a juste besoin des données. Le schéma peut venir après.</span> <em>&laquo;&nbsp;Data first, model after&nbsp;&raquo;</em>. C&rsquo;est une approche &laquo;&nbsp;bottom-up&nbsp;&raquo;, là où les SGBD+SQL ont nécessairement une approche &laquo;&nbsp;top-down&nbsp;&raquo; : &laquo;&nbsp;model first, data after&nbsp;&raquo;. Cela permet un <strong>prototypage rapide des projets</strong> : plus besoin d&rsquo;attendre d&rsquo;avoir défini un modèle de base de données avant de faire une première requête.</p>
<p style="text-align: justify;"><span style="text-decoration: underline;">Intégration de données hétérogènes</span></p>
<p style="text-align: justify;">Ces absence de schéma, de modèle, dans les bases de données RDF (triplestores) donne la possibilité d&rsquo;y intégrer des données :</p>
<ul style="text-align: justify;">
<li><strong>hétérogènes</strong> : exprimées avec des modèles différents, en ayant ensuite la possibilité de les réconcilier sur un modèle unique si besoin;</li>
<li><strong>incomplètes</strong> : avec des valeurs manquantes, en ayant la possibilité de repérer ces objets anormaux si besoin;</li>
<li><strong>incohérentes</strong> : venant de sources différentes qui donnent des informations contradictoires, en ayant la possibilité de repérer ces incohérences et de les corriger si besoin;</li>
</ul>
<p style="text-align: justify;"><span style="text-decoration: underline;">Une infinité de points de vue</span></p>
<p style="text-align: justify;">Zéro schéma signifie aussi une multiplicité de schémas. Les technologies sémantiques permettent d&rsquo;exprimer les mêmes données suivant plusieurs schémas dans la même base, offrant alors plusieurs &laquo;&nbsp;points de vue&nbsp;&raquo;, plusieurs façons de voir les mêmes données. Et ceci automatiquement avec de l&rsquo;inférence OWL. Chaque application consommant les données pourra alors s&rsquo;appuyer sur le schéma qu&rsquo;elle comprend. <strong>On favorise ainsi l&rsquo;interopérabilité entre applications</strong>. Un exemple ? le standard de représentation <a href="www.w3.org/2004/02/skos/">SKOS</a> permet une représentation simple de systèmes d&rsquo;organisation de connaissances (thesaurus, arbres de classement, &#8230;) , à base de &laquo;&nbsp;Concept&nbsp;&raquo; qui portent des &laquo;&nbsp;prefLabels&nbsp;&raquo; (libellés préférentiels). C&rsquo;est un format d&rsquo;échange commode, mais inadapté à la représentation de bases de connaissances riches, comme une base de personnes. Il est tout à fait possible de dire &laquo;&nbsp;ce que tu appelles une Personne dans ton système je l&rsquo;appelle également un Concept SKOS, et la propriété <em>foaf:name</em> que tu utilises correspond à la propriété <em>skos:prefLabel</em> SKOS&nbsp;&raquo;, pour ainsi obtenir une &laquo;&nbsp;vue&nbsp;&raquo; SKOS d&rsquo;une base de personnes.</p>
<p style="text-align: justify;">Ce faisant, on permet également de <strong>séparer les métadonnées initiales des contenus (riches et compliquées) des catégories de ces contenus pour la diffusion</strong>, en fonction des supports ou des publics (souvent plus simples et liées à l&rsquo;usage). L&rsquo;exemple classique est l&rsquo;hôtel rangé dans une catégorie &laquo;&nbsp;bon marché&nbsp;&raquo; alors que ses métadonnées initiales sont plus complexes : prix par nuit, nombre d&rsquo;étoiles, labels, piscine, etc.</p>
<p style="text-align: justify;"><span style="text-decoration: underline;">Flexibilité maximale</span></p>
<p style="text-align: justify;">Le fait que le schéma ne contraigne pas les données donne une <strong>flexibilité et une évolutivité importante au système</strong>. On peut rajouter, supprimer, modifier un attribut ou une classe à la volée. <span class="pullquote">On peut modifier le schéma, sans toucher aux données. On peut même changer de schéma facilement.</span> Prenons un cas d&rsquo;intégration de données : une application intégrant une source de données externe avec ses propres données, et se retrouvant confronté au cas où cette source de données change de format et de modèle :</p>
<ul>
<li style="text-align: justify;">dans le monde du XXème siècle, en SGBD+SQL, confronté à un tel cas on doit 1/ modifier le parsing des données qui ont changé, 2/ modifier les tables du système pour prendre en compte ce nouveau format, 3/ modifier les requêtes de l&rsquo;applicatif.</li>
<li style="text-align: justify;">Dans le monde du XXIème siècle, en RDF+SPARQL : 1/ pas de parsing à modifier (les données arrivent toujours en RDF), 2/ pas de schema à modifier (il n&rsquo;y en a pas) et 3/ il faut toujours modifier les requêtes de l&rsquo;applicatif&#8230; plus qu&rsquo;un 1/3 du travail. Et encore, il est possible, le temps de modifier les requêtes, d&rsquo;ajouter de l&rsquo;inférence pour recréer les données dans l&rsquo;ancien modèle à partir du nouveau, de façon à ce que les requêtes continuent à répondre.</li>
</ul>
<p>&nbsp;</p>
<h2>Le raisonnement, ou les manipulations automatiques des données</h2>
<p style="text-align: justify;"><span style="text-decoration: underline;">Réconciliation</span></p>
<p style="text-align: justify;">Le raisonnement est la capacité des outils RDF à déduire automatiquement de nouvelles informations à partir des informations existantes. Notons bien que ces capacités de raisonnement ne sont ni proposées par tous les outils RDF, ni forcément utiles dans tous les contextes. Elles vont par exemple permettre de <strong>réconcilier les données hétérogènes sur un modèle commun</strong> : &laquo;&nbsp;Ensemble des personnes = ensemble des contacts qui viennent de mon répertoire de téléphone + ensemble de mes contacts dans les réseaux sociaux&nbsp;&raquo;.</p>
<p style="text-align: justify;"><span style="text-decoration: underline;">Classification</span></p>
<p style="text-align: justify;">Le même mécanisme est utilisé pour des besoins plus proches de la classification (&laquo;&nbsp;repurposing&nbsp;&raquo; de contenu), pour <strong>définir les ensembles d&rsquo;objets dans des points de vue multiples</strong>, tel qu&rsquo;évoqué plus haut. On peut par exemple avoir d&rsquo;un côté l&rsquo;ensemble des objets &laquo;&nbsp;Hébergements&nbsp;&raquo;, et de l&rsquo;autre l&rsquo;ensemble des objets &laquo;&nbsp;Hôtels pas chers&nbsp;&raquo; défini comme &laquo;&nbsp;l&rsquo;ensemble des objets Hébergements qui sont de type hôtel et ont un prix par nuit inférieur à 60 euros&nbsp;&raquo;. Le deuxième ensemble sera calculé à partir du premier, automatiquement.</p>
<p style="text-align: justify;"><span style="text-decoration: underline;">Inférence</span></p>
<p style="text-align: justify;">L&rsquo;inférence permet de <strong>précalculer des liens ou des données qui facilitent l&rsquo;écriture des requêtes et améliorent les temps de réponse</strong>. Le total des buts marqués par une équipe de football dans une compétition est calculé comme la somme de tous les buts marqués par cette équipe dans les matchs de cette compétition. La donnée est calculée une fois, et peut ensuite être présentée directement sur la page de l&rsquo;équipe, il n&rsquo;y a pas de calcul à faire au moment de l&rsquo;affichage (voir <a href="http://news.bbc.co.uk/sport2/hi/football/world_cup_2010/groups_and_teams/team/france">le site de la coupe du monde de la BBC</a>, réalisé à partir des technologies du web de données en utilisant le raisonnement).</p>
<p style="text-align: justify;"><span style="text-decoration: underline;">Consistance</span></p>
<p style="text-align: justify;">L&rsquo;inférence est aussi ce qui permet de contrôler la consistance par rapport au modèle de données. Car si en RDF il est possible de ne pas avoir de schéma, dans les cas où il y en a un, <strong>le moteur d&rsquo;inférence sera capable de déterminer si les données sont consistantes par rapport à ce schéma</strong> ou non.</p>
<h2 style="text-align: justify;">Conclusion&#8230;</h2>
<p style="text-align: justify;">Ce travail d&rsquo;analyse partiel est une synthèse des expériences acquises avec ces technologies, et des lectures spécialisées (le forum <a href="http://answers.semanticweb.com" target="_blank">answers.semanticweb.com</a> contient beaucoup de réponses intéressantes). Il doit permettre de bien <strong>situer les avantages de ces technos pour ne pas en faire une évangélisation aveugle</strong>, et de les utiliser au mieux pour résoudre des problèmes concrets. Il y aurait peut-être d&rsquo;autres avantages à étudier, comme la réutilisation possibles de schémas existants, comme ceux que l&rsquo;on peut trouver dans le <a href="http://lov.okfn.org" target="_blank">LOV</a> (Linked Open Vocabularies).</p>
<p style="text-align: justify;">De plus en plus de projets vont vouloir soit tirer parti de ce qui est publié librement sur le web de données, soit rationnaliser des intégrations d&rsquo;API compliquées, ou encore améliorer leurs chaines de traitement et de diffusion de contenus, ouvrir des données de bases auparavant fermées, aligner des référentiels avec du raisonnement, etc&#8230; tous ces projets peuvent bénéficier d&rsquo;une approche basée sur le web de données. Si vous voulez en savoir plus, n&rsquo;hésitez pas à réagir ici ou à me <a href="http://sparna.fr/contact.html" target="_blank">contacter</a>.</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2012/10/25/benefices-cles-des-technologies-du-web-de-donnees-22-absence-de-modele-raisonnement/">Bénéfices clés des technologies du web de données 2/2 – absence de modèle, raisonnement</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></content:encoded>
			<wfw:commentRss>https://blog.sparna.fr/2012/10/25/benefices-cles-des-technologies-du-web-de-donnees-22-absence-de-modele-raisonnement/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Bénéfices clés des technologies du web de données 1/2 &#8211; l&#8217;environnement distribué</title>
		<link>https://blog.sparna.fr/2012/10/19/benefices-cles-des-technologies-du-web-de-donnees-12-lenvironnement-distribue/</link>
		<comments>https://blog.sparna.fr/2012/10/19/benefices-cles-des-technologies-du-web-de-donnees-12-lenvironnement-distribue/#comments</comments>
		<pubDate>Fri, 19 Oct 2012 20:28:11 +0000</pubDate>
		<dc:creator><![CDATA[Thomas Francart]]></dc:creator>
				<category><![CDATA[Linked Data]]></category>
		<category><![CDATA[OWL]]></category>
		<category><![CDATA[RDF]]></category>
		<category><![CDATA[SPARQL]]></category>
		<category><![CDATA[web de données]]></category>
		<category><![CDATA[web sémantique]]></category>

		<guid isPermaLink="false">http://blog.sparna.fr/?p=214</guid>
		<description><![CDATA[<p>Fondamentalement, les technologies du web de données (&#171;&#160;linked data&#160;&#187;) apportent 3 bénéfices : (i) elles permettent de manipuler ou de publier des données dans un environnement distribué, (ii) elles ne recquierent pas de modèle de données et (iii) elles permettent de faire de l&#8217;inférence, de trouver des nouveaux liens. Par conséquent, les projets où le&#8230;</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2012/10/19/benefices-cles-des-technologies-du-web-de-donnees-12-lenvironnement-distribue/">Bénéfices clés des technologies du web de données 1/2 &#8211; l&rsquo;environnement distribué</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></description>
				<content:encoded><![CDATA[<p>Fondamentalement, les technologies du web de données (&laquo;&nbsp;linked data&nbsp;&raquo;) apportent 3 bénéfices : (i) elles permettent de <strong>manipuler ou de publier des données dans un environnement distribué</strong>, (ii) elles ne <strong>recquierent pas de modèle de données</strong> et (iii) elles permettent de <strong>faire de l&rsquo;inférence</strong>, de trouver des nouveaux liens.</p>
<p style="text-align: justify;">Par conséquent, les projets où le modèle de données est stable et qui n&rsquo;ont ni besoin d&rsquo;intégrer des données provenant d&rsquo;autres systèmes, ni besoin de fournir leurs données à d&rsquo;autres systèmes, n&rsquo;ont pas de bénéfice à utiliser cette approche. Elle a tout son sens notamment dans les projets d&rsquo;ouverture des données, d&rsquo;open data (la donnée est distribuée et les modéles hétérogènes) mais il faut y sensibiliser les acteurs. J&rsquo;examine dans ce premier post le premier de ces 3 bénéfices : un réseau de données décentralisées, distribuées.</p>
<p style="text-align: justify;"><span id="more-214"></span></p>
<p style="text-align: justify;"><span style="font-size: medium;"><strong>L&rsquo;environnement distribué, ADN du web</strong></span></p>
<p>Tout comme l&rsquo;hypertexte a révolutionné les contenus et les documents dans un contexte distribué (la façon de les écrire, de les diffuser, d&rsquo;y naviguer), le web de données &#8211; on pourrait parler d&rsquo; &laquo;&nbsp;<strong>hyperdonnées</strong>&nbsp;&raquo; ou d&rsquo; &laquo;&nbsp;hyperdata&nbsp;&raquo; pour faire le paralelle &#8211; permet de prolonger encore cette approche en l&rsquo;appliquant aux données des applications. C&rsquo;est-à-dire <strong>en mettant en relation les données dans un environnement distribué</strong>.</p>
<p style="text-align: justify;"><span style="text-decoration: underline;"><em>Interrogation fédérée des données</em></span></p>
<p style="text-align: justify;">Cet aspect distribué permet une <strong>interrogation fédérée des données</strong>. Plus la peine d&rsquo;avoir toutes les données au même endroit pour les interroger. Dans le monde SGBD+SQL, pour interroger plusieurs sources de données, on doit forcément les avoir dans le même système. En RDF+SPARQL, le mot-clé <a href="http://www.w3.org/TR/sparql11-federated-query/" target="_blank">SERVICE</a> permet d&rsquo;envoyer des critères de recherche à des sources de données différentes, et de combiner les résultats en une seule requête. Un exemple de requête sur le web de données est &laquo;&nbsp;donne-moi la date de naissance des acteurs de Star-Trek&nbsp;&raquo; (une première source de données a l&rsquo;info des acteurs de Star-Trek, une source différente a leur date de naissance).</p>
<p style="text-align: justify;"><span style="text-decoration: underline;"><em>Interconnection des données</em></span></p>
<p style="text-align: justify;">Cette approche distribuée permet également de <strong>combiner des données enfouies dans des systèmes propriétaires pour les réutiliser ensemble</strong>. Vous savez, c&rsquo;est quand la comptable aimerait bien recouper des infos de facturation qui sont dans un CRM du genre SAP avec les feuilles de temps des employés qui sont dans une base Oracle&#8230; au XXème siècle on lui dit gentiment que ce n&rsquo;est pas possible, au XXIème siècle on ajoute un <a href="http://www.w3.org/2001/sw/rdb2rdf/implementation-report/" target="_blank">middleware relationnel vers RDF</a>, et hop, soit en utilisant une requête fédérée avec SERVICE (voir plus haut), soit en intégrant les données ainsi traduites dans un triplestore (voir le prochain post), le recoupement d&rsquo;informations devient possible.</p>
<p style="text-align: justify;">La même problématique se retrouve dans l&rsquo;open data; comment utiliser ensemble des données sur les lycées, celles sur les collèges et les écoles, et d&rsquo;autres sur la population pour créer une (hypothétique) application qui montrerait la carte scolaire ? en ayant normalisé ces données qui parlent de la même chose (&laquo;&nbsp;établissement&nbsp;&raquo;, &laquo;&nbsp;nombre d&rsquo;élèves&nbsp;&raquo;, &laquo;&nbsp;latitude&nbsp;&raquo;,  &laquo;&nbsp;longitude&nbsp;&raquo;, etc&#8230;), et en ayant fait des liens entre elles (&laquo;&nbsp;le collège se trouve dans le quartier X&nbsp;&raquo;, et &laquo;&nbsp;le quartier X a tant d&rsquo;habitants&nbsp;&raquo;). Notons que <strong>les bénéfices de cette mise en commun des données sont autant pour les utilisateurs des données que pour les collectivités elles-mêmes</strong> qui vont avoir accès en un point central à des données auparavant hétérogènes.</p>
<p style="text-align: justify;"><span style="text-decoration: underline;"><em>Enrichissement des données</em></span></p>
<p style="text-align: justify;">L&rsquo;interconnection des données permet de <strong>tirer parti des données qui viennent de l&rsquo;extérieur du système développé</strong>. On peut ainsi enrichir un système interne qui utilise les technologies du web de données par des informations venant de sources de données externes : une photo provenant de <a href="http://fr.dbpedia.org/" target="_blank">DBPedia</a>, une arborescence géographique provenant de <a href="http://www.geonames.org/" target="_blank">Geonames</a> (&laquo;&nbsp;France &gt; Champagne-Ardenne &gt; Marne &gt; Arrondissement d&rsquo;Epernay &gt; Epernay&nbsp;&raquo;), les listes d&rsquo;ouvrages d&rsquo;un auteur provenent de la <a href="http://data.bnf.fr" target="_blank">BNF</a>, etc.</p>
<p><span style="text-decoration: underline;"><em>Qu&rsquo;est-ce qui permet cet aspect distribué ?</em></span></p>
<p style="text-align: justify;">Cette distribution n&rsquo;est possible que parce qu&rsquo;un certain nombre d&rsquo;efforts ont été fait pour obtenir <strong>un accès unifié aux données</strong>. Cet accès unifié aux données passe notamment par :</p>
<ul style="text-align: justify;">
<li>Une <strong>identification de chaque objet</strong> avec une URI, et la possibilité d&rsquo;accéder aux données de cet objet simplement en &laquo;&nbsp;appellant&nbsp;&raquo; cette URI. Pas besoin d&rsquo;une requête compliquée ou d&rsquo;un protocole d&rsquo;accès obscur, <strong>on utilise HTTP, le protocole du web</strong>; si on veut &laquo;&nbsp;référencer&nbsp;&raquo; un objet dans nos données, on indique simplement son URI;</li>
<li>Un <strong>protocole d&rsquo;interrogation standardisé</strong> : SPARQL. Attention, il y a bien non seulement le langage d&rsquo;interrogation SPARQL, lui-même bien mieux normalisé que SQL dont les multiples variantes ne facilitent pas les migrations d&rsquo;un outil vers un autre, mais également le protocole d&rsquo;interrogation, qui permet d&rsquo;interroger n&rsquo;importe quelle source de données de façon standard, sans avoir besoin d&rsquo;un quelconque &laquo;&nbsp;driver&nbsp;&raquo; comme en SQL.</li>
</ul>
<p style="text-align: justify;">Ces efforts de standardisation ont par ailleurs des &laquo;&nbsp;effets de bord&nbsp;&raquo; positifs :</p>
<ul style="text-align: justify;">
<li>une <strong>plus grande indépendance vis-à-vis des outils</strong>. Si le protocole et le langage de requête sont standards, il est possible de commencer à utiliser des outils gratuits (Sesame, Jena) en phase de prototypage et de passer ensuite de façon transparente sur des outils commerciaux sans rien redévelopper;</li>
<li>l&rsquo;interrogation des données se faisant par le protocole HTTP, <strong>il est très facile de déployer un système de cache HTTP</strong> pour améliorer les temps de réponse. Ces outils de cache (par exemple <a href="http://www.squid-cache.org/">Squid</a>) sont largement connus et déployés par les administrateurs systèmes, là où les mécanismes de cache au niveau d&rsquo;une base de données sont plus compliqués à mettre en oeuvre (outils propriétaires et plus bas niveau).</li>
</ul>
<p style="text-align: justify;"><strong>L&rsquo;aspect décentralisé est dans l&rsquo;ADN du web. Il est normal qu&rsquo;il s&rsquo;applique aux données</strong> après s&rsquo;être appliqué aux documents. Il est également normal de parler de préférence de &laquo;&nbsp;web de données&nbsp;&raquo;, et non pas de web &laquo;&nbsp;sémantique&nbsp;&raquo;, adjectif vague, aux promesses floues qu&rsquo;il faut sans cesse expliquer; le terme &laquo;&nbsp;web de données&nbsp;&raquo; est mieux défini et ses promesses plus concrètes.</p>
<p style="text-align: justify;">Dans la <a title="Bénéfices clés des technologies du web de données 2/2 – absence de modèle, raisonnement" href="http://blog.sparna.fr/benefices-cles-des-technologies-du-web-de-donnees-22-absence-de-modele-raisonnement/">deuxième partie</a> j&rsquo;examinerai les deux autres bénéfices clés des technologies du web de données : l&rsquo;<strong>absence de schéma</strong> et les possibilités de<strong> raisonnement</strong>.</p>
<div class="zemanta-pixie" style="margin-top: 10px; height: 15px;"><img class="zemanta-pixie-img" style="border: none; float: right;" src="http://img.zemanta.com/pixy.gif?x-id=81fac854-6447-40b8-9847-36809ae200ec" alt="" /></div>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2012/10/19/benefices-cles-des-technologies-du-web-de-donnees-12-lenvironnement-distribue/">Bénéfices clés des technologies du web de données 1/2 &#8211; l&rsquo;environnement distribué</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></content:encoded>
			<wfw:commentRss>https://blog.sparna.fr/2012/10/19/benefices-cles-des-technologies-du-web-de-donnees-12-lenvironnement-distribue/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Open data et web de données : convergence ?</title>
		<link>https://blog.sparna.fr/2012/10/11/open-data-et-web-de-donnees-convergence/</link>
		<comments>https://blog.sparna.fr/2012/10/11/open-data-et-web-de-donnees-convergence/#comments</comments>
		<pubDate>Thu, 11 Oct 2012 20:16:38 +0000</pubDate>
		<dc:creator><![CDATA[Thomas Francart]]></dc:creator>
				<category><![CDATA[Linked Data]]></category>
		<category><![CDATA[Open Data]]></category>
		<category><![CDATA[datalift]]></category>
		<category><![CDATA[web de données]]></category>
		<category><![CDATA[web sémantique]]></category>

		<guid isPermaLink="false">http://blog.sparna.fr/?p=202</guid>
		<description><![CDATA[<p>L&#8217;open data rencontre des problématiques d&#8217;interopérabilité, d&#8217;interconnexion entre les données, de cohérence de formats, d&#8217;accès atomiques aux données. Les standards du web de données proposent des solutions à ces questions, l&#8217;objectif étant toujours de maximiser la réutilisation des données. Le web de données, de son côté, n&#8217;a jamais permis autre chose que la diffusion et&#8230;</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2012/10/11/open-data-et-web-de-donnees-convergence/">Open data et web de données : convergence ?</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></description>
				<content:encoded><![CDATA[<p>L&rsquo;open data rencontre des problématiques d&rsquo;interopérabilité, d&rsquo;interconnexion entre les données, de cohérence de formats, d&rsquo;accès atomiques aux données. Les standards du web de données proposent des solutions à ces questions, l&rsquo;objectif étant toujours de maximiser la réutilisation des données.</p>
<p>Le web de données, de son côté, n&rsquo;a jamais permis autre chose que la diffusion et l&rsquo;interconnexion de données à l&rsquo;échelle du web. Il aura fallu attendre la libération des données publiques pour que cet enjeu devienne clair. L&rsquo;open data offre le cas d&rsquo;usage idéal pour le web de données &#8211; <strong>car en fait, on pourrait presque dire que ces 2 mots désignent la même chose et ont le même objectif</strong>.</p>
<p>Soyons clair : avancer vers les technologies du web de données, pour un producteur de données, <strong>demande un effort supplémentaire</strong>. Que peut-il en attendre ? J&rsquo;y vois 5 enjeux :</p>
<ol>
<li><strong>Devenir un producteur de données de référence</strong>. La possibilité offerte par les standards du web de données de faire des liens entre les instances décrites dans les données, permettent à un producteur d&rsquo;obtenir des liens entrants vers ses données, devenant ainsi un &laquo;&nbsp;hub&nbsp;&raquo;, un acteur central dans le réseau de données. C&rsquo;est un enjeu stratégique : <strong>si vous n&rsquo;ouvrez pas vos données aujourd&rsquo;hui, d&rsquo;autres le feront à votre place</strong>, et deviendront les référents.</li>
<li><strong>L&rsquo;enrichissement de ses données avec celles des autres</strong>; La possibilité de relier les éléments décrits dans les données à d&rsquo;autres, comme celles de la <a href="http://data.bnf.fr">BNF</a>, de l&rsquo;<a href="http://data.insee.fr">INSEE</a>, d&rsquo;<a href="http://eurovoc.europa.eu">Eurovoc</a>, de <a href="http://dbpedia.org">DBPedia</a>, va permettre aux consommateurs des données de suivre ces liens et d&rsquo;enrichir le système qu&rsquo;ils construisent avec ces nouvelles données.</li>
<li>La normalisation de son catalogue de données au format <a href="http://www.w3.org/2011/gld/wiki/Data_Catalog_Vocabulary">DCAT</a>, le rendant ainsi <strong>interopérable avec les catalogues des autres producteurs</strong>. Cela améliore la visibilité et la réutilisation du catalogue des datasets.</li>
<li><strong>La réutilisation de modèles existants</strong> pour décrire les données; les données publiées depuis 10 ans couvrent de nombreux domaines du savoir, et la problématique de description de beaucoup de données a donc déjà été traitée. De nombreux vocabulaires sont déjà disponibles (sur le <a href="http://lov.okfn.org/dataset/lov/">LOV</a> par exemple) et prêts à l&rsquo;emploi pour décrire le contenu des données.</li>
<li><strong>Le bénéfice d&rsquo;outils existants</strong>, et de futures évolutions. Poussé par le W3C, les standards du web de données sont ouverts, pérennes, et formeront la base d&rsquo;autres technologies, par exemple pour indiquer la traçabilité et les versions des données. Les outils compatibles avec ces standards existent et continueront d&rsquo;exister.</li>
</ol>
<p>Y a-t-il, y aura-t-il convergence ? les projets de recherche comme <a href="http://datalift.org">Datalift</a> proposent des outils basés sur les technologies du web de données pour que les producteurs de données &laquo;&nbsp;sémantisent&nbsp;&raquo; les données. Et moi aussi, <a href="http://sparna.fr/open-data.html">je peux vous aider</a> !</p>
<p><strong>Update</strong></p>
<p>Etalab vient de publier le <a href="http://www.etalab.gouv.fr/article-datalift-camp-resume-d-une-journee-de-formation-action-au-web-semantique-chez-etalab-111328780.html">compte-rendu de l&rsquo;événement &laquo;&nbsp;Datalift Camp&nbsp;&raquo;</a> qui adressaient ces problématiques et dont ces réflexions personnelles sont issues.</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2012/10/11/open-data-et-web-de-donnees-convergence/">Open data et web de données : convergence ?</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></content:encoded>
			<wfw:commentRss>https://blog.sparna.fr/2012/10/11/open-data-et-web-de-donnees-convergence/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
	</channel>
</rss>
