<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Sparna Blog &#187; Open Data</title>
	<atom:link href="https://blog.sparna.fr/category/theme/opendata/feed/" rel="self" type="application/rss+xml" />
	<link>https://blog.sparna.fr</link>
	<description>Web de données &#124; Architecture de l&#039;information &#124; Accès aux connaissances</description>
	<lastBuildDate>Tue, 03 Jun 2025 10:30:27 +0000</lastBuildDate>
	<language>fr-FR</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	
	<item>
		<title>European Parliament Open Data Portal : a SHACL-powered knowledge graph</title>
		<link>https://blog.sparna.fr/2025/04/09/european-parliament-open-data-portal-a-shacl-powered-knowledge-graph/</link>
		<comments>https://blog.sparna.fr/2025/04/09/european-parliament-open-data-portal-a-shacl-powered-knowledge-graph/#comments</comments>
		<pubDate>Wed, 09 Apr 2025 14:10:12 +0000</pubDate>
		<dc:creator><![CDATA[Marie Muller]]></dc:creator>
				<category><![CDATA[Editeurs]]></category>
		<category><![CDATA[FAIR]]></category>
		<category><![CDATA[Linked Data]]></category>
		<category><![CDATA[Non classé]]></category>
		<category><![CDATA[Ontologies]]></category>
		<category><![CDATA[Open Data]]></category>
		<category><![CDATA[SHACL]]></category>
		<category><![CDATA[SHACL Play]]></category>
		<category><![CDATA[api]]></category>
		<category><![CDATA[DCAT]]></category>
		<category><![CDATA[ELI]]></category>
		<category><![CDATA[google spreadsheets]]></category>
		<category><![CDATA[json-ld]]></category>
		<category><![CDATA[knowledge graph]]></category>
		<category><![CDATA[SKOS]]></category>
		<category><![CDATA[SPARQL]]></category>

		<guid isPermaLink="false">https://blog.sparna.fr/?p=1959</guid>
		<description><![CDATA[<p>A second usecase Thomas wrote for Veronika Heimsbakk’s SHACL for the Practitioner upcoming book is about Sparna&#8217;s work for the European Parliament. From validation of the data in the knowledge graph to further projects of data integration and dissemination, many different usages of SHACL specifications were explored&#8230; &#8230; and more exploratory usages of SHACL are foreseen ! “&#8230;</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2025/04/09/european-parliament-open-data-portal-a-shacl-powered-knowledge-graph/">European Parliament Open Data Portal : a SHACL-powered knowledge graph</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></description>
				<content:encoded><![CDATA[<p>A second usecase Thomas wrote for Veronika Heimsbakk’s <em><a href="https://veronahe.wordpress.com/shacl-for-the-practitioner/">SHACL for the Practitioner</a></em> upcoming book is about Sparna&rsquo;s work for the European Parliament.</p>
<p>From validation of the data in the knowledge graph to further projects of data integration and dissemination, many different usages of SHACL specifications were explored&#8230;</p>
<p>&#8230; and more exploratory usages of SHACL are foreseen !</p>
<h1>“</h1>
<h2><strong>A knowledge-graph powered open data portal</strong></h2>
<p><a href="https://data.europarl.europa.eu/">The European Parliament Open Data Portal (EPODP)</a> went live in January 2023. Its particularity is that it is not a mere aggregation of documents or dump files from business applications in custom formats; but rather a <strong>collection of datasets each extracted from a central semantic knowledge graph</strong>, itself aggregating data migrated from approximately <strong>twenty business applications</strong>. The result is a semantically interoperable open data portal : the semantic of its data model is clearly defined and documented, and reuses widely deployed existing ontologies. It already provides its data to different consumers (most notably <a href="https://www.europarl.europa.eu/">the europarl website</a> and <a href="https://law-tracker.europa.eu/">the EU law tracker</a>) in a context of cross-institutions interoperability. The data captures the activity of the parliament : as co-legislator together with the Council of the EU, the European Parliament (EP) holds plenary sittings, in which reports originating from committees, as well as motion for resolutions, are amended and voted; after the vote, the final adopted texts are published.</p>
<p>The focus on semantic interoperability of EPODP maximizes the potential of reuse and linkage of its datasets, and <strong>maximizes the quality</strong> of the offered data. It comes however at a cost when building the portal : deep analysis and understanding of the existing data and documents structure is required to capture the business semantic. SHACL is the way to formally encode this business semantic &#8211; but how is it deployed in practice ? how is it maintained ? what are the different types of SHACL specifications used ?</p>
<h2><strong>SHACL at the center of a model-driven approach</strong></h2>
<p>SHACL in the EPODP is at the basis of multiple model-driven usages depicted in the following diagram:</p>
<p><a href="https://blog.sparna.fr/wp-content/uploads/2025/04/spec-SHACL.png"><img class="aligncenter size-large wp-image-1961" src="https://blog.sparna.fr/wp-content/uploads/2025/04/spec-SHACL-1024x508.png" alt="spec-SHACL" width="650" height="322" /></a></p>
<p>There was two key drivers for introducing the use of SHACL in the EPODP project : <strong>validation of the data</strong> in the knowledge graph, and <strong>generation of public documentations</strong> of the models. The same SHACL specification that captures the business semantic is directly actionable to be published as a documentation and to validate the data. The produced documentation is a set of public files, such as <a href="https://data.europarl.europa.eu/def/eli-ep">the ELI-EP application profile documentation</a> and others accessible from <a href="https://data.europarl.europa.eu/en/developer-corner">the EPODP developer&rsquo;s corner</a>. <a href="https://shacl-play.sparna.fr/play/doc">The SHACL Play documentation generator</a> is used to produce the documentation pages. Data validation happens at earlier stages, after data transformation steps.</p>
<p>Two additional usages of SHACL specifications were explored : one was to generate SPARQL queries to extract the content of datasets from the larger knowledge graph. The SHACL specification of a dataset content is interpreted to generate SPARQL CONSTRUCT queries, executed against the entire knowledge graph, to return a subset of data corresponding to the specification. The query generation was implemented <a href="https://shacl-play.sparna.fr/play/sparql">in SHACL Play</a>, however the EPODP chose to continue using manually crafted SPARQL queries to generate the datasets. The other usage was to complement the SHACL specifications with the mapping rules used to feed the corresponding properties or classes in the graph. This has the advantage that the mapping rules are documented and maintained alongside the specification and not in a separate document. This work is ongoing.</p>
<p>More exploratory usages of SHACL are foreseen : generating a query user interface based on the SHACL specification, <a href="https://docs.sparnatural.eu/how-to-configure-shacl/How-to-configure-Sparnatural-shacl.html">using the <strong>Sparnatural</strong> query builder</a>, and also input forms to facilitate the creation of DCAT datasets descriptions. Additionally, automated generation of the JSON-LD context and the JSON schema of the API are foreseen.</p>
<h2><strong>Not &laquo;&nbsp;1 SHACL to rule them all&nbsp;&raquo;, but application profiles, dataset definitions, and migration specifications</strong></h2>
<p>The definition of the EPODP knowledge graph is not captured in a single SHACL specification, but rather in three different application profiles, each being a selection of classes and properties of one sub-domain : <strong><a href="https://data.europarl.europa.eu/def/eli-ep">ELI-EP</a></strong> covers the description of documents and activities, <strong><a href="https://data.europarl.europa.eu/def/org-ep">ORG-EP</a></strong> covers the definitions of EP organisations (such as committees, political groups, etc.) and members of the parliament, and <strong><a href="https://europarl.github.io/skos-ep">SKOS-EP</a></strong> covers how controlled vocabularies are structured. In addition, <a href="https://data.europarl.europa.eu/def/dcat-ep">DCAT-EP</a> is the specification for how dataset records are described in the EPODP catalog &#8211; but this is not part of the knowledge graph <em>per se</em>.</p>
<p>Together, ELI-EP, ORG-EP and SKOS-EP specify the structure of the entire knowledge graph from which the datasets are extracted. In addition, the structure of each dataset family available in the EPODP (such as adopted texts, plenary documents, parliamentary questions, etc.) is also described in SHACL, referred to as <strong>&laquo;&nbsp;DSD&nbsp;&raquo; for &laquo;&nbsp;Dataset Definition&nbsp;&raquo;</strong>. While the application profiles describe every possible properties on generic shapes, the DSDs will specify only the subset of properties used in a dataset, with possibly different cardinalities or range. For example, ELI-EP specifies that <em>&laquo;&nbsp;a Work may have the property</em><em> </em><em>eli:adopts</em><em>&laquo;&nbsp;</em> (with no minimum cardinality (eli:adopts is defined as <em>&laquo;&nbsp;Indicates that the work represents the adopted work of one or several related works&nbsp;&raquo;</em>). The DSD for adopted texts datasets specifies the shape of &laquo;&nbsp;Adopted texts&nbsp;&raquo; as a subset of the Works, and indicates that the minimum cardinality of eli:adopts is 1 for this particular subset. Besides, some properties, such as eli:amends are not available for adopted texts, thus not declared in the DSD.</p>
<p>In addition, specifications of the conversion of some data sources are also specified in independent SHACL files. The articulations of these 3 kinds of SHACL files and the reused ontologies is depicted in the following diagram:</p>
<p><a href="https://blog.sparna.fr/wp-content/uploads/2025/04/3-SHACL-shapes.png"><img class="aligncenter size-large wp-image-1962" src="https://blog.sparna.fr/wp-content/uploads/2025/04/3-SHACL-shapes-1024x603.png" alt="3-SHACL-shapes" width="650" height="383" /></a></p>
<p>There is currently no reuse or reference of shapes across the different specifications. Each is independent. A nice improvement would be to study how SHACL DSDs could be derived from the application profile SHACL, without redeclaring the identical constraints.</p>
<h2><strong>Editing SHACL in spreadsheets</strong></h2>
<p>In total 16 SHACL specifications are currently published in the EPODP, and around 80 are used to validate data migrated from each individual sources. The first step in the specification of each model is the design in a diagram such as the ones visible in the public documentations of the models. The EPODP team is then using spreadsheets to encode the specifications, adapted from the one provided <a href="https://shacl-play.sparna.fr/play/shaclexcel">in the SHACL Play suite</a>. The spreadsheet is converted to SHACL using <a href="https://xls2rdf.sparna.fr/rest/">the xls2rdf converter</a>. <strong>Spreadsheets provide a simple editing solution</strong>, with an easy learning curve, made even easier with a few formulas to compute cell values automatically. It even provides ways for editing advanced patterns (such as the ability to directly turtle lists for sh:or, or blank nodes for property paths), but of course still limits the expressivity. The following screenshot shows how property shapes look like in the spreadsheet:</p>
<p><a href="https://blog.sparna.fr/wp-content/uploads/2025/04/properties-ELI.png"><img class="aligncenter size-large wp-image-1963" src="https://blog.sparna.fr/wp-content/uploads/2025/04/properties-ELI-1024x442.png" alt="properties-ELI" width="650" height="281" /></a></p>
<h2></h2>
<h2><strong>Results and future perspectives</strong></h2>
<p>The EPODP use-case shows how SHACL can be applied in a systematic way in a data integration and dissemination project : at the data transformation step, at the knowledge graph level, and at the data dissemination. <strong>Public documentation, data validation, data extraction are tasks that can be be automated based on a SHACL specification</strong>. While the context is one of a large public institution, the same approach can be applied in industrial contexts. The SHACL specifications are a cornerstone of such projects, enabling semantic interoperability at large and a mutual understanding between business experts, data analysts, developers, and data consumers.</p>
<p>&nbsp;</p>
<h1>”</h1>
<p>Veronika&rsquo;s book will be divided into three parts :<br class="html-br" /><br class="html-br" />1. Back to Basics<br class="html-br" />Introduction to logic and RDF, brief skimming of the topics. Also covering various world assumptions.</p>
<p>2. Getting to know the stuff<br class="html-br" />Introduction to SHACL, including core, sh-sparql, advanced features.</p>
<p>3. Working with the stuff<br class="html-br" />SHACL Stories. Use cases, user stories and implementations.</p>
<p><em>Image : © European Union, [2024] &#8211; EP</em></p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2025/04/09/european-parliament-open-data-portal-a-shacl-powered-knowledge-graph/">European Parliament Open Data Portal : a SHACL-powered knowledge graph</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></content:encoded>
			<wfw:commentRss>https://blog.sparna.fr/2025/04/09/european-parliament-open-data-portal-a-shacl-powered-knowledge-graph/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>The Genesis of Sparnatural in the context of the OpenArchaeo platform</title>
		<link>https://blog.sparna.fr/2025/03/28/the-genesis-of-sparnatural-in-the-context-of-the-openarchaeo-platform/</link>
		<comments>https://blog.sparna.fr/2025/03/28/the-genesis-of-sparnatural-in-the-context-of-the-openarchaeo-platform/#comments</comments>
		<pubDate>Fri, 28 Mar 2025 14:54:53 +0000</pubDate>
		<dc:creator><![CDATA[Marie Muller]]></dc:creator>
				<category><![CDATA[FAIR]]></category>
		<category><![CDATA[Linked Data]]></category>
		<category><![CDATA[Ontologies]]></category>
		<category><![CDATA[Open Data]]></category>
		<category><![CDATA[Recherche d'informations]]></category>
		<category><![CDATA[Sparnatural]]></category>
		<category><![CDATA[SPARQL]]></category>
		<category><![CDATA[Triplestores]]></category>
		<category><![CDATA[CIDOC-CRM]]></category>
		<category><![CDATA[Huma-Num]]></category>
		<category><![CDATA[ResearchSpace]]></category>
		<category><![CDATA[thesaurus]]></category>
		<category><![CDATA[Triplestore]]></category>

		<guid isPermaLink="false">https://blog.sparna.fr/?p=1949</guid>
		<description><![CDATA[<p>The OpenArchaeo platform, developed by French consortium Huma-Num MASAplus (Mémoire des Archéologues et des Sites Archéologiques) together with SPARNA, is a platform dedicated to archaeological data interoperability. This semantic interoperability objective relies on the strong conceptual foundations offered by the CIDOC-CRM data model. Paired with the CIDOC-CRM in a federated way, OpenArchaeo aims at :&#8230;</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2025/03/28/the-genesis-of-sparnatural-in-the-context-of-the-openarchaeo-platform/">The Genesis of Sparnatural in the context of the OpenArchaeo platform</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></description>
				<content:encoded><![CDATA[<p>The <a href="http://openarchaeo.huma-num.fr">OpenArchaeo</a> platform, developed by French <a href="https://www.huma-num.fr/les-consortiums-hn/#MASAplus">consortium Huma-Num MASAplus</a> (Mémoire des Archéologues et des Sites Archéologiques) together with SPARNA, is a platform dedicated to archaeological data interoperability. This semantic interoperability objective relies on the strong conceptual foundations offered by the <a href="https://blog.sparna.fr/2019/03/26/le-cidoc-crm-ne-nous-arrachons-plus-les-cheveux/">CIDOC-CRM</a> data model.</p>
<p>Paired with the CIDOC-CRM in a federated way, OpenArchaeo aims at :</p>
<ul>
<li>making available the archaeological datasets produced by the MASAplus consortium’s partners on the semantic web, in the form of a triplestore with data aligned with the ontology and its extensions dedicated to archaeology ;</li>
<li>providing an intuitive query interface for archaeological data.</li>
</ul>
<p>The latter query interface integrates the Sparnatural knowledge graph exploration component. The UI of this component was heavily inspired by the British Museum&rsquo;s ResearchSpace semantic search feature, as the system proposes the user to build his own queries based on the CIDOC-CRM model underlying the data.</p>
<h2>About ResearchSpace platform</h2>
<p>Initiated in 2009 by a cross-disciplinary team at the British Museum, ResearchSpace is « A full CIDOC-CRM authoring and search system, based on an exhaustive collection of forms that reflects all applicable relationships from the CIDOC CRM ontology. »</p>
<p>Among a wide range of semantic tools to create, manipulate, analyse and visualise data, the platform provides a s<a href="https://documentation.researchspace.org/resource/Help:SemanticSearch">emantic structured search component</a> based on categories and relations.</p>
<p>While open source, ResearchSpace’s code didn’t fit our architecture : we just chose to follow the simple visual elements of ResearchSpace’s query interface to develop our own Sparnatural query builder for OpenArchaeo, and set up a system of icons to identify the main components of the archaeological data.</p>
<p>ResearchSpace has recently (december 2024) released a brand new <a href="https://github.com/researchspace/researchspace/blob/master/release-notes.md">4.0.0 version</a>. This latest can be installed easily and now comes with a default setup of forms based on the CIDOC-CRM. It enables image annotations, knowledge maps creations, semantic narratives writing, timeline productions, and more <a href="https://researchspace.org/semantic-tools/">semantic tools</a>.</p>
<h2>Sparnatural’s first use-case was OpenArchaeo’s CIDOC-CRM model !</h2>
<p><a href="http://openarchaeo.huma-num.fr/explorateur/home">The structure of the knowledge graph of OpenArchaeo</a> relies on the CIDOC-CRM and some of its extension (CRMarchaeo, CRMsci and CRMba). It is a generic model that covers the basic concepts found in most archaeological corpuses (site, operation, structure, feature, wall, burial, stratigraphic unit and artifact).</p>
<p>Here a focus on Class S19 :</p>
<p><a href="https://blog.sparna.fr/wp-content/uploads/2025/03/modeleOpenArchaeoEn_base.png"><img class="aligncenter size-full wp-image-1950" src="https://blog.sparna.fr/wp-content/uploads/2025/03/modeleOpenArchaeoEn_base.png" alt="modeleOpenArchaeoEn_base" width="898" height="416" /></a><br />
Several external thesauri were added too for querying the datasets : <a href="https://pactols.frantiq.fr/">PACTOLS thesaurus for archaelogy</a>, but also <a href="https://www.geonames.org/ontology/documentation.html">Geonames</a> and <a href="https://perio.do/technical-overview/">Periodo</a> for spatial and temporal searches.</p>
<p>This way, when users wish to connect two elements (artifact and site for example), the interface automatically suggests the available relationships between these entities, enabling users to formulate their request in a simple way without having to know either the entities and properties of CIDOC CRM, or the structure of the system : the SPARQL queries that correspond to the sentences visually built by users will be automatically computed. In addition, the usage of thesauri allows the users to cross-reference easily multiple datasets through the different widgets proposed in Sparnatural.</p>
<h2><a href="https://github.com/sparna-git/Sparnatural/releases">Get the latest release of Sparnatural !</a></h2>
<p>Since it was created for OpenArchaeo in 2019, Sparnatural UI has been fully redesigned. It now offers a large panel of features, from different <a href="https://docs.sparnatural.eu/widgets.html">widgets for value selection</a> (dropdown lists, ordered by occurrence count or alphabetically, autocomplete search fields, date pickers, tree widgets&#8230;) to brand new <a href="https://docs.sparnatural.eu/result-display.html">result display plugins</a> : the default visualisation is a table of results, but if the results are geolocalized they can be shown in a map. Also grid, stats, pie or bar charts, and a timeline plugin have been made available and documented.</p>
<h2>To go further on OpenArchaeo’s platform &#8230;</h2>
<p><a href="https://www.youtube.com/watch?v=8GW5sirwHJs">See a presentation of the project on the CIDOC Museum Documentation Channel</a><br />
(« Semantic modelling of archaeological data online workshop series »)</p>
<p>The platform : <a href="http://openarchaeo.huma-num.fr/">http://openarchaeo.huma-num.fr/</a></p>
<p>The project : <a href="https://masa.hypotheses.org/openarchaeo">https://masa.hypotheses.org/openarchaeo</a></p>
<p>Read full research paper about the project : <a href="https://ceur-ws.org/Vol-2375/paper1.pdf">https://ceur-ws.org/Vol-2375/paper1.pdf</a></p>
<p><em>Image : Vestiges of a large villa in Courbehaye &laquo;&nbsp;les Deux Muids / le Moulin de Mongé&nbsp;&raquo;, photo Alain Lelong (2003), <a href="https://aerba.huma-num.fr/fiche.html?id=2811401">Atlas des Établissements Ruraux de Beauce Antique</a>, licence </em><a href="https://creativecommons.org/licenses/by-nc-sa/4.0/">CC BY-NC-SA</a></p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2025/03/28/the-genesis-of-sparnatural-in-the-context-of-the-openarchaeo-platform/">The Genesis of Sparnatural in the context of the OpenArchaeo platform</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></content:encoded>
			<wfw:commentRss>https://blog.sparna.fr/2025/03/28/the-genesis-of-sparnatural-in-the-context-of-the-openarchaeo-platform/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>CORDIS : a SPARQL endpoint is born !</title>
		<link>https://blog.sparna.fr/2024/01/15/cordis-a-sparql-endpoint-is-born/</link>
		<comments>https://blog.sparna.fr/2024/01/15/cordis-a-sparql-endpoint-is-born/#comments</comments>
		<pubDate>Mon, 15 Jan 2024 08:55:41 +0000</pubDate>
		<dc:creator><![CDATA[Marie Muller]]></dc:creator>
				<category><![CDATA[Linked Data]]></category>
		<category><![CDATA[Ontologies]]></category>
		<category><![CDATA[Open Data]]></category>
		<category><![CDATA[SPARQL]]></category>
		<category><![CDATA[Thesaurus]]></category>
		<category><![CDATA[Triplestores]]></category>
		<category><![CDATA[Visualisation de données]]></category>
		<category><![CDATA[endpoint]]></category>
		<category><![CDATA[Europe]]></category>
		<category><![CDATA[Linked Open Data]]></category>
		<category><![CDATA[ontologie]]></category>
		<category><![CDATA[ontologies]]></category>
		<category><![CDATA[thesaurus]]></category>

		<guid isPermaLink="false">http://blog.sparna.fr/?p=1615</guid>
		<description><![CDATA[<p>Another star to light on EU&#8217;s linked open data maturity flag ! 🌟 Not talking about 2024 exceptional Northern Lights to come, but this one&#8217;s also good news for science ! ➡️ Late 2023, the Publications Office of the European Union announced on social media the public release of the new CORDIS SPARQL endpoint. CORDIS, aka « the Community&#8230;</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2024/01/15/cordis-a-sparql-endpoint-is-born/">CORDIS : a SPARQL endpoint is born !</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></description>
				<content:encoded><![CDATA[<p><span style="font-weight: 400;">Another star to light on EU&rsquo;s linked open data maturity flag ! <img src="https://s.w.org/images/core/emoji/72x72/1f31f.png" alt="🌟" class="wp-smiley" style="height: 1em; max-height: 1em;" /></span></p>
<p><span style="font-weight: 400;">Not talking about 2024 exceptional <a href="https://www.nationalgeographic.com/science/article/auroras-solar-maximum-2024">Northern Lights to come,</a> </span><span style="font-weight: 400;">but this one&rsquo;s also good news for science !</span></p>
<p><span style="font-weight: 400;">➡️ Late 2023, </span><span style="font-weight: 400;">the Publications Office of the European Union</span><span style="font-weight: 400;"> <a href="https://twitter.com/CORDIS_EU/status/1726865540143276079">announced on social media</a> </span><span style="font-weight: 400;">the public release of </span><strong><a href="https://cordis.europa.eu/datalab/sparql-endpoint">the new CORDIS SPARQL endpoint</a></strong><span style="font-weight: 400;">.</span></p>
<p><span style="font-weight: 400;">CORDIS, aka « </span><span style="font-weight: 400;">t</span><span style="font-weight: 400;">he Community Research and Development Information Service </span><span style="font-weight: 400;">of</span><span style="font-weight: 400;"> the European Commission</span><span style="font-weight: 400;"> », is « </span><em><a href="https://cordis.europa.eu/about"><span style="font-weight: 400;">the [&#8230;] primary source of results from the projects funded by the EU&rsquo;s framework programmes for research and innovation, from FP1 to Horizon Europe</span></a></em><span style="font-weight: 400;"> ». Described as a « <em>rich and structured public repository with all project information held by the European Commission such as project factsheets, participants, reports, deliverables and links to open-access publications</em> », the CORDIS catalog has also been made available in 6 European languages by Publications Office&rsquo;s editorial team.</span></p>
<p><span style="font-weight: 400;">Cherry on top <img src="https://s.w.org/images/core/emoji/72x72/1f352.png" alt="🍒" class="wp-smiley" style="height: 1em; max-height: 1em;" /> of a whole process, the CORDIS SPARQL endpoint release comes to crown a long-term linked open data project. The aim identifying, acquiring, preserving and providing access to knowledge in a common will to share with the widest public possible a trust-worthy, qualified and structured information (see </span><a href="https://op.europa.eu/webpub/op/annual-management-report-2021/en/"><span style="font-weight: 400;">Publications Office 2021 Annual Management Report</span></a><span style="font-weight: 400;">).</span></p>
<p><span style="font-weight: 400;">In the context of the pandemic (and recent opening of <a href="https://data.europa.eu/en">data.europa.eu</a>, the official portal for European data, as defined in 2017–2025 European Open Data Space strategy), </span><a href="https://data.europa.eu/data/datasets/euroscivoc-the-european-science-vocabulary?locale=en"><span style="font-weight: 400;">the EuroSciVoc taxonomy of fields of science</span></a><span style="font-weight: 400;"> was released April 2020, followed December 2021 by the publishing of </span><a href="https://data.europa.eu/data/datasets/european-research-information-ontology?locale=en"><span style="font-weight: 400;">European research information ontology (EURIO)</span></a><span style="font-weight: 400;"> on the EU Vocabularies website <img src="https://s.w.org/images/core/emoji/72x72/1f310.png" alt="🌐" class="wp-smiley" style="height: 1em; max-height: 1em;" />.</span></p>
<p><span style="font-weight: 400;">As presented at </span><a href="https://op.europa.eu/en/web/endorse-2021/conference"><span style="font-weight: 400;">ENDORSE conference March 2021</span></a><span style="font-weight: 400;">, the redesign of CORDIS data-model in accordance with Semantic Web standards contributed to bring the platform « <strong><em>from acting as a data repository to finally playing an active role as data provider</em></strong> », where EuroSciVoc taxonomy &amp; EURIO ontology both played key roles in the creation of future CORDIS knowledge graph and SPARQL endpoint :</span></p>
<p><span style="font-weight: 400;"><img src="https://s.w.org/images/core/emoji/72x72/1f538.png" alt="🔸" class="wp-smiley" style="height: 1em; max-height: 1em;" /></span><em><span style="font-weight: 400;"> <a href="https://data.europa.eu/data/datasets/euroscivoc-the-european-science-vocabulary?locale=en">EuroSciVoc</a> [&#8230;] is a multilingual, SKOS-XL based taxonomy that represents all the main fields of science that were discovered from the CORDIS content, e.g., project abstracts. It was built starting from the hierarchy of the OECD&rsquo;s Fields of R&amp;D classification (FoRD) as root and extended through a semi-automatic process based on NLP techniques. It contains almost 1 000 categories in 6 languages (English, French, German, Italian, Polish and Spanish) and each category is enriched with relevant keywords extracted from the textual description of CORDIS projects. It is constantly evolving and is available on EU Vocabularies website [&#8230;].</span></em></p>
<p><span style="font-weight: 400;"><img src="https://s.w.org/images/core/emoji/72x72/1f538.png" alt="🔸" class="wp-smiley" style="height: 1em; max-height: 1em;" /></span><em><span style="font-weight: 400;"> In order to transform CORDIS data into Linked Open Data, thus aligning with Semantic Web standards, best practices and tools in industry and public organizations, the need for an ontology emerged. CORDIS created the <a href="https://data.europa.eu/data/datasets/european-research-information-ontology?locale=en">EURIO</a> (European Research Information Ontology) based on data about research projects funded by the EU&rsquo;s framework programmes for research and innovation. EURIO is aligned with EU ontologies such as <a href="https://dcodings.github.io/DINGO/">DINGO</a> and <a href="https://github.com/SPAROntologies/frapo">FRAPO</a> and de facto standard ontologies such as schema.org and the Organization Ontology from W3C. It models projects, their results and actors such as people and organizations, and includes administrative information like funding schemes and grants.</span></em></p>
<p><span style="font-weight: 400;"><img src="https://s.w.org/images/core/emoji/72x72/1f449.png" alt="👉" class="wp-smiley" style="height: 1em; max-height: 1em;" /></span><em> EURIO, which is available on EU Vocabularies website, was <strong>the starting point to develop a Knowledge Graph of CORDIS data that will be publicly available via a dedicated SPARQL endpoint</strong>.</em> <em>»</em></p>
<p>(Enrico Bignotti &amp; Baya Remaoun, &laquo;&nbsp;<a href="https://op.europa.eu/en/web/endorse-2021/programme">EuroSciVoc taxonomy and EURIO ontology: CORDIS as (semantic) data provider</a> &nbsp;&raquo; , ENDORSE March 16, 2021. <a href="https://op.europa.eu/documents/10120270/10133951/BIGNOTTI_REMAOUN_presentation_EuroSciVoc+taxonomy+and+EURIO+ontology+CORDIS+as+%28semantic%29+data+provider.pdf/3303e7b9-967d-65f2-23a3-96b3e2bd2856?t=1616568751644"><span style="font-weight: 400;">PDF</span></a><span style="font-weight: 400;"> </span><a href="https://www.youtube.com/watch?v=vIBC_PO5aoM&amp;t=3689s"><span style="font-weight: 400;">VIDEO</span></a>)</p>
<p><span style="font-weight: 400;">&#8230; A Knowledge graph <a href="https://upcommons.upc.edu/bitstream/handle/2117/378291/2022-ISWC.pdf?sequence=1&amp;isAllowed=y">that was soon released in 2022-2023</a></span><span style="font-weight: 400;"> (see INDUSTRY TRACK 1 on Tuesday, 25 October of <a href="http://iswc2022.semanticweb.org/index.php/conference/">ISWC 2022 Conference</a> for more detail), until final opening of a </span><a href="https://cordis.europa.eu/datalab"><span style="font-weight: 400;">CORDIS SPARQL endpoint</span></a><span style="font-weight: 400;"> late november 2023.</span></p>
<p><span style="font-weight: 400;">Now fancy a few SPARQL queries in there ?</span></p>
<p><strong>Follow the SPARQL <img src="https://s.w.org/images/core/emoji/72x72/1f4ab.png" alt="💫" class="wp-smiley" style="height: 1em; max-height: 1em;" /></strong></p>
<p><span style="font-weight: 400;">CORDIS SPARQL endpoint is </span><a href="https://cordis.europa.eu/datalab"><span style="font-weight: 400;">actually made available on CORDIS Datalab</span></a><span style="font-weight: 400;"> (and already referenced in <a href="https://linkedopendata.eu/wiki/The_EU_Knowledge_Graph">EU Knowledge Graph</a> among other European SPARQL endpoints ! <a href="http://tinyurl.com/yn5fsylk">see the query</a> / <a href="http://tinyurl.com/2e8z6y5e">see the results</a>)</span></p>
<p><span style="font-weight: 400;">Here you can access a quick documentation guide to CORDIS Linked Open Data : </span><a href="https://cordis.europa.eu/about/sparql"><span style="font-weight: 400;">https://cordis.europa.eu/about/sparql</span></a><span style="font-weight: 400;">.</span></p>
<p><span style="font-weight: 400;">Let’s have a look at EURIO ontology first : we need to understand it to query CORDIS knowledge graph.</span></p>
<p><span style="font-weight: 400;">As we are told in the guide, the latest version can be downloaded </span><a href="https://op.europa.eu/en/web/eu-vocabularies/dataset/-/resource?uri=http://publications.europa.eu/resource/dataset/eurio"><span style="font-weight: 400;">on EU Vocabularies website</span></a><span style="font-weight: 400;">. When we unzip</span><span style="font-weight: 400;"> the archive we access the whole documentation about EURIO Classes &amp; properties that we need to write our SPARQL queries – and a diagram of </span><span style="font-weight: 400;">main classes and properties</span><span style="font-weight: 400;"> of CORDIS data model : </span></p>
<p><a href="http://blog.sparna.fr/wp-content/uploads/2024/01/EURIO_v2.4.png"><img class="aligncenter size-large wp-image-1669" src="http://blog.sparna.fr/wp-content/uploads/2024/01/EURIO_v2.4-1024x812.png" alt="EURIO_v2.4" width="650" height="515" /></a></p>
<p><span style="font-weight: 400;">At first sight we can observe on the schema 3 main groups of entities :</span></p>
<ul>
<li style="font-weight: 400;"><span style="font-weight: 400;">On the top right, the projects &amp; publications associated, key ressources of CORDIS ;</span></li>
<li style="font-weight: 400;"><span style="font-weight: 400;">On the top left, the fundings &amp; grants materials, on « monetary » side of the project ;</span></li>
<li style="font-weight: 400;"><span style="font-weight: 400;">On the bottom, the organisations &amp; persons implied, with references &amp; coordinates.</span></li>
</ul>
<p><span style="font-weight: 400;">Let’s open </span><a href="https://cordis.europa.eu/datalab/sparql-endpoint"><span style="font-weight: 400;">CORDIS SPARQL endpoint</span></a><span style="font-weight: 400;"> – some easy queries can be run to begin exploring CORDIS knowledge graph.</span></p>
<p><span style="font-weight: 400;">Nb : the data on SPARQL endpoint is a snapshot, but freshest dumps can be found </span><a href="https://data.europa.eu/data/datasets/named-graphs-from-eurio-knowledge-graph?locale=en"><span style="font-weight: 400;">on European data portal</span></a><span style="font-weight: 400;"> !</span></p>
<p><span style="font-weight: 400;">Here a simple one to </span><b>find a list of FundingSchemes with their titles and IDs corresponding to « Horizon 2020 » programme</b><span style="font-weight: 400;"> :</span></p>
<table>
<tbody>
<tr>
<td><strong>FundingSchemes with their titles and IDs corresponding to « Horizon 2020 » programme</strong></p>
<p>PREFIX xsd: &lt;http://www.w3.org/2001/XMLSchema#&gt;<br />
PREFIX eurio: &lt;http://data.europa.eu/s66#&gt;<br />
PREFIX rdf: &lt;http://www.w3.org/1999/02/22-rdf-syntax-ns#&gt;<br />
PREFIX rdfs: &lt;http://www.w3.org/2000/01/rdf-schema#&gt;<br />
SELECT ?fs ?title ?id<br />
WHERE {<br />
# select all funding schemes …<br />
?fs a eurio:FundingScheme.<br />
# … with their title …<br />
?fs eurio:title ?title.<br />
# … and identifier …<br />
?fs eurio:identifier ?id.<br />
# where the identifier contains the regular expression “H2020”<br />
FILTER (REGEX (?id, &lsquo;H2020&prime;))<br />
} LIMIT 100</td>
</tr>
</tbody>
</table>
<p>▶️ <a href="https://cordis.europa.eu/datalab/sparql-endpoint#query=%23%20FundingSchemes%20with%20their%20titles%20and%20IDs%20corresponding%20to%20%C2%AB%20Horizon%202020%20%C2%BB%20programme%0A%0APREFIX%20xsd%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F2001%2FXMLSchema%23%3E%0APREFIX%20eurio%3A%20%3Chttp%3A%2F%2Fdata.europa.eu%2Fs66%23%3E%0APREFIX%20rdf%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F1999%2F02%2F22-rdf-syntax-ns%23%3E%0APREFIX%20rdfs%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F2000%2F01%2Frdf-schema%23%3E%0ASELECT%20%3Ffs%20%3Ftitle%20%3Fid%0AWHERE%20%7B%0A%23%20select%20all%20funding%20schemes%20%E2%80%A6%0A%3Ffs%20a%20eurio%3AFundingScheme.%0A%23%20%E2%80%A6%20with%20their%20title%20%E2%80%A6%0A%3Ffs%20eurio%3Atitle%20%3Ftitle.%0A%23%20%E2%80%A6%20and%20identifier%20%E2%80%A6%0A%3Ffs%20eurio%3Aidentifier%20%3Fid.%0A%23%20where%20the%20identifier%20contains%20the%20regular%20expression%20%E2%80%9CH2020%E2%80%9D%0AFILTER%20(REGEX%20(%3Fid%2C%20'H2020'))%0A%7D%20LIMIT%20100&amp;endpoint=https%3A%2F%2Fcordis.europa.eu%2Fdatalab%2Fsparql&amp;requestMethod=POST&amp;tabTitle=Query&amp;headers=%7B%7D&amp;contentTypeConstruct=application%2Fn-triples%2C*%2F*%3Bq&amp;contentTypeSelect=application%2Fsparql-results%2Bjson%2C*%2F*%3Bq&amp;outputFormat=table">See the results</a></p>
<p><span style="font-weight: 400;">The FILTER REGEX enables us to display the IDs corresponding to H2020 Funding Schemes.</span></p>
<p><span style="font-weight: 400;">We can make another query to get the projects with the Funding Scheme Programme they are related to (note that, in EURIO a eurio:</span><span style="font-weight: 400;">hasFundingSchemeProgramme</span><span style="font-weight: 400;"> is a sub-property of eurio:fundingScheme) :</span></p>
<table>
<tbody>
<tr>
<td><strong>Projects with the Funding Scheme Programme they are related to</strong></p>
<p><span style="font-weight: 400;">PREFIX eurio: &lt;http://data.europa.eu/s66#&gt;</span><br />
<span style="font-weight: 400;">PREFIX rdf: &lt;http://www.w3.org/1999/02/22-rdf-syntax-ns#&gt;</span><br />
<span style="font-weight: 400;">PREFIX rdfs: &lt;http://www.w3.org/2000/01/rdf-schema#&gt;</span><br />
<span style="font-weight: 400;">SELECT ?project ?acronym ?fundingscheme</span><br />
<span style="font-weight: 400;">WHERE {</span><br />
# select the projects &#8230;<br />
<span style="font-weight: 400;">?project a eurio:Project.</span><br />
# … with acronyms &#8230;<br />
<span style="font-weight: 400;">?project eurio:hasAcronym/eurio:shortForm ?acronym.</span><br />
# … and corresponding funding scheme programmes<br />
<span style="font-weight: 400;">?project eurio:isFundedBy/eurio:hasFundingSchemeProgramme/eurio:code ?fundingscheme.</span><br />
<span style="font-weight: 400;">} LIMIT 100</span></td>
</tr>
</tbody>
</table>
<p>▶️ <a href="https://cordis.europa.eu/datalab/sparql-endpoint#query=%23%20Projects%20with%20the%20Funding%20Scheme%20Programme%20they%20are%20related%20to%0A%0APREFIX%20eurio%3A%20%3Chttp%3A%2F%2Fdata.europa.eu%2Fs66%23%3E%0APREFIX%20rdf%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F1999%2F02%2F22-rdf-syntax-ns%23%3E%0APREFIX%20rdfs%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F2000%2F01%2Frdf-schema%23%3E%0ASELECT%20%3Fproject%20%3Facronym%20%3Ffundingscheme%0AWHERE%20%7B%0A%23%20select%20the%20projects%20...%0A%3Fproject%20a%20eurio%3AProject.%0A%23%20%E2%80%A6%20with%20acronyms%20...%0A%3Fproject%20eurio%3AhasAcronym%2Feurio%3AshortForm%20%3Facronym.%0A%23%20%E2%80%A6%20and%20corresponding%20funding%20scheme%20programmes%0A%3Fproject%20eurio%3AisFundedBy%2Feurio%3AhasFundingSchemeProgramme%2Feurio%3Acode%20%3Ffundingscheme.%0A%7D%20LIMIT%20100&amp;endpoint=https%3A%2F%2Fcordis.europa.eu%2Fdatalab%2Fsparql&amp;requestMethod=POST&amp;tabTitle=Query%201&amp;headers=%7B%7D&amp;contentTypeConstruct=application%2Fn-triples%2C*%2F*%3Bq&amp;contentTypeSelect=application%2Fsparql-results%2Bjson%2C*%2F*%3Bq&amp;outputFormat=table">See the results</a></p>
<p><span style="font-weight: 400;">(Here we used a property path with a « / » to shorten the query to get the acronyms of projects &amp; Funding Scheme Programmes codes).</span></p>
<p><span style="font-weight: 400;">&#8230; and combining with the first query we can find the projects depending on H2020 Funding Scheme Programme in particular :</span></p>
<table>
<tbody>
<tr>
<td><strong>Projects depending on H2020 Funding Scheme Programme in particular</strong></p>
<p><span style="font-weight: 400;">PREFIX eurio: &lt;http://data.europa.eu/s66#&gt;</span><br />
<span style="font-weight: 400;">PREFIX rdf: &lt;http://www.w3.org/1999/02/22-rdf-syntax-ns#&gt;</span><br />
<span style="font-weight: 400;">PREFIX rdfs: &lt;http://www.w3.org/2000/01/rdf-schema#&gt;</span><br />
<span style="font-weight: 400;">SELECT ?project ?acronym ?fundingscheme</span><br />
<span style="font-weight: 400;">WHERE {</span><br />
# select the projects &#8230;<br />
<span style="font-weight: 400;">?project a eurio:Project.</span><br />
# … with acronyms &#8230;<br />
<span style="font-weight: 400;">?project eurio:hasAcronym/eurio:shortForm ?acronym.</span><br />
# … and corresponding funding scheme programmes codes &#8230;<br />
<span style="font-weight: 400;">?project eurio:isFundedBy/eurio:hasFundingSchemeProgramme/eurio:code ?fundingscheme.</span><br />
# … with a filter on funding scheme codes &lsquo;H2020&prime;<br />
<span style="font-weight: 400;">FILTER REGEX (?fundingscheme, &lsquo;H2020&prime;)</span><br />
<span style="font-weight: 400;">} LIMIT 100</span></td>
</tr>
</tbody>
</table>
<p>▶️ <a href="https://cordis.europa.eu/datalab/sparql-endpoint#query=%23%20Projects%20depending%20on%20H2020%20Funding%20Scheme%20Programme%20in%20particular%0A%0APREFIX%20eurio%3A%20%3Chttp%3A%2F%2Fdata.europa.eu%2Fs66%23%3E%0APREFIX%20rdf%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F1999%2F02%2F22-rdf-syntax-ns%23%3E%0APREFIX%20rdfs%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F2000%2F01%2Frdf-schema%23%3E%0ASELECT%20%3Fproject%20%3Facronym%20%3Ffundingscheme%0AWHERE%20%7B%0A%23%20select%20the%20projects%20...%0A%3Fproject%20a%20eurio%3AProject.%0A%23%20%E2%80%A6%20with%20acronyms%20...%0A%3Fproject%20eurio%3AhasAcronym%2Feurio%3AshortForm%20%3Facronym.%0A%23%20%E2%80%A6%20and%20corresponding%20funding%20scheme%20programmes%20codes%20...%0A%3Fproject%20eurio%3AisFundedBy%2Feurio%3AhasFundingSchemeProgramme%2Feurio%3Acode%20%3Ffundingscheme.%0A%23%20%E2%80%A6%20with%20a%20filter%20on%20funding%20scheme%20codes%20'H2020'%0AFILTER%20REGEX%20(%3Ffundingscheme%2C%20'H2020')%0A%7D%20LIMIT%20100&amp;endpoint=https%3A%2F%2Fcordis.europa.eu%2Fdatalab%2Fsparql&amp;requestMethod=POST&amp;tabTitle=Query&amp;headers=%7B%7D&amp;contentTypeConstruct=application%2Fn-triples%2C*%2F*%3Bq&amp;contentTypeSelect=application%2Fsparql-results%2Bjson%2C*%2F*%3Bq&amp;outputFormat=table">See the results</a></p>
<p><span style="font-weight: 400;">It is also possible to get the list of all existing Funding Scheme Programmes CORDIS projects have been funded by – we observe 27 of them here (from the SPARQL endpoint) – while adding a count function to know how many projects per FundingSchemeProgramme :</span></p>
<table>
<tbody>
<tr>
<td><strong>All existing Funding Scheme Programmes CORDIS projects have been funded by</strong></p>
<p><span style="font-weight: 400;">PREFIX eurio: &lt;http://data.europa.eu/s66#&gt;</span><br />
<span style="font-weight: 400;">PREFIX rdf: &lt;http://www.w3.org/1999/02/22-rdf-syntax-ns#&gt;</span><br />
<span style="font-weight: 400;">PREFIX rdfs: &lt;http://www.w3.org/2000/01/rdf-schema#&gt;</span><br />
# count the number of projects by funding scheme programme &#8230;<br />
<span style="font-weight: 400;">SELECT (COUNT (?project) as ?count) ?fundingscheme</span><br />
<span style="font-weight: 400;">WHERE {</span><br />
# select the projects with corresponding funding scheme programmes codes &#8230;<br />
<span style="font-weight: 400;">?project eurio:isFundedBy/eurio:hasFundingSchemeProgramme/eurio:code ?fundingscheme.</span><br />
# &#8230; counting projects per funding scheme programme<br />
<span style="font-weight: 400;">} GROUP BY ?fundingscheme</span><br />
<span style="font-weight: 400;">LIMIT 100</span></td>
</tr>
</tbody>
</table>
<p>▶️ <a href="https://cordis.europa.eu/datalab/sparql-endpoint#query=%23%20All%20existing%20Funding%20Scheme%20Programmes%20CORDIS%20projects%20have%20been%20funded%20by%0A%0APREFIX%20eurio%3A%20%3Chttp%3A%2F%2Fdata.europa.eu%2Fs66%23%3E%0APREFIX%20rdf%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F1999%2F02%2F22-rdf-syntax-ns%23%3E%0APREFIX%20rdfs%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F2000%2F01%2Frdf-schema%23%3E%0A%23%20count%20the%20number%20of%20projects%20by%20funding%20scheme%20programme%20...%0ASELECT%20(COUNT%20(%3Fproject)%20as%20%3Fcount)%20%3Ffundingscheme%0AWHERE%20%7B%0A%23%20select%20the%20projects%20with%20corresponding%20funding%20scheme%20programmes%20codes%20...%0A%3Fproject%20eurio%3AisFundedBy%2Feurio%3AhasFundingSchemeProgramme%2Feurio%3Acode%20%3Ffundingscheme.%0A%23%20...%20counting%20projects%20per%20funding%20scheme%20programme%0A%7D%20GROUP%20BY%20%3Ffundingscheme%0ALIMIT%20100&amp;endpoint=https%3A%2F%2Fcordis.europa.eu%2Fdatalab%2Fsparql&amp;requestMethod=POST&amp;tabTitle=Query%201&amp;headers=%7B%7D&amp;contentTypeConstruct=application%2Fn-triples%2C*%2F*%3Bq&amp;contentTypeSelect=application%2Fsparql-results%2Bjson%2C*%2F*%3Bq&amp;outputFormat=table">See the results</a></p>
<p>Querying the organisations properties will return other kind of useful informations about geographical location of the projects stakeholders. Let’s figure out we want to find the projects whose coordinating organisations have sites located in France :</p>
<table>
<tbody>
<tr>
<td><strong>Projects whose coordinating organisations have sites located in France <img src="https://s.w.org/images/core/emoji/72x72/1f413.png" alt="🐓" class="wp-smiley" style="height: 1em; max-height: 1em;" /></strong></p>
<p>PREFIX skos: &lt;http://www.w3.org/2004/02/skos/core#&gt;<br />
PREFIX eurio: &lt;http://data.europa.eu/s66#&gt;<br />
PREFIX rdf: &lt;http://www.w3.org/1999/02/22-rdf-syntax-ns#&gt;<br />
PREFIX rdfs: &lt;http://www.w3.org/2000/01/rdf-schema#&gt;<br />
SELECT ?project ?acronym ?role ?organisation ?country<br />
WHERE {<br />
# select the projects with their acronyms &#8230;<br />
?project a eurio:Project.<br />
?project eurio:hasAcronym/eurio:shortForm ?acronym.<br />
# &#8230; and organisations with &lsquo;coordinator&rsquo; role and name &#8230;<br />
?project eurio:hasInvolvedParty ?organisationrole.<br />
?organisationrole eurio:roleLabel ?role.<br />
?organisationrole eurio:roleLabel &laquo;&nbsp;coordinator&nbsp;&raquo;.<br />
?organisationrole eurio:isRoleOf/eurio:legalName ?organisation.<br />
# &#8230; with address country for the sites defined at &lsquo;FR&rsquo;<br />
?organisationrole eurio:isRoleOf/eurio:hasSite/eurio:hasAddress/eurio:addressCountry ?country.<br />
VALUES ?country { &lsquo;FR&rsquo; }<br />
} LIMIT 100</td>
</tr>
</tbody>
</table>
<p>▶️ <a href="https://cordis.europa.eu/datalab/sparql-endpoint#query=%23%20Projects%20whose%20coordinating%20organisations%20have%20sites%20located%20in%20France%20%F0%9F%90%93%0A%0APREFIX%20skos%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F2004%2F02%2Fskos%2Fcore%23%3E%0APREFIX%20eurio%3A%20%3Chttp%3A%2F%2Fdata.europa.eu%2Fs66%23%3E%0APREFIX%20rdf%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F1999%2F02%2F22-rdf-syntax-ns%23%3E%0APREFIX%20rdfs%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F2000%2F01%2Frdf-schema%23%3E%0ASELECT%20%3Fproject%20%3Facronym%20%3Frole%20%3Forganisation%20%3Fcountry%0AWHERE%20%7B%0A%23%20select%20the%20projects%20with%20their%20acronyms%20...%0A%3Fproject%20a%20eurio%3AProject.%0A%3Fproject%20eurio%3AhasAcronym%2Feurio%3AshortForm%20%3Facronym.%0A%23%20...%20and%20organisations%20with%20'coordinator'%20role%20and%20name%20...%0A%3Fproject%20eurio%3AhasInvolvedParty%20%3Forganisationrole.%0A%3Forganisationrole%20eurio%3AroleLabel%20%3Frole.%0A%3Forganisationrole%20eurio%3AroleLabel%20%22coordinator%22.%0A%3Forganisationrole%20eurio%3AisRoleOf%2Feurio%3AlegalName%20%3Forganisation.%0A%23%20...%20with%20address%20country%20for%20the%20sites%20defined%20at%20'FR'%0A%3Forganisationrole%20eurio%3AisRoleOf%2Feurio%3AhasSite%2Feurio%3AhasAddress%2Feurio%3AaddressCountry%20%3Fcountry.%0AVALUES%20%3Fcountry%20%7B%20'FR'%20%7D%0A%7D%20LIMIT%20100&amp;endpoint=https%3A%2F%2Fcordis.europa.eu%2Fdatalab%2Fsparql&amp;requestMethod=POST&amp;tabTitle=Query&amp;headers=%7B%7D&amp;contentTypeConstruct=application%2Fn-triples%2C*%2F*%3Bq&amp;contentTypeSelect=application%2Fsparql-results%2Bjson%2C*%2F*%3Bq&amp;outputFormat=table">See the results</a></p>
<p>Depending on available data, you can either query via PostalAddress info (eurio:addressCountry &lsquo;FR&rsquo;) or AdministrativeArea (eurio:hasGeographicalLocation) &#8230; Here we&rsquo;re lucky as both fields are mandatory ones.</p>
<p>Last but not least, we can also play with CORDIS vocabularies : here you&rsquo;ll have the choice to investigate via plain keywords of Projects or Publications items, querying titles, abstracts or other types of literals&#8230;</p>
<p>An example of projects with abstracts containing string ❄ &lsquo;winter&rsquo; ❄ &#8211; the URL giving the exact link to the project online :</p>
<table>
<tbody>
<tr>
<td><strong>Looking for ❄ &lsquo;winter&rsquo; ❄ in CORDIS projects abstracts (with nice URL to go)</strong></p>
<p>PREFIX eurio: &lt;http://data.europa.eu/s66#&gt;<br />
PREFIX rdf: &lt;http://www.w3.org/1999/02/22-rdf-syntax-ns#&gt;<br />
PREFIX rdfs: &lt;http://www.w3.org/2000/01/rdf-schema#&gt;<br />
SELECT?project ?acronym ?abstract ?url<br />
WHERE {<br />
# select the projects with their acronyms and abstracts &#8230;<br />
?project rdf:type eurio:Project.<br />
?project eurio:hasAcronym/eurio:shortForm ?acronym.<br />
?project eurio:abstract ?abstract.<br />
# &#8230; with a filter on abstracts containing string &lsquo;winter&rsquo; case insensitive &#8230;<br />
FILTER (regex(str(?abstract), &lsquo;winter&rsquo;, &lsquo;i&rsquo;))<br />
# &#8230; generating proper CORDIS website URLs based on RCN project code<br />
?project eurio:rcn ?rcn.<br />
BIND(IRI(CONCAT(&lsquo;https://cordis.europa.eu/project/rcn/&rsquo;, ?rcn)) AS ?url)<br />
} LIMIT 100</td>
</tr>
</tbody>
</table>
<p>▶️ <a href="https://cordis.europa.eu/datalab/sparql-endpoint#query=%23%20Looking%20for%20%E2%9D%84%20'winter'%20%E2%9D%84%20in%20CORDIS%20projects%20abstracts%20(with%20nice%20URL%20to%20go)%0A%0APREFIX%20eurio%3A%20%3Chttp%3A%2F%2Fdata.europa.eu%2Fs66%23%3E%0APREFIX%20rdf%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F1999%2F02%2F22-rdf-syntax-ns%23%3E%0APREFIX%20rdfs%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F2000%2F01%2Frdf-schema%23%3E%0ASELECT%3Fproject%20%3Facronym%20%3Fabstract%20%3Furl%0AWHERE%20%7B%0A%23%20select%20the%20projects%20with%20their%20acronyms%20and%20abstracts%20...%0A%3Fproject%20rdf%3Atype%20eurio%3AProject.%0A%3Fproject%20eurio%3AhasAcronym%2Feurio%3AshortForm%20%3Facronym.%0A%3Fproject%20eurio%3Aabstract%20%3Fabstract.%0A%23%20...%20with%20a%20filter%20on%20abstracts%20containing%20string%20'winter'%20case%20insensitive%20...%0AFILTER%20(regex(str(%3Fabstract)%2C%20'winter'%2C%20'i'))%0A%23%20...%20generating%20proper%20CORDIS%20website%20URLs%20based%20on%20RCN%20project%20code%0A%3Fproject%20eurio%3Arcn%20%3Frcn.%0ABIND(IRI(CONCAT('https%3A%2F%2Fcordis.europa.eu%2Fproject%2Frcn%2F'%2C%20%3Frcn))%20AS%20%3Furl)%0A%7D%20LIMIT%20100&amp;endpoint=https%3A%2F%2Fcordis.europa.eu%2Fdatalab%2Fsparql&amp;requestMethod=POST&amp;tabTitle=Query%201&amp;headers=%7B%7D&amp;contentTypeConstruct=application%2Fn-triples%2C*%2F*%3Bq&amp;contentTypeSelect=application%2Fsparql-results%2Bjson%2C*%2F*%3Bq&amp;outputFormat=table">See the results</a></p>
<p>But funniest way will be using EuroSciVoc taxonomy (and navigating through thesaurus hierarchy) : to do so we need to navigate through property &laquo;&nbsp;eurio:hasEuroSciVocClassification&nbsp;&raquo; to get the Concepts skosxl:prefLabel property &#8230; to finally obtain the thesaurus labels (don&rsquo;t forget to choose a prefered language with a FILTER (lang parameter) :</p>
<table>
<tbody>
<tr>
<td><strong>Projects with their associated EuroSciVoc keywords (English prefLabels <img src="https://s.w.org/images/core/emoji/72x72/1f482.png" alt="💂" class="wp-smiley" style="height: 1em; max-height: 1em;" />)</strong></p>
<p>PREFIX skosxl: &lt;http://www.w3.org/2008/05/skos-xl#&gt;<br />
PREFIX skos: &lt;http://www.w3.org/2004/02/skos/core#&gt;<br />
PREFIX eurio: &lt;http://data.europa.eu/s66#&gt;<br />
PREFIX rdf: &lt;http://www.w3.org/1999/02/22-rdf-syntax-ns#&gt;<br />
PREFIX rdfs: &lt;http://www.w3.org/2000/01/rdf-schema#&gt;<br />
SELECT ?project ?acronym ?ESV<br />
WHERE {<br />
# select the projects with their acronyms &#8230;<br />
?project eurio:hasAcronym/eurio:shortForm ?acronym.<br />
# &#8230; with EuroSciVoc Classification prefLabels &#8230;<br />
?project eurio:hasEuroSciVocClassification/skosxl:prefLabel/skosxl:literalForm ?ESV.<br />
# &#8230; only returning &lsquo;English&rsquo; prefLabels<br />
FILTER (lang(?ESV) = &lsquo;en&rsquo;)<br />
} LIMIT 100</td>
</tr>
</tbody>
</table>
<p>▶️ <a href="https://cordis.europa.eu/datalab/sparql-endpoint#query=%23%20Projects%20with%20their%20associated%20EuroSciVoc%20keywords%20(English%20prefLabels%20%F0%9F%92%82)%0A%0APREFIX%20skosxl%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F2008%2F05%2Fskos-xl%23%3E%0APREFIX%20skos%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F2004%2F02%2Fskos%2Fcore%23%3E%0APREFIX%20eurio%3A%20%3Chttp%3A%2F%2Fdata.europa.eu%2Fs66%23%3E%0APREFIX%20rdf%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F1999%2F02%2F22-rdf-syntax-ns%23%3E%0APREFIX%20rdfs%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F2000%2F01%2Frdf-schema%23%3E%0ASELECT%20%3Fproject%20%3Facronym%20%3FESV%0AWHERE%20%7B%0A%23%20select%20the%20projects%20with%20their%20acronyms%20...%0A%3Fproject%20eurio%3AhasAcronym%2Feurio%3AshortForm%20%3Facronym.%0A%23%20...%20with%20EuroSciVoc%20Classification%20prefLabels%20...%0A%3Fproject%20eurio%3AhasEuroSciVocClassification%2Fskosxl%3AprefLabel%2Fskosxl%3AliteralForm%20%3FESV.%0A%23%20...%20only%20returning%20'English'%20prefLabels%0AFILTER%20(lang(%3FESV)%20%3D%20'en')%0A%7D%20LIMIT%20100%0A&amp;endpoint=https%3A%2F%2Fcordis.europa.eu%2Fdatalab%2Fsparql&amp;requestMethod=POST&amp;tabTitle=Query%203&amp;headers=%7B%7D&amp;contentTypeConstruct=application%2Fn-triples%2C*%2F*%3Bq&amp;contentTypeSelect=application%2Fsparql-results%2Bjson%2C*%2F*%3Bq&amp;outputFormat=table">See the results</a></p>
<p><span style="font-weight: 400;">A bit more complex one using first level of hierarchy of the taxonomy : here we are searching for all skos:broader concepts &laquo;&nbsp;with no other broader concept&nbsp;&raquo; (the FILTER NOT EXISTS formula), aka the top concepts or root concepts of the vocabulary used to describe the projects. Then counting the projects by each category :</span></p>
<table>
<tbody>
<tr>
<td><strong>All root categories of EuroSciVoc used to describe the projects</strong></p>
<p>PREFIX skosxl: &lt;http://www.w3.org/2008/05/skos-xl#&gt;<br />
PREFIX skos: &lt;http://www.w3.org/2004/02/skos/core#&gt;<br />
PREFIX eurio: &lt;http://data.europa.eu/s66#&gt;<br />
PREFIX rdf: &lt;http://www.w3.org/1999/02/22-rdf-syntax-ns#&gt;<br />
PREFIX rdfs: &lt;http://www.w3.org/2000/01/rdf-schema#&gt;<br />
# count the number of projects by EuroSciVoc top categories &#8230;<br />
SELECT (COUNT(?project) AS ?nbProject) ?ESV_root_label<br />
WHERE {<br />
# &#8230; the top categories are Concepts &#8230;<br />
?ESV_root a skos:Concept .<br />
# &#8230; with no broader Concept &#8230;<br />
FILTER NOT EXISTS { ?ESV_root skos:broader ?anything }<br />
# &#8230; list with corresponding projects &#8230;<br />
?ESV_root ^skos:broader*/^eurio:hasEuroSciVocClassification ?project .<br />
# &#8230; and EuroSciVoc corresponding skos-xl prefLabels &#8230;<br />
?ESV_root skosxl:prefLabel/skosxl:literalForm ?ESV_root_label.<br />
# &#8230; sorting by EuroSciVoc category, with English prefLabels<br />
FILTER (lang(?ESV_root_label) = &lsquo;en&rsquo;)<br />
} GROUP BY ?ESV_root_label<br />
LIMIT 100</td>
</tr>
</tbody>
</table>
<p>▶️ <a href="https://cordis.europa.eu/datalab/sparql-endpoint#query=%23%20All%20root%20categories%20of%20EuroSciVoc%20used%20to%20describe%20the%20projects%0A%0APREFIX%20skosxl%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F2008%2F05%2Fskos-xl%23%3E%0APREFIX%20skos%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F2004%2F02%2Fskos%2Fcore%23%3E%0APREFIX%20eurio%3A%20%3Chttp%3A%2F%2Fdata.europa.eu%2Fs66%23%3E%0APREFIX%20rdf%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F1999%2F02%2F22-rdf-syntax-ns%23%3E%0APREFIX%20rdfs%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F2000%2F01%2Frdf-schema%23%3E%0A%23%20count%20the%20number%20of%20projects%20by%20EuroSciVoc%20top%20categories%20...%0ASELECT%20(COUNT(%3Fproject)%20AS%20%3FnbProject)%20%3FESV_root_label%0AWHERE%20%7B%0A%23%20...%20the%20top%20categories%20are%20Concepts%20...%0A%3FESV_root%20a%20skos%3AConcept%20.%0A%23%20...%20with%20no%20broader%20Concept%20...%0AFILTER%20NOT%20EXISTS%20%7B%20%3FESV_root%20skos%3Abroader%20%3Fanything%20%7D%0A%23%20...%20list%20with%20corresponding%20projects%20...%0A%3FESV_root%20%5Eskos%3Abroader*%2F%5Eeurio%3AhasEuroSciVocClassification%20%3Fproject%20.%0A%23%20...%20and%20EuroSciVoc%20corresponding%20skos-xl%20prefLabels%20...%0A%3FESV_root%20skosxl%3AprefLabel%2Fskosxl%3AliteralForm%20%3FESV_root_label.%0A%23%20...%20sorting%20by%20EuroSciVoc%20category%2C%20with%20English%20prefLabels%0AFILTER%20(lang(%3FESV_root_label)%20%3D%20'en')%0A%7D%20GROUP%20BY%20%3FESV_root_label%0ALIMIT%20100&amp;endpoint=https%3A%2F%2Fcordis.europa.eu%2Fdatalab%2Fsparql&amp;requestMethod=POST&amp;tabTitle=Query%201&amp;headers=%7B%7D&amp;contentTypeConstruct=application%2Fn-triples%2C*%2F*%3Bq&amp;contentTypeSelect=application%2Fsparql-results%2Bjson%2C*%2F*%3Bq&amp;outputFormat=table">See the results</a></p>
<p>&#8230; and maybe again more explicit results if refined to level 2 of hierarchy <img src="https://s.w.org/images/core/emoji/72x72/1f440.png" alt="👀" class="wp-smiley" style="height: 1em; max-height: 1em;" /> :</p>
<table>
<tbody>
<tr>
<td><strong>All &lsquo;level 2&prime; root categories of EuroSciVoc used to describe the projects</strong></p>
<p>PREFIX skosxl: &lt;http://www.w3.org/2008/05/skos-xl#&gt;<br />
PREFIX skos: &lt;http://www.w3.org/2004/02/skos/core#&gt;<br />
PREFIX eurio: &lt;http://data.europa.eu/s66#&gt;<br />
PREFIX rdf: &lt;http://www.w3.org/1999/02/22-rdf-syntax-ns#&gt;<br />
PREFIX rdfs: &lt;http://www.w3.org/2000/01/rdf-schema#&gt;<br />
# count the number of projects by EuroSciVoc level 2 top categories &#8230;<br />
SELECT (COUNT(?project) AS ?nbProject) ?ESV_root_label ?ESV_level2_label<br />
WHERE {<br />
# &#8230; the top categories are Concepts &#8230;<br />
?ESV_root a skos:Concept .<br />
# &#8230; with no broader Concept &#8230;<br />
FILTER NOT EXISTS { ?ESV_root skos:broader ?anything }<br />
# &#8230; list level 2 category below level 1 with corresponding projects &#8230;<br />
?ESV_root ^skos:broader ?ESV_level2 .<br />
?ESV_level2 ^skos:broader*/^eurio:hasEuroSciVocClassification ?project .<br />
# &#8230; and EuroSciVoc corresponding skos-xl prefLabels &#8230;<br />
?ESV_root skosxl:prefLabel/skosxl:literalForm ?ESV_root_label.<br />
?ESV_level2 skosxl:prefLabel/skosxl:literalForm ?ESV_level2_label.<br />
# &#8230; sorting by EuroSciVoc category, with English prefLabels<br />
FILTER (lang(?ESV_root_label) = &lsquo;en&rsquo;)<br />
FILTER (lang(?ESV_level2_label) = &lsquo;en&rsquo;)<br />
} GROUP BY ?ESV_root_label ?ESV_level2_label<br />
ORDER BY ?ESV_root_label<br />
LIMIT 100</td>
</tr>
</tbody>
</table>
<p>▶️ <a href="https://cordis.europa.eu/datalab/sparql-endpoint#query=%23%20All%20'level%202'%20root%20categories%20of%20EuroSciVoc%20used%20to%20describe%20the%20projects%0A%0APREFIX%20skosxl%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F2008%2F05%2Fskos-xl%23%3E%0APREFIX%20skos%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F2004%2F02%2Fskos%2Fcore%23%3E%0APREFIX%20eurio%3A%20%3Chttp%3A%2F%2Fdata.europa.eu%2Fs66%23%3E%0APREFIX%20rdf%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F1999%2F02%2F22-rdf-syntax-ns%23%3E%0APREFIX%20rdfs%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F2000%2F01%2Frdf-schema%23%3E%0A%23%20count%20the%20number%20of%20projects%20by%20EuroSciVoc%20level%202%20top%20categories%20...%0ASELECT%20(COUNT(%3Fproject)%20AS%20%3FnbProject)%20%3FESV_root_label%20%3FESV_level2_label%0AWHERE%20%7B%0A%23%20...%20the%20top%20categories%20are%20Concepts%20...%0A%3FESV_root%20a%20skos%3AConcept%20.%0A%23%20...%20with%20no%20broader%20Concept%20...%0AFILTER%20NOT%20EXISTS%20%7B%20%3FESV_root%20skos%3Abroader%20%3Fanything%20%7D%0A%23%20...%20list%20level%202%20category%20below%20level%201%20with%20corresponding%20projects%20...%0A%3FESV_root%20%5Eskos%3Abroader%20%3FESV_level2%20.%0A%3FESV_level2%20%5Eskos%3Abroader*%2F%5Eeurio%3AhasEuroSciVocClassification%20%3Fproject%20.%0A%23%20...%20and%20EuroSciVoc%20corresponding%20skos-xl%20prefLabels%20...%0A%3FESV_root%20skosxl%3AprefLabel%2Fskosxl%3AliteralForm%20%3FESV_root_label.%0A%3FESV_level2%20skosxl%3AprefLabel%2Fskosxl%3AliteralForm%20%3FESV_level2_label.%0A%23%20...%20sorting%20by%20EuroSciVoc%20category%2C%20with%20English%20prefLabels%0AFILTER%20(lang(%3FESV_root_label)%20%3D%20'en')%0AFILTER%20(lang(%3FESV_level2_label)%20%3D%20'en')%0A%7D%20GROUP%20BY%20%3FESV_root_label%20%3FESV_level2_label%0AORDER%20BY%20%3FESV_root_label%0ALIMIT%20100&amp;endpoint=https%3A%2F%2Fcordis.europa.eu%2Fdatalab%2Fsparql&amp;requestMethod=POST&amp;tabTitle=Query&amp;headers=%7B%7D&amp;contentTypeConstruct=application%2Fn-triples%2C*%2F*%3Bq&amp;contentTypeSelect=application%2Fsparql-results%2Bjson%2C*%2F*%3Bq&amp;outputFormat=table">See the results</a></p>
<p>And a little last one with a count, to enumerate most used EuroSciVoc Concepts for indexing projects :</p>
<table>
<tbody>
<tr>
<td><strong>Most used EuroSciVoc Concepts for indexing projects</strong></p>
<p>PREFIX skosxl: &lt;http://www.w3.org/2008/05/skos-xl#&gt;<br />
PREFIX skos: &lt;http://www.w3.org/2004/02/skos/core#&gt;<br />
PREFIX eurio: &lt;http://data.europa.eu/s66#&gt;<br />
PREFIX rdf: &lt;http://www.w3.org/1999/02/22-rdf-syntax-ns#&gt;<br />
PREFIX rdfs: &lt;http://www.w3.org/2000/01/rdf-schema#&gt;<br />
# count the number of projects by EuroSciVoc Concept &#8230;<br />
SELECT (COUNT (?project) as ?count) ?ESV<br />
WHERE {<br />
#  &#8230; select the projects with their acronyms &#8230;<br />
?project eurio:hasAcronym/eurio:shortForm ?acronym.<br />
# &#8230; with EuroSciVoc Classification prefLabels &#8230;<br />
?project eurio:hasEuroSciVocClassification/skosxl:prefLabel/skosxl:literalForm ?ESV.<br />
# &#8230; sorting by EuroSciVoc Concept, with English prefLabels<br />
FILTER (lang(?ESV) = &lsquo;en&rsquo;)<br />
} GROUP BY ?ESV<br />
ORDER BY DESC(?count)<br />
LIMIT 3000</td>
</tr>
</tbody>
</table>
<p>▶️ <a href="https://cordis.europa.eu/datalab/sparql-endpoint#query=%23%20Most%20used%20EuroSciVoc%20Concepts%20for%20indexing%20projects%0A%0APREFIX%20skosxl%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F2008%2F05%2Fskos-xl%23%3E%0APREFIX%20skos%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F2004%2F02%2Fskos%2Fcore%23%3E%0APREFIX%20eurio%3A%20%3Chttp%3A%2F%2Fdata.europa.eu%2Fs66%23%3E%0APREFIX%20rdf%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F1999%2F02%2F22-rdf-syntax-ns%23%3E%0APREFIX%20rdfs%3A%20%3Chttp%3A%2F%2Fwww.w3.org%2F2000%2F01%2Frdf-schema%23%3E%0A%23%20count%20the%20number%20of%20projects%20by%20EuroSciVoc%20Concept%20...%0ASELECT%20(COUNT%20(%3Fproject)%20as%20%3Fcount)%20%3FESV%0AWHERE%20%7B%0A%23%20%20...%20select%20the%20projects%20with%20their%20acronyms%20...%0A%3Fproject%20eurio%3AhasAcronym%2Feurio%3AshortForm%20%3Facronym.%0A%23%20...%20with%20EuroSciVoc%20Classification%20prefLabels%20...%0A%3Fproject%20eurio%3AhasEuroSciVocClassification%2Fskosxl%3AprefLabel%2Fskosxl%3AliteralForm%20%3FESV.%0A%23%20...%20sorting%20by%20EuroSciVoc%20Concept%2C%20with%20English%20prefLabels%0AFILTER%20(lang(%3FESV)%20%3D%20'en')%0A%7D%20GROUP%20BY%20%3FESV%0AORDER%20BY%20DESC(%3Fcount)%0ALIMIT%203000&amp;endpoint=https%3A%2F%2Fcordis.europa.eu%2Fdatalab%2Fsparql&amp;requestMethod=POST&amp;tabTitle=Query%201&amp;headers=%7B%7D&amp;contentTypeConstruct=application%2Fn-triples%2C*%2F*%3Bq&amp;contentTypeSelect=application%2Fsparql-results%2Bjson%2C*%2F*%3Bq&amp;outputFormat=table">See the results</a></p>
<p><img src="https://s.w.org/images/core/emoji/72x72/1f4a1.png" alt="💡" class="wp-smiley" style="height: 1em; max-height: 1em;" />This one an ideal one to generate a word cloud maybe ?</p>
<p>What if we send the CSV data to <a href="https://wordart.com/create">some nice online word cloud generator</a> then ?</p>
<p><a href="https://wordart.com/r8zsokkk7ghu/untitled"><img class="aligncenter size-full wp-image-1710" src="http://blog.sparna.fr/wp-content/uploads/2024/01/Cordis-Taxo-Cloud.png" alt="Cordis Taxo Cloud" width="660" height="757" /></a></p>
<p>(OMG <a href="https://wordart.com/create">they also have a shooting star shape</a> <img src="https://s.w.org/images/core/emoji/72x72/1f320.png" alt="🌠" class="wp-smiley" style="height: 1em; max-height: 1em;" /> in there 🤩)</p>
<p><strong>As a conclusion&#8230;</strong></p>
<p><span style="font-weight: 400;">According to Science (CORDIS saying !), <a href="https://europa.eu/!vYVHXD">New Year’s resolutions appear difficult to be held</a></span><span style="font-weight: 400;">&#8230; because most of time too ambitious, restrictive or unprecisely formulated : indeed, « </span><span style="font-weight: 400;">the </span><a href="https://cordis.europa.eu/article/id/428767-trending-science-do-this-one-thing-to-keep-your-new-year-s-resolutions-research-says"><span style="font-weight: 400;">effectiveness of resolutions depends on how they are </span><b>framed</b></a><span style="font-weight: 400;">.</span><span style="font-weight: 400;"> »</span></p>
<p><span style="font-weight: 400;">Horizon 2024, let’s suggest a(n RDF ?) well-framed one : may CORDIS SPARQL endpoint initiative be an example for other structures who want to share Linked Open Data !</span></p>
<p><span style="font-weight: 400;"><strong>Wishing you Best Interoperability and a Very Merry ✨ Sparqling New Year !</strong> ✨</span></p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2024/01/15/cordis-a-sparql-endpoint-is-born/">CORDIS : a SPARQL endpoint is born !</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></content:encoded>
			<wfw:commentRss>https://blog.sparna.fr/2024/01/15/cordis-a-sparql-endpoint-is-born/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>SPARQL sur DOREMUS : une balade autour de Gabriel Fauré</title>
		<link>https://blog.sparna.fr/2018/06/21/sparql-doremus-une-balade-autour-de-gabriel-faure/</link>
		<comments>https://blog.sparna.fr/2018/06/21/sparql-doremus-une-balade-autour-de-gabriel-faure/#comments</comments>
		<pubDate>Thu, 21 Jun 2018 08:02:35 +0000</pubDate>
		<dc:creator><![CDATA[Thomas Francart]]></dc:creator>
				<category><![CDATA[Non classé]]></category>
		<category><![CDATA[Open Data]]></category>
		<category><![CDATA[Recherche d'informations]]></category>
		<category><![CDATA[SPARQL]]></category>

		<guid isPermaLink="false">http://blog.sparna.fr/?p=1196</guid>
		<description><![CDATA[<p>DOREMUS est un beau projet de recherche regroupant plusieurs producteurs de métadonnées musicales (BNF, Philarmonie de Paris, Radio France) associés à des laboratoires universitaires; le résultat a été la publication conjointe des descriptions d&#8217;oeuvres de musique classique, dans un modèle de données novateur qui est une extension de FRBRoo, lui-même une extension du CIDOC-CRM. Voici&#8230;</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2018/06/21/sparql-doremus-une-balade-autour-de-gabriel-faure/">SPARQL sur DOREMUS : une balade autour de Gabriel Fauré</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></description>
				<content:encoded><![CDATA[<p style="text-align: justify;"><a href="http://www.doremus.org/" target="_blank">DOREMUS</a> est un beau projet de recherche regroupant plusieurs producteurs de métadonnées musicales (BNF, Philarmonie de Paris, Radio France) associés à des laboratoires universitaires; le résultat a été la publication conjointe des descriptions d&rsquo;oeuvres de musique classique, dans un modèle de données novateur qui est une extension de <a href="http://www.cidoc-crm.org/frbroo/" target="_blank">FRBRoo</a>, lui-même une extension du <a href="http://www.cidoc-crm.org" target="_blank">CIDOC-CRM</a>.</p>
<p style="text-align: justify;">Voici un tutorial guidé d&rsquo;interrogation SPARQL des données de Doremus, autour de Gabriel Fauré; ce tutorial explore la modélisation de &laquo;&nbsp;création&nbsp;&raquo; entre un compositeur et une oeuvre musicale (ou plutôt son expression au sens FRBR). Il montre comment :</p>
<ul style="text-align: justify;">
<li>Trouver un compositeur dans le navigateur <a href="http://overture.doremus.org/" target="_blank">Overture</a> de Doremus, le <a href="http://data.doremus.org/fct/" target="_blank">navigateur à facette</a> et le <a href="http://data.doremus.org/sparql" target="_blank">service SPARQL</a>;</li>
<li>Naviguer dans ses activités de création, vers ses oeuvres et leurs expressions, et récupérer les dates de création des oeuvres; le tout en illustrant les opérateurs SPARQL de property path, aggrégation, COUNT, assignation, etc;</li>
<li>Générer une <a href="https://cdn.knightlab.com/libs/timeline3/latest/embed/index.html?source=1iWggsmwA7IMZKGRsccdeZZ-yO--GY3BhrlJoZesGhyM&amp;font=Default&amp;lang=en&amp;initial_zoom=2&amp;height=650" target="_blank">timeline des compositeurs classiques</a> de façon semi-automatique en utilisant le service <a href="https://timeline.knightlab.com/" target="_blank">timelinejs</a> :</li>
</ul>
<p style="text-align: justify;"><a href="https://cdn.knightlab.com/libs/timeline3/latest/embed/index.html?source=1iWggsmwA7IMZKGRsccdeZZ-yO--GY3BhrlJoZesGhyM&amp;font=Default&amp;lang=en&amp;initial_zoom=2&amp;height=650"><img class="aligncenter wp-image-1197 size-large" src="http://blog.sparna.fr/wp-content/uploads/2018/06/screenshot-timeline-doremus-1024x498.png" alt="screenshot-timeline-doremus" width="650" height="316" /></a></p>
<blockquote class="embedly-card">
<h4><a href="https://www.slideshare.net/thomasfrancart/cidoccrm-sparql-tutorial-sur-les-donnes-doremus/thomasfrancart/cidoccrm-sparql-tutorial-sur-les-donnes-doremus">CIDOC-CRM + SPARQL Tutorial sur les données Doremus</a></h4>
<p>Introduction aux requêtes SPARQL sur les données du projet Doremus (http://data.doremus.org) qui modélise et diffuse les données de création d&rsquo;oeuvres musicale&#8230;</p></blockquote>
<p><script src="//cdn.embedly.com/widgets/platform.js" async="" charset="UTF-8"></script></p>
<p style="text-align: justify;">Pour réutiliser ce document dans un cadre non-commercial vous pouvez <a href="http://www.sparna.fr/contact/" target="_blank">me contacter</a>.</p>
<p style="text-align: justify;">Dans la même veine, vous pouvez consulter le <a href="http://blog.sparna.fr/2018/03/07/data-bnf-fr-sparql-exercice/">tutorial SPARQL sur les données data.bnf.fr</a>.</p>
<p style="text-align: justify;"><em>Image du post : Carte postale éditée en 1900 lors de la représentation de l&rsquo;opéra Prométhée de Gabriel Fauré au Théâtre des Arènes, à Béziers. <a href="https://commons.wikimedia.org/wiki/File:Op%C3%A9ra_Prom%C3%A9th%C3%A9e.jpg" target="_blank">Sur Wikimedia Commons</a>.</em></p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2018/06/21/sparql-doremus-une-balade-autour-de-gabriel-faure/">SPARQL sur DOREMUS : une balade autour de Gabriel Fauré</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></content:encoded>
			<wfw:commentRss>https://blog.sparna.fr/2018/06/21/sparql-doremus-une-balade-autour-de-gabriel-faure/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Référentiel ROME de Pôle Emploi en SKOS (à partir de data.gouv.fr)</title>
		<link>https://blog.sparna.fr/2017/04/18/rome-pole-emploi-skos-rdf-data-gouv-fr/</link>
		<comments>https://blog.sparna.fr/2017/04/18/rome-pole-emploi-skos-rdf-data-gouv-fr/#comments</comments>
		<pubDate>Tue, 18 Apr 2017 08:31:17 +0000</pubDate>
		<dc:creator><![CDATA[Thomas Francart]]></dc:creator>
				<category><![CDATA[Open Data]]></category>
		<category><![CDATA[SKOS]]></category>
		<category><![CDATA[SKOS Play]]></category>
		<category><![CDATA[Thesaurus]]></category>
		<category><![CDATA[Visualisation de données]]></category>
		<category><![CDATA[data.gouv.fr]]></category>
		<category><![CDATA[RDF]]></category>
		<category><![CDATA[rome]]></category>
		<category><![CDATA[skos play]]></category>
		<category><![CDATA[web de données]]></category>
		<category><![CDATA[web de données de l'emploi]]></category>

		<guid isPermaLink="false">http://blog.sparna.fr/?p=1132</guid>
		<description><![CDATA[<p>Etalab, la mission chargée de la politique Open Data de l’administration aujourd’hui intégrée à la DSI de l’Etat, vient d’ouvrir le portail du service public de la donnée (lire l&#8217;article sur silicon.fr) : des jeux de données de référence, &#171;&#160;à fort impact économique et social&#160;&#187;, d&#8217;un niveau de qualité et de fraîcheur garanti. Parmi ceux-ci&#8230;</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2017/04/18/rome-pole-emploi-skos-rdf-data-gouv-fr/">Référentiel ROME de Pôle Emploi en SKOS (à partir de data.gouv.fr)</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></description>
				<content:encoded><![CDATA[<p style="text-align: justify;">Etalab, la mission chargée de la politique Open Data de l’administration aujourd’hui intégrée à la DSI de l’Etat, vient d’ouvrir le <a href="http://www.data.gouv.fr/fr/reference" target="_blank">portail du service public de la donnée</a> (lire l&rsquo;<a href="http://www.silicon.fr/open-data-service-public-donnee-ouvre-171799.html" target="_blank">article sur silicon.fr</a>) : des jeux de données de référence, &laquo;&nbsp;à fort impact économique et social&nbsp;&raquo;, d&rsquo;un niveau de qualité et de fraîcheur garanti. Parmi ceux-ci le <strong><a href="https://www.data.gouv.fr/fr/datasets/repertoire-operationnel-des-metiers-et-des-emplois-rome/" target="_blank">Répertoire Opérationnel des Métiers et de l&rsquo;Emploi (ROME)</a></strong>, la classification utilisée par Pôle Emploi.</p>
<p style="text-align: justify;">A partir des fichiers de données du Répertoire Opérationnel des Métiers et de l&rsquo;Emploi, j&rsquo;ai mis en ligne des <a href="http://labs.sparna.fr/code-rome.html" target="_blank"><strong>visualisations de données du ROME</strong></a>, après nettoyage, traitement, et conversion des données en <a href="http://www.sparna.fr/skos/SKOS-traduction-francais.html">SKOS</a>.</p>
<h3 style="text-align: justify;">Le Répertoire ROME</h3>
<p style="text-align: justify;">Ce répertoire ROME m&rsquo;avait intéressé il y a 4 ans lorsque j&rsquo;avais effectué une mission pour l&rsquo;optimisation sémantique du moteur de recherche SolR d&rsquo;un <em>job board</em>. Nous nous étions demandé à l&rsquo;époque si nous pouvions réutiliser une partie de ce référentiel pour effectuer un rapprochement (automatique ou manuelle) des titres d&rsquo;annonces d&rsquo;emplois vers le référentiel. Cela aurait permis, à partir de l&rsquo;identification du nom du poste, de <strong>catégoriser automatiquement les annonces dans la catégorie ROME appropriée</strong>. Le ROME contient en effet plus de <strong>11000 dénominations de postes/métiers</strong>, catégorisés dans une double classification : une arborescence principale, et une arborescence thématique. On y trouve donc des entrées comme :</p>
<ul style="text-align: justify;">
<li><span id="19f41e49-c1fc-4e81-9b60-c5805abd8aab1348877816"><span class="ext-uri" title="http://data.sparna.fr/vocabulaires/code-rome/G1201-3570">Accompagnateur / Accompagnatrice en écotourisme</span></span></li>
<li>Responsable de rayon produits alimentaires</li>
<li>Assistant / Assistante mise en scène</li>
<li>etc.</li>
</ul>
<p style="text-align: justify;">Ces noms de postes sont organisés dans une classification à 3 niveaux : &laquo;&nbsp;AGRICULTURE ET PÊCHE, ESPACES NATURELS ET ESPACES VERTS, SOINS AUX ANIMAUX &gt; Espaces naturels et espaces verts &gt; Bûcheronnage et élagage&nbsp;&raquo;. Le 3eme niveau (ici &laquo;&nbsp;Bûcheronnage et élagage&nbsp;&raquo;) correspond à une <strong>fiche métier</strong> (ici <a href="http://candidat.pole-emploi.fr/marche-du-travail/fichemetierrome?codeRome=A1201">http://candidat.pole-emploi.fr/marche-du-travail/fichemetierrome?codeRome=A1201</a>) et est associé à un code (ici A1201).</p>
<div style="width: 1189px" class="wp-caption aligncenter"><a href="http://labs.sparna.fr/code-rome.html"><img src="http://labs.sparna.fr/code-rome/code-rome-arborescence.png" alt="" width="1179" height="716" /></a><p class="wp-caption-text">Arborescence principale du code ROME dans SKOS-Play</p></div>
<h3 style="text-align: justify;">Conversion en SKOS</h3>
<p style="text-align: justify;">Je suis reparti ici des fichiers bruts fournis sur data.gouv.fr, et j&rsquo;ai passé un peu de temps à les convertir en SKOS avec le <a href="http://labs.sparna.fr/skos-play/convert" target="_blank">convertisseur Excel vers SKOS de SKOS Play</a> :</p>
<ul style="text-align: justify;">
<li>ajustement manuel de certaines valeurs mal séparées par des virgules dans le fichier CSV de départ;</li>
<li>suppression des guillemets simples et doubles;</li>
<li>fusion des 2 fichiers fournis (arborescence principale et arborescence thématique);</li>
<li>réorganisation des colonnes;</li>
</ul>
<p style="text-align: justify;">Il s&rsquo;agit ensuite de construire un tableau Excel au format adéquat pour une conversion vers SKOS, en adaptant la structure des fichiers, typiquement en calculant le contenu de nouvelles colonnes avec des formules Excel. En particulier, il s&rsquo;agit de <strong>donner des identifiants URI à toutes les entrées du code ROME, pour arriver ainsi à des <a href="http://5stardata.info/fr/">données open data &laquo;&nbsp;4 étoiles&nbsp;&raquo;</a>.  </strong>Cette conversion SKOS est relativement aisée à réaliser, <strong>sans écriture de code ni script</strong>. Elle est accessible à toute personne capable de manipuler Excel.</p>
<p style="text-align: justify;">Ces données SKOS du ROME sont publiées à <a href="http://data.sparna.fr/vocabulaires/code-rome"><strong>http://data.sparna.fr/vocabulaires/code-rome</strong></a>.</p>
<p style="text-align: justify;">Je ne rentrerai pas dans les détails de modélisation du ROME en SKOS, sauf sur 1 point : on peut <strong>se demander ce qu&rsquo;il convient d&rsquo;identifier comme &laquo;&nbsp;Concept&nbsp;&raquo;</strong> dans ce référentiel. J&rsquo;ai pris le parti de considérer chaque nom de <em>poste</em> comme un <a href="http://www.w3.org/2004/02/skos/core#Concept">skos:Concept</a>, et tous les éléments de classification thématiques comme des <a href="http://www.w3.org/2004/02/skos/core#Collection">skos:Collection</a> (donc des tiroirs, qui ne sont pas utilisables dans une indexation). Un point de vue différent mais tout aussi valable serait de considérer non pas les noms de <em>poste</em> comme des concepts, mais bien les noms de <em>métier</em>, chaque métier ayant une correspondance avec une fiche sur le site Pôle Emploi; les noms de poste seraient alors des synonymes (<a href="http://www.w3.org/2004/02/skos/core#altLabel">skos:altLabel</a>) du métier (dans l&rsquo;exemple au-dessus, le métier A1202 &laquo;&nbsp;Bûcheronnage et élagage&nbsp;&raquo; aurait alors pour synonymes &laquo;&nbsp;Agent / Agente d&rsquo;aménagement des haies et fossés&nbsp;&raquo;, &laquo;&nbsp;Agent / Agente d&rsquo;entretien des espaces naturels&nbsp;&raquo;, &laquo;&nbsp;Ouvrier / Ouvrière d&rsquo;entretien des espaces naturels&nbsp;&raquo;, etc.).</p>
<h3 style="text-align: justify;">Visualisations de données</h3>
<p style="text-align: justify;">A partir des données SKOS, on peut ensuite générer des visualisations avec <a href="http://labs.sparna.fr/skos-play">SKOS Play</a> : ces visualisations sont publiés à <strong><a href="http://labs.sparna.fr/code-rome.html" target="_blank">http://labs.sparna.fr/code-rome.html</a></strong>. 3 visualisations ont été produites :</p>
<ol style="text-align: justify;">
<li><a href="http://labs.sparna.fr/code-rome/code-rome-autocomplete-pole-emploi.html">Un champ de recherche assisté</a> (avec une autocompletion sur les noms des métiers), permettant de lancer une recherche d&rsquo;annonces sur le site Pôle Emploi à partir d&rsquo;un nom de métier; on pourrait imaginer quelque chose de similaire pour accéder aux fiches métiers plutôt qu&rsquo;aux annonces;</li>
<li><a href="http://labs.sparna.fr/code-rome/code-rome-visualisation-arbre.html">Une vue arborescente</a> avec d3js, permettant de naviguer visuellement dans l&rsquo;arbre;</li>
<li><a href="http://labs.sparna.fr/code-rome/code-rome-arborescence.html">Un listing indenté</a> en HTML, que l&rsquo;on peut plier et déplier;</li>
</ol>
<p>On notera que, sauf pour l&rsquo;articulation entre le champ de recherche assisté et le site de Pôle Emploi qui demande 10 lignes de javascript, ces visualisations sont produites directement par SKOS Play sans avoir à écrire de code.</p>
<h3 style="text-align: justify;">Un &laquo;&nbsp;Web des données de l&rsquo;emploi&nbsp;&raquo; ?</h3>
<p style="text-align: justify;">On a donc ici fait passer le référentiel ROME à un meilleur niveau de qualité des données, permettant une intégration facilitée dans d&rsquo;autres systèmes, d&rsquo;autres outils de recherche. Au delà de la démonstration sur la conversion et la visualisation de données, j&rsquo;aimerai dans une deuxième étape illustrer l&rsquo;<strong>alignement des données du ROME avec d&rsquo;autres référentiels</strong> (probablement <a href="https://ec.europa.eu/esco/portal/home">ESCO</a>), en utilisant <a href="https://github.com/lmazuel/onagui">OnaGUI,</a> qui permet de simplifier les alignements de vocabulaires. On aurait alors un beau référentiel 5 étoiles, <em>_dans_</em> le web (et pas simplement <em>_sur_</em> le web), avec des correspondances vers d&rsquo;autres données. Un <strong>&laquo;&nbsp;web des données de l&rsquo;emploi&nbsp;&raquo;</strong> ? il fallait bien ça à quelques jours des présidentielles !</p>
<p style="text-align: justify;">Dans une deuxième étape je publierai le SKOS généré pour que les URIs soient déréférençables, en utilisant <a href="http://skosmos.org/">SKOSMOS</a>, dans un déploiement similaire à celui utilisé pour <a href="http://blog.sparna.fr/2017/02/06/unesco-thesaurus-published-with-semantic-web-standards-and-open-source-software/">publier le thesaurus de l&rsquo;UNESCO</a>.</p>
<p style="text-align: justify;">J&rsquo;espère que cette conversion de données en SKOS permettra une diffusion et une intégration plus large de ce référentiel utile pour la recherche d&rsquo;emplois. Dites-moi si vous réutilisez ces données pour d&rsquo;autres visualisations ou d&rsquo;autres systèmes, ou si vous souhaitez de l&rsquo;aide pour son intégration.</p>
<p style="text-align: justify;"><em>Illustration de l&rsquo;article tirée de Wikimedia Commons : <a href="https://fr.wikipedia.org/wiki/Fichier:Metro_de_Paris_-_Ligne_2_-_Rome_07.jpg">https://fr.wikipedia.org/wiki/Fichier:Metro_de_Paris_-_Ligne_2_-_Rome_07.jpg</a></em></p>
<p style="text-align: justify;">
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2017/04/18/rome-pole-emploi-skos-rdf-data-gouv-fr/">Référentiel ROME de Pôle Emploi en SKOS (à partir de data.gouv.fr)</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></content:encoded>
			<wfw:commentRss>https://blog.sparna.fr/2017/04/18/rome-pole-emploi-skos-rdf-data-gouv-fr/feed/</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>UNESCO Thesaurus published with Semantic Web standards and Open-Source software</title>
		<link>https://blog.sparna.fr/2017/02/06/unesco-thesaurus-published-with-semantic-web-standards-and-open-source-software/</link>
		<comments>https://blog.sparna.fr/2017/02/06/unesco-thesaurus-published-with-semantic-web-standards-and-open-source-software/#comments</comments>
		<pubDate>Mon, 06 Feb 2017 08:03:10 +0000</pubDate>
		<dc:creator><![CDATA[Thomas Francart]]></dc:creator>
				<category><![CDATA[Linked Data]]></category>
		<category><![CDATA[Open Data]]></category>
		<category><![CDATA[RDF]]></category>
		<category><![CDATA[SKOS]]></category>
		<category><![CDATA[SKOS Play]]></category>
		<category><![CDATA[Skosmos]]></category>
		<category><![CDATA[SPARQL]]></category>
		<category><![CDATA[Thesaurus]]></category>

		<guid isPermaLink="false">http://blog.sparna.fr/?p=1102</guid>
		<description><![CDATA[<p>Sparna conducted in 2016 the replacement of the Thesaurus Management Software and thesaurus publication platform for the UNESCO, with Open-Source tools all relying on Semantic Web technologies. The result is the new UNESCO vocabularies publication platform at http://vocabularies.unesco.org. The project was conducted in 2 phases : a new thesaurus publication platform based on Skosmos, SKOS&#8230;</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2017/02/06/unesco-thesaurus-published-with-semantic-web-standards-and-open-source-software/">UNESCO Thesaurus published with Semantic Web standards and Open-Source software</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></description>
				<content:encoded><![CDATA[<p style="text-align: justify;"><a href="http://sparna.fr">Sparna</a> conducted in 2016 the replacement of the Thesaurus Management Software and thesaurus publication platform for the <a href="http://uensco.org">UNESCO</a>, with Open-Source tools all relying on Semantic Web technologies. The result is the <strong>new UNESCO vocabularies publication platform at <a href="http://vocabularies.unesco.org">http://vocabularies.unesco.org</a></strong>. The project was conducted in 2 phases : a new thesaurus publication platform based on <a href="http://skosmos.org/">Skosmos</a>, <a href="http://labs.sparna.fr/skos-play/">SKOS Play</a> and <a href="https://jena.apache.org/documentation/fuseki2/">Fuseki</a>, and in a second phase the deployment of <a href="http://vocbench.uniroma2.it/">VocBench</a> as the new Thesaurus Management Software. The system leverages Semantic Web standards by relying on <a href="https://www.w3.org/TR/2009/REC-skos-reference-20090818/">SKOS</a> as the data exchange format, <a href="https://www.w3.org/TR/sparql11-query/">SPARQL</a> as the online thesaurus query language, and dereferancable URI identifiers.</p>
<h2 style="text-align: justify;"><strong>The new thesaurus browser</strong></h2>
<p style="text-align: justify;">The first objective was to replace the thesaurus publication platform, while maintaining existing backoffice tools for thesaurus management. This choice allowed to quickly demonstrate a publicly available interface for searching and browsing the vocabulary, without waiting for the deployment of the complete system.</p>
<p style="text-align: justify;"><a href="https://github.com/NatLibFi/Skosmos">Skosmos</a> was used as the thesaurus browser; it is easy to deploy, well documented, and the team behind it from the National Library of Finland is super-reactive for fixing bugs. It offers out-of-box features like alphabetical/hierarchical browsing, autocomplete search, URI-based content negociation, and a feedback form. Important aspects for UNESCO were the ability to have a multilingual interface (English, French, Spanish, Russian), the possibility to customize the stylesheets/logo/help page, or the order of the fields in a concept display page. We added a direct link to trigger a search in the UNESDOC database from a concept page in Skosmos, thus easily linking the new thesaurus browser to the existing resource center.</p>
<div id="attachment_1108" style="width: 660px" class="wp-caption aligncenter"><a href="http://blog.sparna.fr/wp-content/uploads/2017/01/screenshot-skosmos-small.png"><img class="wp-image-1108 size-large" src="http://blog.sparna.fr/wp-content/uploads/2017/01/screenshot-skosmos-small-1024x676.png" alt="unesco-skosmos" width="650" height="429" /></a><p class="wp-caption-text">UNESCO thesaurus published in Skosmos</p></div>
<p style="text-align: justify;">2 additionnal components were used for a complete vocabulary publishing solution; <a href="http://labs.sparna.fr/skos-play/">SKOS Play</a> was used to generate <a href="http://vocabularies.unesco.org/exports/thesaurus/latest/">downloadable PDF documents generated from the SKOS thesaurus</a> : complete editions of the thesaurus with alphabetical index, hierarchical tree and translation tables, and KWIC indexes, each in French, English, Spanish and Russian. The documents are regenerated automatically each time a new version of the thesaurus is published. <a href="https://jena.apache.org/documentation/fuseki2/">Fuseki</a> with a customized SPARLQ form is used as the frontend for <a href="http://vocabularies.unesco.org/sparql">public SPARQL querying of the thesaurus</a>.</p>
<p style="text-align: justify;">Meron Ewketu, responsible for the UNESCO thesaurus, describes the benefits of the new publication platform : <em>&laquo;&nbsp;The obvious benefit is the enhanced user interface : a nice hierarchical display, a powerful search, an easy navigation between the different language versions. Thanks to these features <strong>the platform was immediately endorsed by our user community</strong>. </em><em>What is also very much appreciated is the possibility of responding to various user needs in terms of format and content. Being able to extract part of the thesaurus as per our users’ requirements, and being able to deliver the content in a variety of formats, including PDF, using the SPARQL endpoint and SKOS Play. </em><em>We have also noticed an <strong>increase in user participation</strong>. The feedback form enabled us to engage with our users more easily.</em>&laquo;&nbsp;</p>
<h2 style="text-align: justify;">The Collaborative Thesaurus Management Software</h2>
<p style="text-align: justify;">The second phase of the project aimed at replacing the old thesaurus management software, and integrating it with the new thesaurus browser. UNESCO and Sparna chose to deploy <a href="http://vocbench.uniroma2.it/">VocBench</a>, an open-source SKOS-based thesaurus management solution from the Tor Vergata University in Rome. We also considered <a href="https://github.com/culturecommunication/ginco">Ginco</a> as a possible alternative; VocBench was chosen mainly for its ability to properly handle collaborative multi-user maintenance of the thesaurus; this was an important aspect for UNESCO, having remote contributors to the thesaurus in Russia, and translations in Chinese and Arabic coming in the future; the ability to work remotely and to have a validation workflow of the modifications was essential. In addition, <a href="http://vocbench.uniroma2.it/support/community.jsf">Vocbench is already deployed by other international organizations</a>, and the <a href="https://groups.google.com/d/msg/vocbench-user/S2Nn05osD24/onVn30AhBgAJ">upcoming v3 of Vocbench</a> is funded by the ISA2 program of the European Union, thus giving garantees as to the maintenance of the application in the next few years.</p>
<div id="attachment_1109" style="width: 660px" class="wp-caption aligncenter"><a href="http://blog.sparna.fr/wp-content/uploads/2017/01/screenshot-vocbench.png"><img class="wp-image-1109 size-large" src="http://blog.sparna.fr/wp-content/uploads/2017/01/screenshot-vocbench-1024x510.png" alt="unesco-vocbench" width="650" height="324" /></a><p class="wp-caption-text">UNESCO Thesaurus managed in VocBench</p></div>
<p style="text-align: justify;">VocBench is SKOS-XL from the bottom up and stores the thesaurus data in an RDF triplestore. We chose to deploy <a href="http://graphdb.ontotext.com/">GraphDB from Ontotext</a> as the backend for VocBench. VocBench offers user profile management and edition workflow management, multilingual thesaurus editing, and the possibility to add custom attributes to the thesaurus concepts and terms. We used this to capture corresponding country codes and language codes for certain concepts in the UNESCO thesaurus with a small <a href="http://vocabularies.unesco.org/ontology/">UNESCO vocabulary publishing ontology</a> describing these 2 properties.</p>
<p style="text-align: justify;">The deployment in production of Vocbench is fairly complex, essentially due to the middleware component on which it relies, called <a href="http://semanticturkey.uniroma2.it/">SemanticTurkey</a>; VocBench requires a total of 4 pieces of software (relationnal database, RDF triplestore, SemanticTurkey server, VocBench application server). But, once you are familiar with the procedure, and again with the precious help of the community on th <a href="https://groups.google.com/forum/#!forum/vocbench-user">mailing-list</a>, everything works fine. Another limitation of VocBench v2 is that it does not support SKOS Collections, only ConceptSchemes.</p>
<p style="text-align: justify;">Ms Ewketu explains the benefits of VocBench : &laquo;&nbsp;A<em>part from the obvious functionalities of collaborative and distributed maintenance, other important aspects for us were the ability to <strong>manage several vocabularies</strong> and the ability to <strong>make alignments with other thesauri</strong>. </em><em>Being able to document changes through history notes is something very interesting, which I am sure we will exploit in the future. This is quite interesting for researchers who study the evolution of terminology, within an organization.</em>&laquo;&nbsp;</p>
<h2 style="text-align: justify;"><em>&laquo;&nbsp;<strong>leverage the thesaurus to achieve interoperability</strong>&laquo;&nbsp;</em></h2>
<p style="text-align: justify;">The project clearly is a success story for Semantic Web technologies : with URIs, RDF and SKOS as W3C standards, the <strong>UNESCO has achieved its mission of transforming its thesaurus into open, reusable data</strong>. The thesaurus is now available for browsing by humans and in machine-readable formats. URIs makes it open for linking from/to other knowledge organization systems on the web, thus enabling interoperability between document databases of multiple organizations.</p>
<p style="text-align: justify;">The project is also a great success story for Open Source; the support from the community and the maintainers of both Skosmos and VocBench was essential for such a quality achievement, and Sparna and UNESCO contributed to both communities by providing translations, filing bug reports and testing new versions. It shows how these tools have enabled the UNESCO to replace an entire thesaurus management platform with <strong>no licensing cost, no vendor or data lock-in</strong>.</p>
<p style="text-align: justify;">&laquo;&nbsp;<em><strong>The main benefit of this project for us will be to leverage the thesaurus to achieve interoperability</strong> between our different repositories, as well as with external datasets.&nbsp;&raquo; c</em>oncludes Ms Ewketu from UNESCO.<em> &laquo;&nbsp;We are currently working on integrating the new thesaurus within the various information systems. Next phase will be mapping our thesaurus with vocabularies such as the <a href="https://lib-thesaurus.un.org/LIB/DHLUNBISThesaurus.nsf/zHelpDocuments/English+About+Help?OpenDocument">UN Thesaurus</a> and <a href="http://eurovoc.europa.eu/">Eurovoc</a>.&nbsp;&raquo;</em></p>
<hr />
<p style="text-align: justify;"><em>Want to learn more ? reach me at thomas /dot/ francart /at/ sparna /dot/ fr. </em></p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2017/02/06/unesco-thesaurus-published-with-semantic-web-standards-and-open-source-software/">UNESCO Thesaurus published with Semantic Web standards and Open-Source software</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></content:encoded>
			<wfw:commentRss>https://blog.sparna.fr/2017/02/06/unesco-thesaurus-published-with-semantic-web-standards-and-open-source-software/feed/</wfw:commentRss>
		<slash:comments>10</slash:comments>
		</item>
		<item>
		<title>Article dans la revue I2D &#8211; ELI : une &#171;&#160;mise en lien&#160;&#187; des textes juridiques européens</title>
		<link>https://blog.sparna.fr/2016/08/01/eli-article-i2d-adbs/</link>
		<comments>https://blog.sparna.fr/2016/08/01/eli-article-i2d-adbs/#comments</comments>
		<pubDate>Mon, 01 Aug 2016 10:46:38 +0000</pubDate>
		<dc:creator><![CDATA[Thomas Francart]]></dc:creator>
				<category><![CDATA[Linked Data]]></category>
		<category><![CDATA[Open Data]]></category>
		<category><![CDATA[ELI]]></category>
		<category><![CDATA[european legislation identifier]]></category>
		<category><![CDATA[FRBR]]></category>
		<category><![CDATA[I2D]]></category>
		<category><![CDATA[loi]]></category>

		<guid isPermaLink="false">http://blog.sparna.fr/?p=1043</guid>
		<description><![CDATA[<p>A l&#8217;occasion du dossier &#171;&#160;Web de données et création de valeurs : le champ des possibles&#160;&#187; dans la revue de l&#8217;ADBS I2D de juin 2016, je cosigne avec Jean Delahousse cet article sur le projet ELI, dont il avait déjà été question ici. ELI : une « mise en lien » des textes juridiques européens La législation&#8230;</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2016/08/01/eli-article-i2d-adbs/">Article dans la revue I2D &#8211; ELI : une &laquo;&nbsp;mise en lien&nbsp;&raquo; des textes juridiques européens</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></description>
				<content:encoded><![CDATA[<p><em>A l&rsquo;occasion du dossier &laquo;&nbsp;Web de données et création de valeurs : le champ des possibles&nbsp;&raquo; dans la <a href="http://www.adbs.fr/i2d-n-2-juin-2016-dossier-web-de-donnees-et-creation-de-valeurs-le-champ-des-possibles-156675.htm" target="_blank">revue de l&rsquo;ADBS I2D de juin 2016</a>, je cosigne avec Jean Delahousse cet article sur le <a href="http://eur-lex.europa.eu/eli-register/about.html" target="_blank">projet ELI</a>, dont il avait <a href="http://blog.sparna.fr/2015/05/31/eli-european-legislation-identifier-web-de-donnees-legislatif-europeen/" target="_blank">déjà été question ici</a>.</em></p>
<p><span id="more-1043"></span></p>
<h1 class="western">ELI : une « mise en lien » des textes juridiques européens</h1>
<p class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;">La législation est, pour les pays d’Europe et pour l’Union européenne, un élément structurant de la vie des citoyens, de l’activité économique et du débat politique. La législation nationale et régionale s’impose aux citoyens qui peuvent également invoquer le droit européen auprès des juridictions nationales ou lors d’un appel auprès de la Cour de justice européenne. Les entreprises qui opèrent en Europe doivent appréhender la réglementation d’une trentaine de pays, mais également les évolutions des législations techniques, commerciales et financières que préparent la Commission et le Parlement européens et qui seront transposées en droit national.</span></span></p>
<p class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;">Face à l’importance du droit mais aussi à la complexité d’accès à des corpus juridiques linguistiquement hétérogènes et géographiquement dispersés, les Journaux officiels (JO) européens ont voulu innover en imaginant un système original d’identification, de signalement et de mise en relation des corpus juridiques à travers l’Europe : le standard ELI (European Legislation Identifier)<sup><a class="sdfootnoteanc" href="#sdfootnote1sym" name="sdfootnote1anc"><sup>1</sup></a></sup>. Cette initiative a reçu le soutien officiel de l’Union européenne en 2012<sup><a class="sdfootnoteanc" href="#sdfootnote2sym" name="sdfootnote2anc"><sup>2</sup></a></sup>. Les premiers résultats sont exploitables depuis 2015 grâce aux précurseurs qu’ont été les JO anglais, français, italiens, luxembourgeois et européens. D’autres états membres le déploient actuellement, sur la base du volontariat.</span></span></p>
<h3 class="western">ELI utilise les technologies du web de données</h3>
<p class="western" align="justify"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;">ELI permet d’identifier, décrire et relier les textes de lois sur le web de données dont il utilise les technologies pour arriver à son objectif :</span></span></p>
<ul>
<li class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;">les identifiants des textes de loi sont des URIs ;</span></span></li>
<li class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;">ceux-ci sont décrits suivant un modèle de données formalisé, comme une ontologie ;</span></span></li>
<li class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;">ces descriptions sont ajoutées aux portails web de diffusion des lois à l&rsquo;aide de marquage sémantique RDFa ;</span></span></li>
<li class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;">les liens se font à l’échelle du Web, d’un URI vers un autre.</span></span></li>
</ul>
<p class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;">Dans une logique d’accès simplifié à la loi, ELI impose que les identifiants soient signifiants, « lisibles » par l’humain et associés à une logique de navigation dans le corpus législatif. Par exemple, la directive européenne 2003/98/CE sur l’ouverture des données publiques<sup><a class="sdfootnoteanc" href="#sdfootnote3sym" name="sdfootnote3anc"><sup>3</sup></a></sup> (qui a ouvert la voie à l’Open data) est identifiée par le ELI : http://data.europa.eu/eli/dir/2003/98/oj ; sa transposition dans la loi française (décret n° 2005-1755 du 30 décembre 2005) peut être identifiée par https://www.legifrance.gouv.fr/eli/decret/2005/12/30/2005-1755/jo/texte, et une métadonnée indiquera que le décret français « eli:transposes » la directive européenne.</span></span></p>
<h3 class="western">Modèle FRBR et graphe de données législatif</h3>
<p class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;">Le modèle FRBR prescrit le découpage des notices documentaires en niveaux conceptuels : Oeuvre, Expression, Manifestation, Item<sup><a class="sdfootnoteanc" href="#sdfootnote4sym" name="sdfootnote4anc"><sup>4</sup></a></sup>, auxquels FRBRoo<sup><a class="sdfootnoteanc" href="#sdfootnote5sym" name="sdfootnote5anc"><sup>5</sup></a></sup> ajoute – entre autres – le niveau d’« Oeuvre complexe »<sup><a class="sdfootnoteanc" href="#sdfootnote6sym" name="sdfootnote6anc"><sup>6</sup></a></sup>. Ces modèles proposent également de nombreuses propriétés pour décrire chacun des niveaux, créant des modèles précis mais complexes.</span></span></p>
<p class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;">ELI se veut à la fois générique (applicable aussi bien pour la <i>common law</i> que pour le droit codifié), simple à implémenter, mais rigoureux dans la description des lois ; il a donc défini un modèle compatible avec l’idée-clé du découpage des notices en 4 niveaux conceptuels, mais dépouillé du reste de la complexité de FRBRoo. Une quarantaine de champs sont spécifiés, en particulier les liens entre lois : « modifie », « cite », « baséSur », etc.</span></span></p>
<p class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;">Les niveaux FRBR – plus l’« Oeuvre complexe » FRBRoo – sont donc appliqués à la description des lois :</span></span></p>
<ul>
<li class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;">Oeuvre complexe : texte juridique identifié par un certain nombre de composants invariants dans le temps (Directive 2003/98/CE) ;</span></span></li>
<li class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;">Oeuvre : version spécifique du texte au cours du temps ; typiquement sa version d’origine (publiée au JO) ou l’une de ses versions consolidées ;</span></span></li>
<li class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;">Expression : variante linguistique d’une version particulière, dans des systèmes législatifs multilingues (comme la loi européenne) ;</span></span></li>
<li class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;">Manifestation : format de fichier spécifique d’une variante linguistique d’une version particulière ; typiquement, le PDF authentifié pour la version opposable du JO ou la version HTML.</span></span></li>
</ul>
<p class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;">En accord avec la logique des données (et modèles) liées, chaque État membre peut spécialiser les descriptions ELI avec ses propres champs, conservant ainsi une sémantique précise tout en restant compatible avec le cadre général.</span></span></p>
<h3 class="western">Un cadre flexible pour une adoption progressive</h3>
<p class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;">L&rsquo;approche d&rsquo;ELI n&rsquo;est pas contraignante : chaque État peut spécifier sa propre structure d&rsquo;URI à partir des composantes définies par ELI, choisir de publier seulement certaines métadonnées ou implémenter ELI uniquement sur une partie de son corpus.</span></span></p>
<p class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;">Pour les JO qui ont une pratique de catalogage des textes légaux, ELI dans sa forme la plus simple a peu d&rsquo;impact sur les chaînes de production documentaires ; il peut être implémenté en ajoutant uniquement des métadonnées en RDFa dans les pages web finales, sans impact ni sur le reste du flux ni sur l’expérience utilisateur, la principale tâche du JO étant de publier ses métadonnées à l’aide des champs de l’ontologie. ELI constitue donc pour les JO une première marche vers le web de données ; une fois la dynamique enclenchée, les flux documentaires pourront être enrichis avec plus de métadonnées ou des descriptions plus précises.</span></span></p>
<p class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;">Le graphe des données ELI, en cours de constitution, est un objet original dans le paysage du web des données ; par sa publication décentralisée, son adaptabilité et la légèreté des moyens mis en œuvre, il se différencie d’un projet tel qu’Europeana<sup><a class="sdfootnoteanc" href="#sdfootnote7sym" name="sdfootnote7anc"><sup>7</sup></a></sup> qui vise à constituer un catalogue centralisé d’œuvres d’art. En effet, dans ELI, chaque acteur garde la charge de publier son propre graphe de notices documentaires en s’appuyant sur sa propre infrastructure. Il se différencie également du projet multilingue Wikipedia/Dbpedia<sup><a class="sdfootnoteanc" href="#sdfootnote8sym" name="sdfootnote8anc"><sup>8</sup></a></sup> car les données sont publiées dès l’origine pour le web des données à partir d’une activité de catalogage professionnelle. Il s’en différencie encore par la variété des acteurs dont les statuts sont très divers : administrations nationales, régionales ou européennes mais aussi éditeurs privés assurant une mission de service public.</span></span></p>
<p class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;">ELI concilie adaptabilité et interopérabilité en s’appuyant sur un mix de référentiels partagés publiés par l’Union européenne (langues, lieux, statuts des documents, formats de fichiers) comme sur des référentiels propres à la législation nationale (acteurs juridiques, types de texte).</span></span></p>
<p class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;">Cette coordination originale d’acteurs divers qui publient avec leurs moyens propres des graphes complémentaires dans le web des données exige une implémentation simple et économique, mobilisant un minimum de compétences spécialisées. Simple, car la mise en œuvre est réalisée par les JO qui n’ont pas au départ de compétences dans les technologies du web sémantique. Économique, car le coût de mise en œuvre ne devrait pas dépasser quelques dizaines de milliers d’euros pour les JO aux budgets les plus réduits. Les solutions pour répondre à ce challenge sont le partage de retours d’expérience entre JO, des formations pour chaque pays et un standard stable pour éviter des coûts de maintenance élevés.</span></span></p>
<h3 class="western">Premiers exemples de réutilisation</h3>
<p class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;">L’objectif d’ELI est de permettre de construire au meilleur coût des applications qui s’appuient sur le graphe de données des législations européennes. Grâce au travail de vulgarisation réalisé par le mouvement associatif, comme Open Law en France, des premiers projets de réutilisation apparaissent. On peut citer, par exemple, le tableau de bord d’Open Law<sup><a class="sdfootnoteanc" href="#sdfootnote9sym" name="sdfootnote9anc"><sup>9</sup></a></sup> qui, avec environ 12 jours de travail, a permis de récupérer et exploiter les données ELI françaises, italiennes et européennes, ou le travail en cours par un éditeur de logiciels, KBCrawl, pour exploiter les données ELI dans une application de veille juridique sectorielle. Leur point commun est d’avoir abouti à la création de services à haute valeur ajoutée pour des investissements de quelques jours à quelques dizaines de jours, avec la possibilité d’étendre le service sur les données d’autres pays utilisant le standard ELI.</span></span></p>
<p class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;">En combinant ontologie générique, adressage à plusieurs niveaux, liens entre lois nationales et loi européenne, le tout dans un contexte multilingue, ELI crée donc un véritable graphe de données<i> </i>législatives à l’échelle européenne. Le web coopératif et décentralisé entre ici en résonance avec le projet européen, lui aussi coopératif et décentralisé.</span></span></p>
<div id="sdfootnote1">
<p class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;"><a class="sdfootnotesym" href="#sdfootnote1anc" name="sdfootnote1sym">1</a> <span style="font-family: Calibri,sans-serif;"><span style="font-size: xx-small;">ELI register : http://eur-lex.europa.eu/eli-register/about.html, voir également http://eli.fr<br />
</span></span></span></span></p>
</div>
<div id="sdfootnote2">
<p class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;"><a class="sdfootnotesym" href="#sdfootnote2anc" name="sdfootnote2sym">2</a> <span style="font-family: Calibri,sans-serif;"><span style="font-size: xx-small;">Conclusions du Conseil préconisant l’introduction d’un identifiant européen de la législation (ELI) : http://eur-lex.europa.eu/legal-content/FR/TXT/?uri=CELEX:52012XG1026%2801%29</span></span></span></span></p>
</div>
<div id="sdfootnote3">
<p class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;"><a class="sdfootnotesym" href="#sdfootnote3anc" name="sdfootnote3sym">3</a> <span style="font-family: Calibri,sans-serif;"><span style="font-size: xx-small;">Directive « PSI » : http://eur-lex.europa.eu/legal-content/FR/NOT/?uri=CELEX:32003L0098 </span></span></span></span></p>
</div>
<div id="sdfootnote4">
<p class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;"><a class="sdfootnotesym" href="#sdfootnote4anc" name="sdfootnote4sym">4</a> <span style="font-family: Calibri,sans-serif;"><span style="font-size: xx-small;">FRBR : www.bnf.fr/fr/professionnels/modelisation_ontologies/a.modele_FRBR.html</span></span></span></span></p>
</div>
<div id="sdfootnote5">
<p class="sdfootnote-western"><a class="sdfootnotesym" href="#sdfootnote5anc" name="sdfootnote5sym">5</a> <span style="font-family: Calibri,sans-serif;"><span style="font-size: xx-small;">FRBR object-</span></span><span style="font-family: Calibri,sans-serif;"><span style="font-size: xx-small;"><span lang="en-US">oriented</span></span></span></p>
</div>
<div id="sdfootnote6">
<p class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;"><a class="sdfootnotesym" href="#sdfootnote6anc" name="sdfootnote6sym">6</a> <span style="font-family: Calibri,sans-serif;"><span style="font-size: xx-small;"><span lang="en-US">FRBRoo Complex Work : www.ifla.org/files/assets/cataloguing/frbr/frbroo_v2.2.pdf</span></span></span></span></span></p>
</div>
<div id="sdfootnote7">
<p class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;"><a class="sdfootnotesym" href="#sdfootnote7anc" name="sdfootnote7sym">7</a> <span style="font-family: Calibri,sans-serif;"><span style="font-size: xx-small;"><span lang="es-ES">Europeana : www.europeana.eu/portal</span></span></span></span></span></p>
</div>
<div id="sdfootnote8">
<p class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;"><a class="sdfootnotesym" href="#sdfootnote8anc" name="sdfootnote8sym">8</a> <span style="font-family: Calibri,sans-serif;"><span style="font-size: xx-small;">DBPedia francophone : http://fr.dbpedia.org</span></span></span></span></p>
</div>
<div id="sdfootnote9">
<p class="western"><span style="font-family: Calibri,sans-serif;"><span style="font-size: small;"><a class="sdfootnotesym" href="#sdfootnote9anc" name="sdfootnote9sym">9</a> <span style="font-family: Calibri,sans-serif;"><span style="font-size: xx-small;">Tableau de bord d’OpenLaw : http://ld.openlaw.fr</span></span></span></span></p>
</div>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2016/08/01/eli-article-i2d-adbs/">Article dans la revue I2D &#8211; ELI : une &laquo;&nbsp;mise en lien&nbsp;&raquo; des textes juridiques européens</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></content:encoded>
			<wfw:commentRss>https://blog.sparna.fr/2016/08/01/eli-article-i2d-adbs/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>ELI &#8211; European Legislation Identifier : une voie pour le web de données législatif européen</title>
		<link>https://blog.sparna.fr/2015/05/31/eli-european-legislation-identifier-web-de-donnees-legislatif-europeen/</link>
		<comments>https://blog.sparna.fr/2015/05/31/eli-european-legislation-identifier-web-de-donnees-legislatif-europeen/#comments</comments>
		<pubDate>Sun, 31 May 2015 14:14:40 +0000</pubDate>
		<dc:creator><![CDATA[Thomas Francart]]></dc:creator>
				<category><![CDATA[Linked Data]]></category>
		<category><![CDATA[Open Data]]></category>
		<category><![CDATA[RDF]]></category>
		<category><![CDATA[ELI]]></category>
		<category><![CDATA[european legislation identifier]]></category>
		<category><![CDATA[law]]></category>
		<category><![CDATA[legal innovation]]></category>
		<category><![CDATA[open law]]></category>

		<guid isPermaLink="false">http://blog.sparna.fr/?p=970</guid>
		<description><![CDATA[<p>Identifier, décrire et relier les lois sur le web ELI (European Legislation Identifier) est une initiative européenne pour identifier, décrire et relier les lois de l&#8217;Union européenne et de ses états membres. D&#8217;abord issue du forum des journaux officiels des pays membres de l&#8217;UE, l&#8217;initiative est en cours de déploiement en Europe, pour les pays&#8230;</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2015/05/31/eli-european-legislation-identifier-web-de-donnees-legislatif-europeen/">ELI &#8211; European Legislation Identifier : une voie pour le web de données législatif européen</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></description>
				<content:encoded><![CDATA[<h2>Identifier, décrire et relier les lois sur le web</h2>
<p style="text-align: justify;"><a href="http://fr.wikipedia.org/wiki/Identifiant_europ%C3%A9en_de_la_l%C3%A9gislation" target="_blank">ELI</a> (European Legislation Identifier) est une initiative européenne pour <strong><span style="text-decoration: underline;">identifier</span>, <span style="text-decoration: underline;">décrire</span> et <span style="text-decoration: underline;">relier</span> les lois de l&rsquo;Union européenne et de ses états membres</strong>. D&rsquo;abord issue du <a href="https://circabc.europa.eu/webdav/CircaBC/OPOCE/ojf/Information/prod/html/index.htm" target="_blank">forum des journaux officiels des pays membres de l&rsquo;UE</a>, l&rsquo;initiative est en cours de déploiement en Europe, pour les pays qui le souhaitent. ELI utilise l&rsquo;infrastructure du web et les technologies du web sémantique pour arriver à cet objectif :</p>
<ul style="text-align: justify;">
<li>les identifiants de législation sont des <strong>URIs;</strong></li>
<li>les législations sont décrites suivant un modèle de données formalisé comme une <strong>ontologie;</strong></li>
<li>ces descriptions viennent structurer les pages web existantes en utilisant du balisage <strong>RDFa;</strong></li>
<li>les liens se font à l&rsquo;échelle du web, d&rsquo;un URI vers un autre.</li>
</ul>
<p style="text-align: justify;">Si les lois sont accessibles depuis longtemps aux citoyens via les portails de diffusion nationaux (<a href="http://legifrance.gouv.fr/" target="_blank">Legifrance</a> en France), ELI va permettre une véritable <strong>mise en réseau des données des lois européennes</strong>, dans des formats ouverts et permettant leur réutilisation.</p>
<p style="text-align: justify;">Pour donner un exemple très concret :</p>
<ul>
<li style="text-align: justify;">la <a href="http://eur-lex.europa.eu/legal-content/FR/NOT/?uri=CELEX:32003L0098" target="_blank">directive européenne &laquo;&nbsp;PSI&nbsp;&raquo; sur l&rsquo;ouverture des données publiques</a> (celle qui a ouvert la voie à l&rsquo;<strong>open data</strong>) sera identifiée par le ELI <a href="http://data.europa.eu/eli/dir/2003/98/oj" target="_blank">http://data.europa.eu/eli/dir/2003/98/oj</a></li>
<li style="text-align: justify;">sa transposition dans la loi française (<a href="http://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTEXT000000265304&amp;categorieLien=id" target="_blank">Décret n° 2005-1755 du 30 décembre 2005</a>) sera identifiée par le ELI <a href="http://legifrance.gouv.fr/eli/decret/2005/12/30/JUSC0520903D/jo" target="_blank">http://legifrance.gouv.fr/eli/decret/2005/12/30/JUSC0520903D/jo</a>, et une métadonnée indiquera que le décret français &laquo;&nbsp;<a href="http://data.europa.eu/eli/ontology#transposes" target="_blank">eli:transposes</a>&nbsp;&raquo; la directive européenne (<em>l&rsquo;URI eli:transposes n&rsquo;est pas encore déréférençable, voir plus bas pour le lien vers le fichier d&rsquo;ontologie</em>).</li>
</ul>
<h2>Les avantages d&rsquo;ELI ?</h2>
<p style="text-align: justify;"><span style="text-decoration: underline;">Pour les états membres</span> c&rsquo;est un <strong>mécanisme d&rsquo;identifiant homogène pour les lois sur le web</strong>; Il ne serait pas surprenant d&rsquo;ailleurs que ce mécanisme d&rsquo;identifiant URI devienne partie intégrante des systèmes de production législatifs dès les premières étapes de production d&rsquo;un texte. C&rsquo;est également un <strong>élément facilitateur d&rsquo;accès à la loi</strong> pour le citoyen (et le réutilisateur de données). C&rsquo;est un moyen de <strong>faciliter l&rsquo;échange de données</strong> entre systèmes informatiques à l&rsquo;intérieur de l&rsquo;état ou entre états.</p>
<p style="text-align: justify;"><span style="text-decoration: underline;">Pour les institutions européennes</span> ELI est un moyen d&rsquo;<strong>automatiser l&rsquo;échange de données entre institutions ou depuis les états membres vers les institutions européennes</strong>. <a href="http://eur-lex.europa.eu/">Eur-Lex</a> (portail de la loi européenne) contient par exemple les références des &laquo;&nbsp;mesures nationales d&rsquo;exécution&nbsp;&raquo;, c&rsquo;est-à-dire les lois nationales qui transposent les directives européennes. On retrouve par exemple <a href="http://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX:72003L0098FRA_127707&amp;qid=1431444174298" target="_blank">le décret français cité plus haut dans Eur-Lex</a>. Ces informations sont transmises manuellement par les états membres, mais leur récupération pourrait être automatisée grâce à ELI.</p>
<p style="text-align: justify;"><span style="text-decoration: underline;">Pour les utilisateurs finaux</span> ce seront des <strong>URIs homogènes, &laquo;&nbsp;user-friendly&nbsp;&raquo;</strong> (voir plus bas) &#8211; si tant est qu&rsquo;une URI puisse être user-friendly !! &#8211; donc une pose de lien plus facile vers la loi, dans des tweets ou des billets de blog. Ce seront aussi des applications et des <strong>services à valeur ajoutée qui seront développés à partir des données</strong> mises à disposition en ELI; on imagine bien par exemple des tables de droit comparé entre plusieurs pays générées de façon automatique, montrant comment une directive a été implémentée dans différents pays.</p>
<h2>URI user-friendly et modèle FRBR</h2>
<p style="text-align: justify;"><span style="text-decoration: underline;">Les URI ELI</span><strong> restent lisibles pour l&rsquo;humain</strong>. Il ne s&rsquo;agit pas d&rsquo;URIs opaques composées de lettres ou chiffres incompréhensibles, mais d&rsquo;URIs :</p>
<ul style="text-align: justify;">
<li>qui utilisent des éléments relativement homogènes dans les différents états membres; ELI n&rsquo;impose pas de schema d&rsquo;URI unique, mais des éléments à assembler, comme le type de document ou l&rsquo;année de publication; les pays décident de leur schéma d&rsquo;URI <strong>en fonction des habitudes de citation</strong> de leurs citoyens; les schémas d&rsquo;URI de chaque pays seront documentés dans un registre au niveau européen;</li>
<li>qui sont &laquo;&nbsp;hackable&nbsp;&raquo; c&rsquo;est-à-dire qu&rsquo;en étant un peu débrouillard on peut raccourcir l&rsquo;URI pour obtenir une liste de résultats (<a href="http://data.europa.eu/eli/dir/2003" target="_blank">http://data.europa.eu/eli/dir/2003</a> doit ramener les directives européennes de 2003), ou bien on peut facilement accéder à un autre texte en modificant l&rsquo;URI une fois qu&rsquo;on a &laquo;&nbsp;compris le truc&nbsp;&raquo;;</li>
</ul>
<p style="text-align: justify;"><span style="text-decoration: underline;">L&rsquo;<a href="http://publications.europa.eu/mdr/eli/" target="_blank">ontologie ELI</a></span>, quant à elle, en bonne européenne, est le <strong>résultat de compromis</strong>, et cherche à accommoder tout autant la &laquo;&nbsp;common law&nbsp;&raquo; anglo-saxonne que notre droit civil. C&rsquo;est un <strong>modèle d&rsquo;échange</strong>, de publication de métadonnées, et donc relativement simple; il reprend les informations essentielles de description des textes législatifs, en mettant l&rsquo;<strong>accent sur les liens entre les textes</strong>, et notamment les liens d&rsquo;implémentation et de transposition des directives européennes en lois nationales.</p>
<p style="text-align: justify;">L&rsquo;ontologie se base sur deux modèles :</p>
<ul>
<li style="text-align: justify;"><a href="http://fr.wikipedia.org/wiki/Sp%C3%A9cifications_fonctionnelles_des_notices_bibliographiques" target="_blank">FRBR</a> pour le squelette LegalResource &gt; LegalExpression &gt; Format;</li>
<li style="text-align: justify;">et <a href="http://dublincore.org/documents/dcmi-terms/" target="_blank">Dublin Core (dcterms)</a> à partir duquel certaines propriétés ont été étendues, quand ça avait du sens;</li>
</ul>
<h2>Coopération européenne et web de données</h2>
<pre>&lt;attention_lyrisme&gt;</pre>
<p style="text-align: justify;"><span style="text-decoration: underline;">L&rsquo;Europe est une belle chose</span>, on l&rsquo;oublie un peu. Son fonctionnement technocratique est certainement critiquable, mais l&rsquo;idée est belle; c&rsquo;est celle de la coopération entre des peuples différents. Et quand, lors d&rsquo;une réunion de projet ELI, des luxembourgeois, anglais et français, des employés des institutions européennes allemands et hongrois, écoutent un irlandais aider la délégation maltaise à spécifier ses URIs ELIs, l&rsquo;idée de la coopération européenne s&rsquo;impose. Parce que tous ces gens auraient pu choisir de rester dans leur pays plutôt que d&rsquo;essayer de travailler ensemble.</p>
<p style="text-align: justify;"><span style="text-decoration: underline;">Le web est une belle chose</span>, on l&rsquo;oublie un peu. Son fonctionnement de plus en plus mercantile et centralisé est certainement critiquable, mais l&rsquo;idée est belle; c&rsquo;est celle de la liberté pour chacun de s&rsquo;exprimer, c&rsquo;est celle de la mise en commun et de la mise en lien des connaissances de chacun. Et quand des projets collaboratifs internationaux comme ELI choisissent tout naturellement ce socle technologique pour se concrétiser, cette idée de la mise en commun et de la mise en lien des connaissances de chacun s&rsquo;impose. Parce que toutes ces données auraient pu rester cloisonnées plutôt que d&rsquo;essayer de se lier ensemble.</p>
<p style="text-align: justify;"><a href="http://philarcher.org/" target="_blank">Phil Archer</a> au dernier <a href="http://semweb.pro/semwebpro-2014.html" target="_blank">semweb.pro 2014</a> a dit (la phrase m&rsquo;était restée) &laquo;&nbsp;<em>don&rsquo;t let anyone tell you that the semantic web doesn&rsquo;t work. Because it does.</em>&laquo;&nbsp;. Des projets comme ELI sont non seulement la preuve que ça marche (mais donner encore une preuve serait entrer dans le jeu de ceux qui objectent que cela ne marche pas), mais aussi la preuve que <strong>les valeurs qui sous-tendent les technologies du web (de données) sont en adéquation avec les besoins des projets actuels</strong>.</p>
<p style="text-align: justify;">Et le mouvement ne peut que s&rsquo;amplifier : car<strong> le web est tout à la fois ce qui <span style="text-decoration: underline;">permet</span> à des projets collaboratifs comme ELI de se concrétiser, mais aussi ce qui <span style="text-decoration: underline;">déclenche</span> de nouvelles collaborations, puisque c&rsquo;est par l&rsquo;ouverture (des opinions, des documents, des données) que naît la confiance, la compréhension, et la coopération</strong>.</p>
<pre>&lt;/attention_lyrisme&gt;</pre>
<h2>Références ELI</h2>
<ul>
<li><a href="http://eur-lex.europa.eu/legal-content/FR/TXT/?uri=CELEX:52012XG1026%2801%29" target="_blank">Conclusions du Conseil préconisant l’introduction d’un identifiant européen de la législation (ELI)</a> (dont la description du modèle de données est périmée)</li>
<li><a href="http://publications.europa.eu/mdr/eli" target="_blank">Ontologie ELI publiée sur le site de l&rsquo;Office des Publications</a></li>
<li>Site présentant ELI, maintenu par la France : <a href="http://www.eli.fr" target="_blank">eli.fr</a></li>
<li><a href="http://fr.wikipedia.org/wiki/Identifiant_europ%C3%A9en_de_la_l%C3%A9gislation" target="_blank">Page wikipedia ELI en français</a></li>
<li>Applications :
<ul>
<li>En France, <a href="http://www.legifrance.gouv.fr/affichTexte.do?cidTexte=JORFTEXT000029573022&amp;fastPos=1&amp;fastReqId=2090045563&amp;categorieLien=id&amp;oldAction=rechTexte" target="_blank">un exemple sur Legifrance de loi affichant un ELI (basé sur le NOR) et son alias </a></li>
<li>Au Luxembourg : le prototype <a href="http://eli.legilux.lu" target="_blank">eli.legilux.lu</a></li>
<li>ELI sera intégré à <a href="http://eur-lex.europa.eu/" target="_blank">Eur-Lex</a> pour les lois européennes</li>
</ul>
</li>
</ul>
<p><em>(illustration de l&rsquo;article : Justitia (Maarten van Heemskerck, 1556) disponible sur wikimedia commons <a href="http://commons.wikimedia.org/wiki/File:Iustitia_van_Heemskerck.png" target="_blank">ici</a>)</em></p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2015/05/31/eli-european-legislation-identifier-web-de-donnees-legislatif-europeen/">ELI &#8211; European Legislation Identifier : une voie pour le web de données législatif européen</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></content:encoded>
			<wfw:commentRss>https://blog.sparna.fr/2015/05/31/eli-european-legislation-identifier-web-de-donnees-legislatif-europeen/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Gephi pour visualiser des graphes RDF</title>
		<link>https://blog.sparna.fr/2015/04/22/gephi-visualiser-des-graphes-rdf/</link>
		<comments>https://blog.sparna.fr/2015/04/22/gephi-visualiser-des-graphes-rdf/#comments</comments>
		<pubDate>Wed, 22 Apr 2015 15:24:22 +0000</pubDate>
		<dc:creator><![CDATA[Thomas Francart]]></dc:creator>
				<category><![CDATA[Open Data]]></category>
		<category><![CDATA[RDF]]></category>
		<category><![CDATA[SPARQL]]></category>
		<category><![CDATA[Triplestores]]></category>
		<category><![CDATA[Visualisation de données]]></category>
		<category><![CDATA[dataviz]]></category>
		<category><![CDATA[gephi]]></category>
		<category><![CDATA[semantic media wiki]]></category>
		<category><![CDATA[tourstech]]></category>

		<guid isPermaLink="false">http://blog.sparna.fr/?p=940</guid>
		<description><![CDATA[<p>RDF est un modèle de données en triplets (sujet; prédicat; objet) qui, pris ensemble, forment un graphe. Et les triplestores RDF sont les bases de données qui permettent de stocker, manipuler et requêter ces graphes. RDF un modèle de données &#171;&#160;bas niveau&#160;&#187;, l&#8217;équivalent du modèle relationnel pour les bases de données relationnelles &#171;&#160;classiques&#160;&#187;; c&#8217;est pourquoi&#8230;</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2015/04/22/gephi-visualiser-des-graphes-rdf/">Gephi pour visualiser des graphes RDF</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></description>
				<content:encoded><![CDATA[<p style="text-align: justify;"><a href="https://fr.wikipedia.org/wiki/Resource_Description_Framework" target="_blank">RDF</a> est un modèle de données en triplets (sujet; prédicat; objet) qui, pris ensemble, forment un graphe. Et les <a href="https://fr.wikipedia.org/wiki/Triplestore" target="_blank">triplestores RDF</a> sont les bases de données qui permettent de stocker, manipuler et requêter ces graphes. RDF un modèle de données &laquo;&nbsp;bas niveau&nbsp;&raquo;, l&rsquo;équivalent du <a href="https://fr.wikipedia.org/wiki/Mod%C3%A8le_relationnel" target="_blank">modèle relationnel</a> pour les bases de données relationnelles &laquo;&nbsp;classiques&nbsp;&raquo;; c&rsquo;est pourquoi j&rsquo;ai toujours pensé que <strong>pour un utilisateur final, visualiser le contenu d&rsquo;un graphe RDF &laquo;&nbsp;brut&nbsp;&raquo; a autant de sens que de visualiser le contenu des tables d&rsquo;une base relationnelle &#8211; à savoir pas beaucoup</strong>; il y a souvent plein de colonnes ou de tables dans les données qui n&rsquo;ont aucun sens pour l&rsquo;utilisateur final, qui attend une représentation de ses informations &laquo;&nbsp;actionnable&nbsp;&raquo; et compréhensible pour son besoin.</p>
<p style="text-align: justify;"><span id="more-940"></span></p>
<p style="text-align: justify;">On trouve pourtant tout un tas de projets ou de logiciels pour visualiser des graphes RDF natifs : <a href="http://semweb.salzburgresearch.at/apps/rdf-gravity/" target="_blank">RDF gravity</a>, <a href="http://graves.cl/visualRDF/?url=http://graves.cl/visualRDF/" target="_blank">Visual RDF</a>, <a href="http://simile.mit.edu/welkin/" target="_blank">Welkin</a>, ou d&rsquo;autres qui sont listés <a href="https://semanticscience.wordpress.com/2010/02/17/visualisation-of-ontologies-and-large-scale-graphs/" target="_blank">ici</a>, <a href="http://answers.semanticweb.com/questions/1071/visualisation-toolkits-for-rdf" target="_blank">là</a>, ou bien encore <a href="http://answers.semanticweb.com/questions/13760/web-based-rdf-graph-visualization-tool" target="_blank">là</a> (voir également <a href="http://vowl.visualdataweb.org/webvowl.html" target="_blank">WebVOWL</a> pour la visualisation d&rsquo;ontologies OWL, donc sur un sujet un peu différent).</p>
<h2 style="text-align: justify;">Une cartographie des acteurs du numérique pour #ToursTech</h2>
<p style="text-align: justify;">Et pourtant je suis tombé sur une problématique où la visualisation des données natives d&rsquo;un graphe RDF avait vraiment du sens : représenter la <strong>cartographie des acteurs d&rsquo;un territoire</strong> ou d&rsquo;une communauté. En l&rsquo;occurrence la <strong>cartographie des acteurs du numérique en Touraine</strong>, dans le cadre de la <strong><a href="http://tourstech.co/" target="_blank">candidature de Tours au label #FrenchTech (#ToursTech)</a></strong>. On peut donner plusieurs représentations possibles de cet ensemble d&rsquo;acteurs :</p>
<ul style="text-align: justify;">
<li><strong>en graphe </strong>type<strong> réseau social</strong> (l&rsquo;approche que j&rsquo;explore ici, donc);</li>
<li><strong>en zones </strong>type<strong> TreeMap</strong> pour montrer les grandes masses (par exemple la <a href="/wp-content/uploads/2015/04/screenshot-treemap.png" target="_blank">répartition des entreprises par code APE en utilisant d3.js</a>);</li>
<li><strong>en courbes temporelles </strong>pour montrer des évolutions d&rsquo;indicateurs;</li>
<li><strong>en cartes géographiques</strong> pour visualiser les zones et les lieux dans l&rsquo;agglomération</li>
<li><strong>en arbres</strong> pour mettre en évidences des catégories d&rsquo;acteurs;</li>
<li>etc.</li>
</ul>
<p style="text-align: justify;">Dans notre cas les triplets RDF correspondent exactement aux liens entre les acteurs, et sont des relations du type &laquo;&nbsp;est adhérent de (une association professionnelle)&nbsp;&raquo;, &laquo;&nbsp;est fournisseur de&nbsp;&raquo;, &laquo;&nbsp;a un partenariat avec&nbsp;&raquo;, etc. Le besoin d&rsquo;avoir une représentation du réseau social des acteurs devient donc le même que celui de représenter le graphe RDF natif.</p>
<h2 style="text-align: justify;">Le résultat et quelques explications</h2>
<p style="text-align: justify;">Voici le résultat de cette cartographie (cliquez pour agrandir) (et jouer à &laquo;&nbsp;où est Charlie ?&nbsp;&raquo; en cherchant <a href="http://sparna.fr" target="_blank">Sparna</a> dans l&rsquo;image !) :</p>
<p><a href="http://blog.sparna.fr/wp-content/uploads/2015/04/carto-sans-noms-personnes-small.jpg"><img class="aligncenter size-medium wp-image-942" src="http://blog.sparna.fr/wp-content/uploads/2015/04/carto-sans-noms-personnes-small-300x260.jpg" alt="carto-sans-noms-personnes-small" width="300" height="260" /></a></p>
<p style="text-align: justify;"><em>(je précise que cette représentation est partielle, exploratoire, et ne se veut pas représentative de la réalité du territoire)</em></p>
<p style="text-align: justify;">Qu&rsquo;est-ce qu&rsquo;on y voit ?</p>
<ul style="text-align: justify;">
<li>des <strong>noeuds</strong> : organisations, personnes, lieux ou projets;</li>
<li>des <strong>liens</strong> : relations de type réseau social entre ces noeuds (&laquo;&nbsp;travaille dans ce lieu&nbsp;&raquo;, &laquo;&nbsp;participe à ce projet&nbsp;&raquo;, etc.); ces liens ne sont pas distingués par un label ou une couleur dans la cartographie, mais ils sont bien typés dans les données;</li>
<li>La <strong>taille d&rsquo;un noeud</strong> est fonction de son nombre de lien<strong>s</strong>;</li>
<li>La <strong>couleur d&rsquo;un noeud </strong>est fonction de sa &laquo;&nbsp;<a href="http://en.wikipedia.org/wiki/Centrality" target="_blank">centralité</a>&nbsp;&raquo; dans le graphe, c&rsquo;est-à-dire de sa proximité avec un maximum d&rsquo;autres noeuds dans le graphe (enfin c&rsquo;est ce que j&rsquo;en ai compris !);</li>
<li>Les <strong>noms des personnes ne sont pas affichés</strong> pour des raisons de confidentialité;</li>
</ul>
<p style="text-align: justify;">On met ainsi rapidement en évidence :</p>
<ul>
<li style="text-align: justify;">les <strong>acteurs majeurs de la communauté</strong>, soit en terme de &laquo;&nbsp;taille&nbsp;&raquo; soit en terme de positionnement dans le réseau (<a href="http://paloaltours.org/" target="_blank">PaloAltours</a>, la cantine numérique bêta de Tours, <a href="http://blog.coopaxis.fr/" target="_blank">CoopAxis</a> le PTCE qui marie numérique et innovation sociale, <a href="http://www.centre-tic.fr/" target="_blank">Centre &amp; TIC</a> association professionnelle au service du numérique, etc.) ;</li>
<li style="text-align: justify;">les <strong>liens qui les unissen</strong>t (&laquo;&nbsp;comment puis-je rentrer en contact avec telle personne ou telle organisation ?&nbsp;&raquo;);</li>
<li style="text-align: justify;">les <strong>communautés</strong>, qui sont plus apparentes si on partitionne le graphe et qu&rsquo;on colorie les communautés :</li>
</ul>
<p><a href="http://blog.sparna.fr/wp-content/uploads/2015/04/carto-sans-noms-personnes-partition-small.jpg"><img class="aligncenter size-medium wp-image-949" src="http://blog.sparna.fr/wp-content/uploads/2015/04/carto-sans-noms-personnes-partition-small-300x265.jpg" alt="carto-sans-noms-personnes-partition-small" width="300" height="265" /></a></p>
<p style="text-align: justify;">D&rsquo;autres projets ont utilisé une approche et des outils similaires pour cartographier les acteurs d&rsquo;une communauté : l&rsquo;<a href="http://www.capdigital.com/ecosysteme/" target="_blank">écosystème du cluster CapDigital en île-de-france</a>, ou bien cette <a href="http://www.intelligence-economique-paca.fr/Actualites/Actualites/Le-Miste-sort-sa-cartographie-des-acteurs-de-l-intelligence-economique" target="_blank">cartographie des acteurs de l&rsquo;Intelligence Economique en PACA</a>.</p>
<h2 style="text-align: justify;">Le dispositif : Wiki sémantique + triplestore + Gephi / sigma.js</h2>
<p style="text-align: justify;">Le dispositif que nous avons exploré pour réaliser cette cartographie est en 3 parties :</p>
<h3 style="text-align: justify;">Le beurre : un wiki sémantique</h3>
<p style="text-align: justify;"><a href="https://semantic-mediawiki.org" target="_blank">Semantic Media Wiki</a> (que j&rsquo;avais <a title="Le wiki sémantique : solution de capitalisation des connaissances (structurées)" href="http://blog.sparna.fr/wiki-semantique-capitalisation-des-connaissances-structurees/" target="_blank">exploré précédemment ici</a>) nous donne une solution de centralisation des connaissances :</p>
<ol>
<li style="text-align: justify;"><strong>collaborative</strong>, avec toute la machinerie wiki (versionning des pages, pages de discussion, etc.)<strong><br />
</strong></li>
<li style="text-align: justify;"><strong>structurée</strong>,  puisque la solution Semantic Media Wiki et ses divers plugins permet d&rsquo;avoir des fiches à plusieurs champs, avec choix multiples, autocompletion, dates, etc.</li>
<li style="text-align: justify;"><strong>flexible</strong>, puisque le modèle de données et les formulaires de saisie peuvent évoluer au fil des besoins, et l&rsquo;outil est facile à prendre en main pour des utilisateurs non-experts, jugez plutôt  les formulaires de saisie avec assistance à la saisie :<a href="http://blog.sparna.fr/wp-content/uploads/2015/04/screenshot-formulaire-semantic-media-wiki.jpg"><img class="aligncenter size-medium wp-image-957" src="http://blog.sparna.fr/wp-content/uploads/2015/04/screenshot-formulaire-semantic-media-wiki-300x227.jpg" alt="screenshot-formulaire-semantic-media-wiki" width="300" height="227" /></a></li>
<li style="text-align: justify;"><strong>ouverte</strong> pour partager les données avec d&rsquo;autres territoires (important sur l&rsquo;aspect &laquo;&nbsp;mise en réseau des archipels territoriaux&nbsp;&raquo;);</li>
</ol>
<p style="text-align: justify;">C&rsquo;est cet outil qui est utilisé pour renseigner les fiches des acteurs du territoire et leurs liens. Ces liens sont de types :</p>
<ul style="text-align: justify;">
<li>liens formels ou contractuels : fournisseur de, client de, travaille pour ;</li>
<li>liens de collaboration : a un partenariat avec, adhère à telle association, participe ou porte tel projet;</li>
<li>liens géographiques : se situe dans tel lieu;</li>
<li>liens capitalistiques : a du capital dans;</li>
</ul>
<h3 style="text-align: justify;">L&rsquo;argent du beurre : une diffusion des données en RDF</h3>
<p style="text-align: justify;">Semantic Media Wiki c&rsquo;est bien, mais nativement on ne peut pas réutiliser les données en dehors du wiki. On le synchronise donc (via sa fonction d&rsquo;<a href="https://semantic-mediawiki.org/wiki/Help:RDF_export" target="_blank">export RDF</a>) avec un <a href="http://rdf4j.org/" target="_blank">triplestore RDF Sesame</a>, qui rend les données accessibles sur le web (via <a href="http://www.w3.org/TR/sparql11-query/" target="_blank">SPARQL</a>), permettant ainsi à d&rsquo;autres applications de tirer parti des données.</p>
<p style="text-align: justify;">On a donc une <strong>solution de capitalisation des connaissances PAR le territoire</strong> (wiki sémantique collaboratif) et <strong>POUR le territoire</strong> (diffusion des données pour leur réutilisation).</p>
<h3 style="text-align: justify;">Le sourire du crémier : Gephi pour exploiter les données</h3>
<p style="text-align: justify;">Le sourire du crémier : <a href="http://gephi.github.io/" target="_blank">Gephi</a> (et d&rsquo;autres applications) qui peuvent réexploiter les données saisies dans le wiki. En particulier Gephi dispose d&rsquo;un <a href="https://marketplace.gephi.org/plugin/semanticwebimport/" target="_blank">plugin d&rsquo;intégration à partir de SPARQL</a> (&laquo;&nbsp;Gephi Semantic Web Import Plugin&nbsp;&raquo; &#8211; Attention à la date de rédaction de ce billet le lien vers la <a href="https://wiki.gephi.org/index.php/SemanticWebImport" target="_blank">page de documentation de ce plugin</a> est cassé). Il devient donc possible de générer un visuel de notre réseau social à partir des données ainsi exposées.</p>
<p style="text-align: justify;">On peut même automatiser la génération du visuel (ce qu&rsquo;on a fait ici) avec un bout de Java grâce à l&rsquo;<a href="http://gephi.github.io/toolkit/" target="_blank">API Gephi (Gephi Toolkit).</a></p>
<p style="text-align: justify;"><strong>Mon retour d&rsquo;expérience sur Gephi est très positif</strong> : facile à prendre en main, intégration SPARQL aisée et sans bug, on peut générer assez facilement des rendus intéressants. Inconvénient : cela reste des images statiques, ca ne bouge pas et ce n&rsquo;est pas cliquable. Pour avoir quelque chose de plus interactif il faut se tourner vers <a href="http://sigmajs.org/" target="_blank">SigmaJS</a>. C&rsquo;est ce que l&rsquo;<a href="http://mwebius.com/" target="_blank">agence de communication Mwebius</a> a expérimenté :</p>
<p style="text-align: justify;"><a href="http://blog.sparna.fr/wp-content/uploads/2015/04/screenshot-sigmajs.png"><img class="aligncenter size-medium wp-image-964" src="http://blog.sparna.fr/wp-content/uploads/2015/04/screenshot-sigmajs-300x173.png" alt="screenshot-sigmajs" width="300" height="173" /></a></p>
<p style="text-align: justify;">Notez les options de sélection de ce que l&rsquo;on veut afficher sur la gauche. Tout cela est branché en direct sur les données exportées du wiki.</p>
<h2 style="text-align: justify;">Vous voulez utiliser les données ? pas encore&#8230;</h2>
<p style="text-align: justify;">La question de la licence des données récoltées pour ce travail de cartographie n&rsquo;étant pas encore tranchée (ouvertes ou pas ? dans quel périmètre), je ne peux malheureusement pas mettre ici les liens ni vers le wiki sémantique, ni vers le service SPARQL de diffusion des données &#8211; je le fais dès que l&rsquo;initiative #ToursTech a statué là-dessus, mais ce serait en tout cas <strong>un bel exemple de système d&rsquo;intelligence économique territorial collaboratif diffusant ses données en open data</strong>. Rien que ça ! En attendant si vous voulez en savoir plus laissez un message ici et suivez la <a href="http://tourstech.co/" target="_blank">candidature #ToursTech</a> !</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2015/04/22/gephi-visualiser-des-graphes-rdf/">Gephi pour visualiser des graphes RDF</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></content:encoded>
			<wfw:commentRss>https://blog.sparna.fr/2015/04/22/gephi-visualiser-des-graphes-rdf/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>data.bnf.fr pour enrichir un portail de recherche documentaire : le cas de Canopé Académie de Poitiers</title>
		<link>https://blog.sparna.fr/2014/12/12/data-bnf-fr-enrichir-portail-documentaire-crdp-canope-poitou-charentes/</link>
		<comments>https://blog.sparna.fr/2014/12/12/data-bnf-fr-enrichir-portail-documentaire-crdp-canope-poitou-charentes/#comments</comments>
		<pubDate>Fri, 12 Dec 2014 14:17:08 +0000</pubDate>
		<dc:creator><![CDATA[Thomas Francart]]></dc:creator>
				<category><![CDATA[Open Data]]></category>
		<category><![CDATA[RDF]]></category>
		<category><![CDATA[Recherche d'informations]]></category>
		<category><![CDATA[Triplestores]]></category>
		<category><![CDATA[bnf]]></category>
		<category><![CDATA[canopé]]></category>
		<category><![CDATA[crdp]]></category>
		<category><![CDATA[data.bnf.fr]]></category>
		<category><![CDATA[e-sidoc]]></category>
		<category><![CDATA[Jena]]></category>

		<guid isPermaLink="false">http://blog.sparna.fr/?p=824</guid>
		<description><![CDATA[<p>Je teste actuellement avec le Canopé Académie de Poitiers (Anciennement le CRDP Poitou-Charentes &#8211; Centre Régional de Documentation Pédagogique) l&#8217;utilisation des données mises à disposition par la BNF dans le portail data.bnf.fr pour enrichir des portails documentaires. Je donne ici un premier retour d&#8217;expérience sur ce travail, avec leur accord. Pourquoi réutiliser ces données ?&#8230;</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2014/12/12/data-bnf-fr-enrichir-portail-documentaire-crdp-canope-poitou-charentes/">data.bnf.fr pour enrichir un portail de recherche documentaire : le cas de Canopé Académie de Poitiers</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></description>
				<content:encoded><![CDATA[<p style="text-align: justify;">Je teste actuellement avec le <a href="http://web.crdp-poitiers.org/crdp/" target="_blank">Canopé Académie de Poitiers</a> (Anciennement le CRDP Poitou-Charentes &#8211; Centre Régional de Documentation Pédagogique) l&rsquo;utilisation des données mises à disposition par la <a href="http://www.bnf.fr" target="_blank">BNF</a> dans le portail <a href="http://data.bnf.fr" target="_blank">data.bnf.fr</a> pour enrichir des portails documentaires. Je donne ici un premier retour d&rsquo;expérience sur ce travail, avec leur accord. Pourquoi réutiliser ces données ? comment ? quels sont les premiers résultats obtenus ?</p>
<p><span id="more-824"></span></p>
<h2 class="symple-heading symple-heading- text-align-left "style="color: undefined;margin-bottom: 30px;margin-top: 30px;"><span>Contexte</span></h2>
<p style="text-align: justify;">Le réseau Canopé a pour <a href="http://www.reseau-canope.fr/qui-sommes-nous.html" target="_blank">objectif</a> de &laquo;&nbsp;renforcer l’action de la communauté éducative en faveur de la réussite des élèves&nbsp;&raquo;, en particulier en fournissant des ressources documentaires et pédagogiques pour les enseignants, mais aussi en proposant des espaces de formation et d&rsquo;animation. Canopé Poitiers a ceci de particulier que, tout en étant une émanation régionale du réseau Canopé, il a une activité d&rsquo;éditeur logiciel d&rsquo;envergure nationale en proposant et en hébergeant les portails de recherche documentaire des CDI de plus de <strong>7000 collèges et lycées</strong>, dans sa solution <a href="http://www.crdp2-poitiers.org/soldoc/v3/secondaire_esidoc.php?actif=C&amp;menu2=A" target="_blank">e-sidoc</a> (7013 portails exactement au moment de la rédaction de cet article, vous pouvez regarder la <a href="http://www.crdp2-poitiers.org/soldoc/e-sidoc/questionreponse/cartedyn.htm" target="_blank">carte des déploiements d&rsquo;e-sidoc</a> pour voir si le collège ou le lycée du coin est équipé avec cette solution. Voici <a href="http://0370038r.esidoc.fr/" target="_blank">le portail d&rsquo;un lycée à Tours</a> pour vous faire une idée).</p>
<h2 class="symple-heading symple-heading- text-align-left "style="color: undefined;margin-bottom: 30px;margin-top: 30px;"><span>Objectifs</span></h2>
<p style="text-align: justify;">L&rsquo;objectif de Canopé Poitiers est d&rsquo;évaluer la faisabilité et l&rsquo;intérêt d&rsquo;enrichir les portails e-sidoc avec les données de <a href="http://data.bnf.fr" target="_blank">data.bnf.fr.</a> Les possibilités d&rsquo;enrichissement sont ouvertes mais peuvent schématiquement se subdiviser en trois :</p>
<ol style="text-align: justify;">
<li>L&rsquo;<span style="text-decoration: underline;"><strong>amélioration de la recherche</strong></span> et des modes d&rsquo;accès aux catalogues ; cette partie recouvre elle-même deux parties :
<ol>
<li>l&rsquo;amélioration des fonctions de recherche (nouvelles facettes ou de nouveaux critères de recherche) ;</li>
<li>l&rsquo;amélioration de la présentation des résultats de recherche;</li>
</ol>
</li>
<li>L&rsquo;<span style="text-decoration: underline;"><strong>ajout de nouvelles notices</strong></span>, tirées de <a href="http://data.bnf.fr" target="_blank">data.bnf.fr</a>, au catalogue &laquo;&nbsp;local&nbsp;&raquo; du CDI; c&rsquo;est ce qui est déjà fait par Canopé Poitiers qui propose au CDI des &laquo;&nbsp;<a href="http://www.crdp2-poitiers.org/soldoc/v3/secondaire_soldoc.php?actif=D&amp;menu2=A" target="_blank">réservoirs de notices</a>&laquo;&nbsp;, comme le dépouillement des titres de la presse, ou une sélection de sites internet pour les collèges et les lycées. Cela pourrait avoir du sens pour inclure dans ces portail des œuvres numériques de <a href="http://gallica.bnf.fr/" target="_blank">Gallica</a>, ou des <a href="http://expositions.bnf.fr/" target="_blank">liens vers les expositions virtuelles de la BNF</a>, etc. Cela permettrait ensuite au collégien/lycéen d&rsquo;accéder à ces ressources via le portail de recherche;</li>
<li>L&rsquo;<span style="text-decoration: underline;"><strong>enrichissement des notices</strong></span> documentaires (comme <a href="http://0370038r.esidoc.fr/search.php?pid=&amp;action=Record&amp;id=0370038r_80656&amp;num=2&amp;total=263" target="_blank">celle-ci</a>) avec des informations tirées des données de data.bnf.fr;</li>
</ol>
<p style="text-align: justify;">Par ailleurs, Canopé Poitiers a de fortes contraintes de production, la réindexation de <strong>7000 bases documentaires</strong> chaque nuit, et l&rsquo;hébergement de tous ces portails pour avoir de bons temps de réponse posant un certain nombre de challenges techniques dont je ne soupçonne pas le quart&#8230;</p>
<p style="text-align: justify;">Pour ces raisons de contraintes de production, nous expérimentons d&rsquo;abord la piste de l&rsquo;<strong>enrichissement des notices documentaires</strong> qui n&rsquo;impacte ni sur la structure des index de recherche (ou de façon mineure), ni sur leur taille.</p>
<h2 class="symple-heading symple-heading- text-align-left "style="color: undefined;margin-bottom: 30px;margin-top: 30px;"><span>Quels enrichissements et comment ?</span></h2>
<p style="text-align: justify;"><img class="alignright wp-image-846 size-full" src="http://blog.sparna.fr/wp-content/uploads/2014/12/4d5655df171e8e2a5c9880416faeb0ce.png" alt="4d5655df171e8e2a5c9880416faeb0ce" width="198" height="68" /> Le premier enrichissement envisagé est l&rsquo;<strong>ajout d&rsquo;un lien vers une version numérisée dans Gallica de l’œuvre présentée dans la notice</strong>. (voir par exemple <a href="http://gallica.bnf.fr/ark:/12148/bpt6k1045580k" target="_blank">Alice au pays des merveilles dans Gallica</a>) La récupération de ces liens est possible car :</p>
<ol style="text-align: justify;">
<li>Les notices du portail documentaire portent (pour la plupart) un <strong>ISBN</strong> ou un EAN;</li>
<li>Les éditions d&rsquo;ouvrages publiées dans data.bnf.fr portent également (pour la plupart) un ISBN ou un EAN, ce qui permet de faire un rapprochement avec nos notices;</li>
<li>Les éditions d&rsquo;ouvrage de data.bnf.fr sont regroupées ensemble sous des entrées correspondant à l&rsquo;œuvre abstraite par une organisation <strong><a href="http://www.bnf.fr/fr/professionnels/modelisation_ontologies/a.modele_FRBR.html" target="_blank">FRBR</a></strong>, ce qui permet, même s&rsquo;il n&rsquo;existe pas de version numérisée pour l&rsquo;ISBN exact de départ (ce qui est toujours le cas, car les versions numériques dans Gallica sont celles d&rsquo;éditions anciennes), de voir si une <strong>autre édition de la même oeuvre</strong> a son équivalent numérisée;</li>
</ol>
<p style="text-align: justify;">Pour ce qui nous intéresse ici, <span style="text-decoration: underline;"><strong>la structuration FRBR des oeuvres est donc la principale valeur ajoutée des données data.bnf.fr</strong></span>, par rapport aux <a href="http://www.bnf.fr/fr/professionnels/protocoles_echange_donnees/a.proto_oai.html" target="_blank">flux OAI</a> ou <a href="http://www.bnf.fr/fr/professionnels/protocoles_echange_donnees/a.proto_z3950.html" target="_blank">Z3950</a> de la BNF, qui ne structurent pas les données de cette façon.</p>
<p style="text-align: justify;">Donc, en résumé :</p>
<ul>
<li style="text-align: justify;">on cherche l&rsquo;édition de l&rsquo;oeuvre dans data.bnf.fr via l&rsquo;ISBN ou l&rsquo;EAN;</li>
<li style="text-align: justify;">et si on l&rsquo;a trouvée, on cherche une autre édition de la même oeuvre ayant une version numérique (on prend l&rsquo;édition la plus récente);</li>
</ul>
<h2 class="symple-heading symple-heading- text-align-left "style="color: undefined;margin-bottom: 30px;margin-top: 30px;"><span>Retour d'expérience technique</span></h2>
<p style="text-align: justify;">Pour faire ce travail de récupération des liens :</p>
<ul style="text-align: justify;">
<li>On télécharge les <a href="http://data.bnf.fr/semanticweb#Ancre2" target="_blank">données de dump de data.bnf.fr</a>;</li>
<li>On les stocke dans un triplestore <a href="http://jena.apache.org/documentation/serving_data/" target="_blank">Jena Fuseki</a> avec un stockage <a href="http://jena.apache.org/documentation/tdb/" target="_blank">TDB</a>;</li>
<li>On fait un prétraitement sur les ISBNs (voir ci-dessous), et on fait nos requêtes de rapprochement en <a href="http://fr.wikipedia.org/wiki/SPARQL" target="_blank">SPARQL</a>;</li>
</ul>
<p style="text-align: justify;">On s&rsquo;aperçoit que :</p>
<ul>
<li style="text-align: justify;"><span style="text-decoration: underline;"><strong>Les données ont quelques petits soucis de format</strong></span>. (ne dérogeant donc pas à la règle d&rsquo;or du traitement des données sur le web : &laquo;&nbsp;<a href="http://fr.slideshare.net/thomasfrancart/partager-et-rutiliser-des-donnes-sur-le-web" target="_blank">les données sont pourries</a>&nbsp;&raquo; <img src="https://s.w.org/images/core/emoji/72x72/1f609.png" alt="😉" class="wp-smiley" style="height: 1em; max-height: 1em;" /> ) en effet quelques fichiers RDF des dumps de la BNF (ceux des manifestations, le 11971, le 11975 et quelques autres) contiennent des erreurs de syntaxe qui empêchent de les charger dans une base RDF. Avant de lancer un chargement, il est préférable de vérifier les fichiers avec le <a href="https://jena.apache.org/documentation/tdb/commands.html" target="_blank">script Jena ntriples</a> et son option &laquo;&nbsp;validate&nbsp;&raquo; :
<ul>
<li>ntriples &#8211;validate /chemin/databnf_editions_nt/databnf_editions__manif_* &gt; /chemin/temp.txt</li>
<li>le plus simple a été de supprimer tout simplement ces fichiers pour ne pas faire échouer le chargement, mais si vous voulez avoir 100% des données il faudra les corriger, ce qui n&rsquo;est pas tout à fait trivial;</li>
</ul>
</li>
<li style="text-align: justify;"><span style="text-decoration: underline;"><strong>Le chargement des données est plutôt rapide</strong></span>.  105 millions de triplets, sur un portable classique, en 1h40. Pour ce chargement, j&rsquo;ai utilisé le <a href="https://jena.apache.org/documentation/tdb/commands.html#tdbloader2" target="_blank">script tdbloader2 de Jena</a>;</li>
<li style="text-align: justify;"><span style="text-decoration: underline;"><strong>Le format des ISBN est variable</strong></span> (aussi bien dans les données BNF que dans les notices de départ). Parfois en format ISBN-10, parfois en format ISBN-13, parfois avec tirets, parfois sans (978-2-7116-2455-3, 1-4051-3618-9, 3832202560, etc.) Je me suis donc ramené à une version sans tirets pour tous les ISBN pour limiter le problème, mais il reste la différence entre les ISBN-10 et les ISBN-13 qui n&rsquo;a pas été traitée;</li>
</ul>
<h2 class="symple-heading symple-heading- text-align-left "style="color: undefined;margin-bottom: 30px;margin-top: 30px;"><span>Quels résultats ?</span></h2>
<p style="text-align: justify;">Nous avons voulu valider la <em>couverture des données</em> de data.bnf.fr en terme de liens vers les versions numériques des œuvres : est-ce que le jeu en vaut la chandelle ? pourra-t-on sortir suffisamment de liens vers des œuvres numériques pour justifier le travail ? Pour cela, on a d&rsquo;abord testé sur 4 auteurs classiques : Jules Verne, Victor Hugo, Emile Zola, Molière, en extrayant des notices la liste des ISBN/EAN des éditions de leurs œuvres.</p>
<p style="text-align: justify;">Voici ce qu&rsquo;on obtient en terme de couverture du rapprochement des données pour ces ISBNs :</p>
<table width="638" cellspacing="0" cellpadding="7">
<colgroup>
<col width="351" />
<col width="109" />
<col width="134" /> </colgroup>
<tbody>
<tr valign="top">
<td bgcolor="#d6e3bc" width="351">
<p align="center"><span lang="fr-FR"><b>Valeur</b></span></p>
</td>
<td bgcolor="#d6e3bc" width="109">
<p align="center"><span lang="fr-FR"><b>Chiffre</b></span></p>
</td>
<td bgcolor="#d6e3bc" width="134">
<p align="center"><span lang="fr-FR"><b>Pourcentage</b></span></p>
</td>
</tr>
<tr valign="top">
<td width="351"><span lang="fr-FR">Nombre total d’ISBN distincts</span></td>
<td width="109"><span lang="fr-FR">1623</span></td>
<td width="134"><span lang="fr-FR">100%</span></td>
</tr>
<tr valign="top">
<td width="351"><span lang="fr-FR">Nombre d’ISBN trouvés dans data.bnf.fr</span></td>
<td width="109"><span lang="fr-FR">823</span></td>
<td width="134"><span lang="fr-FR">50%</span></td>
</tr>
<tr valign="top">
<td width="351"><span lang="fr-FR">Nombre d’ISBN pour lesquels on trouve une version électronique dans Gallica de la même œuvre (mais pas de la même édition)</span></td>
<td width="109"><span lang="fr-FR">429</span></td>
<td width="134"><strong><span lang="fr-FR">26%</span></strong></td>
</tr>
</tbody>
</table>
<p style="text-align: justify;"><strong>On trouve une version électronique de l&rsquo;oeuvre pour un ISBN sur quatre</strong>. Mais certaines œuvres ont plus d&rsquo;exemplaires (d&rsquo;items au sens FRBR) que d&rsquo;autres (on trouvera plus d&rsquo;exemplaires de &laquo;&nbsp;Au bonheur des dames&nbsp;&raquo; que de &laquo;&nbsp;Comment on meurt&nbsp;&raquo; de Zola), c&rsquo;est pourquoi il était aussi intéressant de donner la couverture en nombres d&rsquo;exemplaires :</p>
<table width="638" cellspacing="0" cellpadding="7">
<colgroup>
<col width="351" />
<col width="109" />
<col width="134" /> </colgroup>
<tbody>
<tr valign="top">
<td bgcolor="#d6e3bc" width="351">
<p align="center"><span lang="fr-FR"><b>Valeur</b></span></p>
</td>
<td bgcolor="#d6e3bc" width="109">
<p align="center"><span lang="fr-FR"><b>Chiffre</b></span></p>
</td>
<td bgcolor="#d6e3bc" width="134">
<p align="center"><span lang="fr-FR"><b>Pourcentage</b></span></p>
</td>
</tr>
<tr valign="top">
<td width="351"><span lang="fr-FR">Nombre total d’items (au sens FRBR) ayant une valeur d’ISBN</span></td>
<td width="109"><span lang="fr-FR">36606</span></td>
<td width="134"><span lang="fr-FR">100%</span></td>
</tr>
<tr valign="top">
<td width="351"><span lang="fr-FR">Nombre d’items (au sens FRBR) pour lesquels l’ISBN est trouvé dans data.bnf.fr</span></td>
<td width="109"><span lang="fr-FR">26366</span></td>
<td width="134"><span lang="fr-FR">72%</span></td>
</tr>
<tr valign="top">
<td width="351"><span lang="fr-FR">Nombre d’items (au sens FRBR) pour lesquels on trouve une version électronique dans Gallica de la même œuvre (mais pas de la même édition)</span></td>
<td width="109"><span lang="fr-FR">19446</span></td>
<td width="134"><strong><span lang="fr-FR">53%</span></strong></td>
</tr>
</tbody>
</table>
<p style="text-align: justify;">Pour exprimer autrement le dernier chiffre de 53% : <strong> il y a une chance sur deux de trouver une version numérique dans Gallica de l&rsquo;oeuvre d&rsquo;un livre d&rsquo;un de ces 4 auteurs pris au hasard dans les rayonnages d&rsquo;un CDI.</strong></p>
<p style="text-align: justify;"><span style="text-decoration: underline;"><strong>Globalement cela encourage à continuer la démarche</strong></span> et montre que ce travail sera visible dans les portails e-sidoc. La récupération des versions numériques des oeuvres est un premier prétexte à ce travail de rapprochement qui permettrait ensuite de récupérer de nombreuses autres données.</p>
<hr />
<p style="text-align: justify;"><span style="text-decoration: underline;"><strong>Update du 16/12/2014</strong></span> : les dernières versions des données de data.bnf qui seront mises en ligne fin 2014 devraient 1/ corriger le petit souci de format mentionné plus haut (si ce n&rsquo;est déjà fait) et 2/ contenir plus de données (entre 1 et 2 millions d&rsquo;éditions supplémentaires, et 400 000 auteurs supplémentaires), ce qui devrait améliorer le ratio de rapprochement des notices sur les ISBNs.  Cela amènera data.bnf.fr à être de plus en plus incontournable par sa couverture (l&rsquo;intégralité des éditions de la BNF devraient être publiées d&rsquo;ici fin 2015).</p>
<p>Cet article <a rel="nofollow" href="https://blog.sparna.fr/2014/12/12/data-bnf-fr-enrichir-portail-documentaire-crdp-canope-poitou-charentes/">data.bnf.fr pour enrichir un portail de recherche documentaire : le cas de Canopé Académie de Poitiers</a> est apparu en premier sur <a rel="nofollow" href="https://blog.sparna.fr">Sparna Blog</a>.</p>
]]></content:encoded>
			<wfw:commentRss>https://blog.sparna.fr/2014/12/12/data-bnf-fr-enrichir-portail-documentaire-crdp-canope-poitou-charentes/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>
