Sparna Blog http://blog.sparna.fr Web de données | Architecture de l'information | Accès aux connaissances Thu, 13 Jun 2019 15:19:57 +0000 fr-FR hourly 1 SPARNAtural : écrire des requêtes SPARQL, tout naturellement http://blog.sparna.fr/2019/06/13/sparnatural-ecrire-des-requetes-sparql-tout-naturellement/ http://blog.sparna.fr/2019/06/13/sparnatural-ecrire-des-requetes-sparql-tout-naturellement/#comments Thu, 13 Jun 2019 15:19:57 +0000 http://blog.sparna.fr/?p=1258 Sparnatural est un composant Javascript permettant  de naviguer dans un graphe de connaissances RDF en construisant visuellement des requêtes SPARQL. Dans la copie d’écran ci-dessus, on demande « Toutes les oeuvres exposées dans un musée Français qui expose une oeuvre du Caravage, et dont l’auteur est Italien ». Le screencast ci-dessus est extrait de la démo de…

Cet article SPARNAtural : écrire des requêtes SPARQL, tout naturellement est apparu en premier sur Sparna Blog.

]]>
Sparnatural est un composant Javascript permettant  de naviguer dans un graphe de connaissances RDF en construisant visuellement des requêtes SPARQL.

Dans la copie d’écran ci-dessus, on demande « Toutes les oeuvres exposées dans un musée Français qui expose une oeuvre du Caravage, et dont l’auteur est Italien ».

Démo de Sparnatural sur DBPedia

Le screencast ci-dessus est extrait de la démo de Sparnatural paramétrée sur DBPedia avec laquelle vous pouvez jouer en ligne.

Le développement de ce composant a été réalisé dans le cadre du projet OpenArchaeo où il est utilisé pour naviguer dans des données archéologiques. Il est autonome du projet et peut être réutilisé dans le cadre de sa license LGPL. Le code source est ouvert et il est interdit de « refermer » le code source, toute modification doit être publiée sous la même licence, et idéalement reversée dans le dépôt Github du projet.

Sparnatural s’inspire en grande partie de la navigation proposée par l’interface ResearchSpace du British Museum.

Et pourquoi c’est cool ?

  • Parce que ça n’existait pas !  (en dehors de ResearchSpace, mais dont le source est en React), en tout cas pas comme un composant autonome et paramétrable
  • Parce que le composant est paramétrable à souhait pour construire des requêtes sur différentes structures de graphe, en changeant le paramétrage des classes et des propriétés; vous pouvez jeter un oeil au fichier de paramétrage de la démo.
  • Parce qu’il est orienté end-user et que, en particulier, la structure du graphe que l’on présente à l’utilisateur n’est pas obligatoirement – en fait n’est jamais – celle du graphe de données sous-jacent:
    • Chaque classe dans le composant peut être mappé sur un critère plus complexe (On présente à l’utilisateur « Type d’activité », qui est mappé sur « tous les skos:Concept ayant un skos:inScheme ex:ActivityType »)
    • Chaque lien dans le composant peut être mappé sur une séquence de liens RDF dans le graphe (un property path) (Le lien « Musée expose oeuvre » dans le composant de construction de query est l’inverse du lien RDF « Oeuvre dbpedia:museum Musée »). Typiquement le paramétrage de tous les liens inverses permet à un utilisateur d’explorer le graphe en le prenant par n’importe quel bout;
    • On peut limiter les types d’objets et les types de liens que l’on présente dans le composant pour ne permettre d’interroger qu’une sous-partie des données;
  • Parce qu’il offre plusieurs mode de sélection des valeurs :
    • un champ d’autocompletion, à associer à une requête SPARQL (ou pas SPARQL) qui ira proposer des valeurs sur la base des caractères tapés dans le champs;
    • un champ de dropdown, pour les petites listes;
    • un champ de recherche texte;
    • un champ d’input de date (début / fin);
  • Parce que la requête peut s’exécuter au fur et à mesure de la construction de l’équation de recherche; pas besoin d’appuyer sur un bouton; cela fait beaucoup pour obtenir une expérience utilisateur de découverte des données;
  • Parce que c’est multilingue : on peut associer des libellés en plusieurs langue à chaque classe et chaque propriétés;
  • Parce que c’est facile d’injecter des icônes fontawesome pour illustrer chaque classe dans les menus;
  • Parce qu’on peut post-traiter la requête après que le composant l’a construite : ajouter la sélection de plusieurs colonnes, ajouter des préfixes, etc.
  • Parce que ça peut joliment égayer la platitude morne des formulaires de requêtes SPARQL que l’on expose à des utilisateurs, en s’intégrant avec YASGUI, pour permettre une découverte intuitive des données;

Le résultat, au-delà d’un simple éditeur SPARQL, offre une vraie expérience d’exploration des données, avec des mécanismes d’essai-erreur, retour arrière, prise du graphe par un autre bout, etc.

Limites de l’exercice

L’objectif est d’offrir un moyen simple et compréhensible de naviguer dans des données. En conséquence, Sparnatural n’est capable que de construire des motifs de graphe SPARQL simple, et ne sais pas gérer les UNION, OPTIONAL, sous-select, BIND, etc.

Par ailleurs le composant s’arrête à sélectionner les URIs des objets cherchés, il n’est pas possible pour un utilisateur de choisir les colonnes présentées dans le tableau de résultats. Il faut post-traiter la requête pour injecter la sélection des valeurs de colonnes.

Si, comme pour la démo DBPedia, vous intégrez Sparnatural avec YASGui et YASR et que la page HTML envoie la requête SPARQL, faites attention que le service SPARQL doit supporter les requêtes CORS (Cross-Origin Resource Sharing), ce qui n’est pas le cas de tous les services SPARQL… mais ça devrait !

Envie d’essayer ?

Rendez-vous sur le dépôt Github de Sparnatural si vous voulez un peu plus de doc ou que vous voulez remonter un ticket, un bug, ou contribuer au code. D’autres démos devraient suivre, stay tuned !

 

Cet article SPARNAtural : écrire des requêtes SPARQL, tout naturellement est apparu en premier sur Sparna Blog.

]]>
http://blog.sparna.fr/2019/06/13/sparnatural-ecrire-des-requetes-sparql-tout-naturellement/feed/ 2
Le CIDOC-CRM, ne nous arrachons plus les cheveux ! http://blog.sparna.fr/2019/03/26/le-cidoc-crm-ne-nous-arrachons-plus-les-cheveux/ http://blog.sparna.fr/2019/03/26/le-cidoc-crm-ne-nous-arrachons-plus-les-cheveux/#comments Tue, 26 Mar 2019 14:35:24 +0000 http://blog.sparna.fr/?p=1245 C’est vrai que quand on commence à entendre parler du CIDOC-CRM, il y a de quoi se sentir « Désespéré » (comme le tableau de Courbet); moi aussi, il y a quelques années, si on m’avait demandé de faire quelque chose avec le CIDOC-CRM je me serais arraché les cheveux si je les avais eu encore longs.…

Cet article Le CIDOC-CRM, ne nous arrachons plus les cheveux ! est apparu en premier sur Sparna Blog.

]]>
C’est vrai que quand on commence à entendre parler du CIDOC-CRM, il y a de quoi se sentir « Désespéré » (comme le tableau de Courbet); moi aussi, il y a quelques années, si on m’avait demandé de faire quelque chose avec le CIDOC-CRM je me serais arraché les cheveux si je les avais eu encore longs. Mais en fait, ce n’est pas si terrible, et après avoir utilisé ce modèle dans plusieurs projets, je le trouve d’une grande force et d’une grande richesse. Je vous propose plus bas 2 ressources que j’ai mis au point pour des formations sur le CIDOC-CRM : une navigation visuelle dans les classes du CRM+FRBRoo, et un début de tutorial SPARQL sur les données du British Museum.

Le CIDOC-CRM est une ontologie formelle de haut-niveau permettant de structurer la description et l’histoire d’objets patrimoniaux (tableaux, sculptures, bâtiments, fouilles archéologiques, etc.) – ou d’autres informations similaires. L’objectif de ce modèle est de permettre l’intégration de données provenant de sources hétérogènes dans un graphe commun, cohérent, à l’échelle d’une institution ou au-delà, permettant ainsi l’accès et l’interprétation scientifique de ces informations.
Le périmètre du CRM, tel qu’il est défini, est « toutes les informations requises pour l’échange et l’intégration de données scientifiques à propos du passé humain et de toutes les preuves de ce passé arrivées jusqu’à nous ». Etant fait pour la description structurée de l’histoire d’objets patrimoniaux, le CRM utilise a plein une modélisation évènementielle; c’est-à-dire que fondamentalement, on ne dit pas « Le tableau Le Désespéré a pour date de création : [entre 1843 et 1845] », mais « Entre 1843 et 1845, Gustave Courbet a conduit une Activité de Création dont l’objet était le tableau Le désespéré« ; nuance. D’ailleurs, si j’en crois la notice Wikipedia, on ne dit pas non plus « ce tableau a pour titre Le Désespéré« ; on dit « Gustave Courbet a effectué une activité de nommage de ce tableau qu’il a baptisé Désespoir« , puis « Quelqu’un d’autre (qui ?) a (probablement) effectué une autre activité de nommage (quand ?) et a baptisé le même tableau Le Désespéré« .

Ce qui fait la force du CIDOC-CRM…

Le CIDOC-CRM est un modèle issu de plus de vingt ans de standardisation au sein du Comité International pour la Documentation (CIDOC) du Conseil International des Musées. Autant dire qu’il est le résultat d’une sédimentation de longues réflexions, ce qui rend ses fondations théoriques extrêmement solides. Le CRM a fait l’objet de 2 versions d’un standard ISO, ISO21127:2004 et ISO21127:2014. Il donne donc un cadre de modélisation rigoureux, mais avec une logique qu’il faut s’approprier.

Son paradigme de modélisation événementielle est très puissant et permet d’exprimer de nombreuses informations de façon très flexible. Les Evènements (ou plutôt, les Activités) sont les objets centraux que l’on décrit à l’aide du CIDOC-CRM : des Acteurs participent à des Evenements, qui se produisent dans un Lieu donné, une Temporalité donnée, et affectent des Objets donnés; tout cela pouvant être nommé avec des Appellations et typer avec des Types. Voilà, en une phrase, vous savez tout !

Le CIDOC-CRM est un modèle générique avec un fort niveau d’abstraction, et il ne descend volontairement pas dans le détail de spécifications de certains domaines métier particulier; c’est pourquoi il a fait l’objet d’extensions pour des domaines spécifiques. Dans le monde de l’infodoc on citera en particulier FRBRoo, l’intégration des principes du FRBR dans le cadre de la modélisation orientée objet du CIDOC-CRM, ou bien PRESSoo, lui-même une extension de FRBRoo pour la carctérisation des publication en série; dans d’autres domaines, on peut citer CRMarchaeo, une extension pour la description des données archéologiques, une communauté active autour du CIDOC-CRM.

…Et ce qui le rend compliqué

Ce n’est pas la taille de ce modèle qui le rend compliqué. Le CIDOC-CRM contient 84 classes et 154 propriétés (288 si on compte aussi les inverses) (chiffre approximatif). C’est peu, si l’on compare aux 602 classes et 877 propriétés de schema.org, et cela en fait une ontologie de taille moyenne.

Franchement, la chose qui le rend le plus compliqué, c’est peut-être sa documentation. Un sympathique fichier PDF de 115 pages (tiens, une nouvelle version sort aujourd’hui 26 mars 2019, un hasard), ça c’est sûr, c’est de la spécification formelle ! de bon vieux tableaux de propriétés à la schema.org pourraient être les bienvenus. MAIS MAIS mais, pour vous aider à vous plonger dans le CIDOC, voici une petite visualisation de l’arborescence des classes du modèle et de FRBRoo, construite à partir de SKOS-Play :


Par ailleurs, les diagrammes fournis pour les uses-cases, assez utiles, utilisent un formalisme auquel on n’est pas habitué dans la modélisation d’ontologies classiques. Pour d’autres documents d’introduction on pourra consulter avec profit la présentation du CRM et de FRBRoo sur le site de Doremus.

Un des autres aspects qui le rend compliqué c’est son fort niveau d’abstraction. Le CRM définit en effet des notions comme « Persistent Item », « Man-Made Thing », « Propositional Object »… pas évident de s’approprier la définition de ces notions. Ajoutez à cela que tous les identifiants du CRM commencent par un code : « E5_Event », « E70_Thing », « P94_has_created », et la lecture devient compliquée. Cette identification, rebutante au premier abord, n’est finalement pas pire qu’une autre, d’autant que les noms des propriétés et des classes sont associés à des définitions très précises, et on fini par connaître par coeur les plus importants (E55_Type, P14_carried_out_by…).

Par ailleurs le CRM est formellement défini dans le PDF de référence sus-mentionné, et il n’existe pas d’implémentations de référence du modèle en OWL. Les implémentations OWL fournies sur le site sont explictement non-officielles, et de toutes façons pas à jour. L’implémentation OWL la plus à jour (mais qui date tout de même d’il y a 2 ans, et de 3 versions du modèle) semble être celle d’Erlangen-CRM. Ce n’est donc pas forcément immédiat d’intégrer ce modèle dans une application basée sur les technologies du web de données.

Les projets qui utilisent le CIDOC-CRM

Mais qui qui qui (sont les snorkis) se sert du CIDOC-CRM ? L’implémentation la plus impressionnante est celle du British Museum, notamment au travers de l’interface ResearchSpace. Vous aimez les spaghettis ? voici la formalisation des données du catalogue du BM en CIDOC-CRM :

Vous voulez expérimenter avec les données CIDOC-CRM du BM ? je vous propose un tutorial d’interrogation des données du British Museum en SPARQL.

Au Royaume-Uni encore, le Yale Center for British Art publie également des données dans le CIDOC-CRM, mais semble-t-il assez light.

Le projet Doremus a créé une extension de FRBRoo / CIDOC-CRM pour la musique classique (composition, concerts), documentée ici.

Je travaille en ce moment sur une première version de la plateforme OpenArchaeo pour l’intégration de données de fouilles archéologiques, alignées sur le CIDOC-CRM à partir de base relationnelles (base ARSOL) et de fichiers XML (base AERBA).

Par ailleurs, dans le cadre de ELI (European Legislation Identifier), j’ai spécifié l’extension du modèle ELI pour la description des étapes et des documents lors de l’élaboration des projets de lois : ELI-DL (pour « draft legislation »); c’est un bon cas pour l’utilisation du CIDOC-CRM et de FRBRoo, puisque l’élaboration d’une loi est vue comme une séquence d’Activités utilisant ou produisant des documents, jusqu’à la publication finale de la loi au JO. C’est également un bon scenario d’utilisation du CIDOC-CRM comme cadre méthodologique, tout en utilisant uniquement des propriétés métier pour masquer les notions trop abstraites du CRM.

On peut également supposer que l’Institut National d’Histoire de l’Art (INHA) s’intéresse à ce genre de sujet. Le laboratoire LARHRA, laboratoire de recherche historique à Lyon, s’y intéresse également dans le cadre du projet SYMOGIH, pour lequel un autre modèle de données avait été initialement mis au point.

Les outils pour convertir

Le CIDOC-CRM étant un modèle fait pour l’intégration de données, le labo de FORTH, en Crète, qui abrite les cerveaux du CRM, a mis au point un language et un outil de mapping, X3ML, permettant de mapper et convertir des fichiers XML vers le modèle CIDOC-CRM. Pour convertir les données de bases relationnelles, on peut utiliser –Ontop–.

Alors, près à vous frotter au CIDOC-CRM ? avec toutes ces infos au moins, vous ne vous arracherez pas les cheveux !

Cet article Le CIDOC-CRM, ne nous arrachons plus les cheveux ! est apparu en premier sur Sparna Blog.

]]>
http://blog.sparna.fr/2019/03/26/le-cidoc-crm-ne-nous-arrachons-plus-les-cheveux/feed/ 2
Thesaurus in time : publishing versions of ScoLOMFR vocabulary http://blog.sparna.fr/2018/09/25/thesaurus-versions-of-scolomfr-skos/ http://blog.sparna.fr/2018/09/25/thesaurus-versions-of-scolomfr-skos/#comments Tue, 25 Sep 2018 10:42:58 +0000 http://blog.sparna.fr/?p=1227 In last May 2018, the controlled vocabularies of ScoLOMFR were published using Skosmos : https://www.reseau-canope.fr/scolomfr/data/fr/ (In French). ScoLOMFR is composed of 40 vocabularies (40 ConceptScheme) used to describe pedagogical resources by public and private organisations in France. This ensures the interoperability of the resource descriptions. it contains, amongst other thing, the official nomenclature of the…

Cet article Thesaurus in time : publishing versions of ScoLOMFR vocabulary est apparu en premier sur Sparna Blog.

]]>
In last May 2018, the controlled vocabularies of ScoLOMFR were published using Skosmos : https://www.reseau-canope.fr/scolomfr/data/fr/ (In French).

ScoLOMFR is composed of 40 vocabularies (40 ConceptScheme) used to describe pedagogical resources by public and private organisations in France. This ensures the interoperability of the resource descriptions. it contains, amongst other thing, the official nomenclature of the school programs in France.

ScoLOMFR is maintained by Réseau Canopé; more information on ScoLOMFR can be found at https://www.reseau-canope.fr/scolomfr (in French), and the announcement for this new version including the vocabulary browser is here.

A significant feature of this deployment is vocabulary versioning. The 6 successive versions of ScoLOMFR are available for browsing (each in a separate space), so that a resource indexer relying on a specific version can browse it. The URIs always dereference to the latest version (4.0 at the time of this writing) (try http://data.education.fr/voc/scolomfr/concept/scolomfr-voc-015-num-671 for instance).

The same concept thus exists in multiple vocabularies at the same time, with the same URI. It becomes then possible to display a timeline of a concept across versions :

screenshot-concept-with-timelineThe timeline is clickable to jump in time and display the same concept in a different version.

It also shows in which version a concept was deprecated and finally removed (e.g. http://data.education.fr/voc/scolomfr/concept/scolomfr-voc-045-num-001) :

Deprecated concept version timeline

Note that all this does not require additionnal provenance or history data; it is a simple lookup of the Concept URI in all the versions loaded in Skosmos.

Anyone interested can engage discussion on vocabulary versioning at https://github.com/NatLibFi/Skosmos/issues/677, or get in touch for any further information.

Cet article Thesaurus in time : publishing versions of ScoLOMFR vocabulary est apparu en premier sur Sparna Blog.

]]>
http://blog.sparna.fr/2018/09/25/thesaurus-versions-of-scolomfr-skos/feed/ 0
Aligner son thesaurus avec RAMEAU en utilisant OnAGUI http://blog.sparna.fr/2018/07/17/aligner-thesaurus-rameau-onagui/ http://blog.sparna.fr/2018/07/17/aligner-thesaurus-rameau-onagui/#comments Tue, 17 Jul 2018 08:56:09 +0000 http://blog.sparna.fr/?p=1212 La BNF organisait le 10 juillet 2018 un atelier « Données liées et données à lier : quels outils pour quels alignements ?« , avec plein de bonnes choses dedans : RobotDonnées, le module développé par Logilab pour data.bnf.fr qui permet le regroupement semi-automatique des éditions en œuvres; où l’on apprend que data.bnf.fr ne comporte « que » 300…

Cet article Aligner son thesaurus avec RAMEAU en utilisant OnAGUI est apparu en premier sur Sparna Blog.

]]>
La BNF organisait le 10 juillet 2018 un atelier « Données liées et données à lier : quels outils pour quels alignements ?« , avec plein de bonnes choses dedans :

  • RobotDonnées, le module développé par Logilab pour data.bnf.fr qui permet le regroupement semi-automatique des éditions en œuvres;
  • BiblioStratus, pour aligner un catalogue externe avec celui de la BNF sur la base de plusieurs heuristiques (ISBN, EAN ou bien titre+auteur+date ou titre+auteur); où l’on apprend que la transition n’est pas qu’écologique mais qu’il existe également une transition bibliographique;
  • l’ANR ELKER pour « Enhancing Link Keys: Extraction and Reasoning », porté notamment par l’INRIA Grenoble pour la détection automatique des attributs permettant de trouver des correspondances dans 2 jeux de données RDF arbitraires; très impressionnant;
  • CultuurLink, à tester pour tous ceux qui s’intéressent aux processus d’alignement de vocabulaires, bien que l’outil soit restreint aux vocabulaires patrimoniaux des Pays-Bas;
  • et encore plein d’autres choses (cf les liens sur la page de l’atelier);

OnAGUI pour aligner 2 thesaurus SKOS

Je voulais profiter de cette thématique des alignements pour parler d’un autre outil d’alignement de thesaurus SKOS : OnAGUI pour « Ontology Alignment Graphical Interface« . OnAGUI est le genre d’outil qui ne paie pas de mine au premier abord mais qui est à mon avis l’outil dont la prise en main est la plus immédiate pour qui veut aligner 2 thesaurus en SKOS, tout en permettant d’outiller le processus depuis l’alignement linguistique automatique jusqu’à la validation manuelle de l’alignement produit.

L'interface d'OnAGUI pour aligner 2 thesaurus

L’interface d’OnAGUI pour aligner 2 thesaurus

Quelques considérations générales : d’abord l’acronyme parle d’alignement d’ « ontologies », mais pas de panique, ça marche pour des thesaurus en SKOS; surtout pour des thesaurus en SKOS, d’ailleurs. Ensuite, c’est open-source; ça s’installe facilement sur n’importe quel poste équipé de Java, c’est une application « de bureau », qui ne nécessite pas d’infrastructure client-serveur, etc. l’interface est en français (et anglais) puisque le développement à été fait par Laurent Mazuel à l’époque où il travaillait avec Jean Charlet au LIMICS (INSERM). L’outil est maintenu, notamment par votre serviteur.

Vous pouvez consulter la documentation d’OnAGUI où vous trouverez des informations plus détaillées sur le logiciel.

Alignement avec RAMEAU

Maintenant, le cas d’usage : il m’ait arrivé de rencontrer des personnes qui avaient besoin d’aligner un vocabulaire vers le langage d’indexation RAMEAU de la BNF. Comment faire ?

  1. Je ne détaille pas ici la structure de RAMEAU et son mécanisme de « vedettes-matières pré-coordonnées » que je ne connais pas bien d’ailleurs, mais je pars (naïvement) de ce qui existe : le fichier des Thèmes Rameau que l’on télécharge depuis le site des dumps de données de la BNF. Il s’agit du fichier intitulé « [RDF/XML] Thèmes RAMEAU« .
  2. A ce stade il faut l’avouer : la BNF a encore des efforts à faire sur diffusion des données de RAMEAU; les données telles qu’on les télécharge sont inutilisables telles qu’elles, et nécessitent : 1/ un nettoyage et 2/ une fusion en un seul fichier; je ne m’étends pas sur cette étape que j’ai réalisé à l’aide de scripts RDF4J dont je me sers régulièrement, mais on se ramène au final à un seul fichier RDF contenant tout RAMEAU en SKOS; si vous voulez tester OnAGUI sur un autre vocabulaire ne nécessitant pas cette étape de « magie noire », essayez avec le thesaurus de l’UNESCO ou Eurovoc;
  3. Il faut ensuite avoir son propre thesaurus en SKOS; on peut utiliser pour cela l’outil de conversion Excel vers SKOS disponible dans SKOS Play;
  4. Il faut télécharger OnAGUI en prenant soin de prendre une version postérieure à 0.3.2, version pour laquelle des améliorations ont été apportées pour fonctionner avec RAMEAU;
  5. Muni donc de votre vocabulaire en SKOS d’un côté, de RAMEAU (nettoyé) de l’autre, et d’OnAGUI entre les deux, vous pouvez ensuite :
    1. Charger votre thesaurus dans OnaGUI (Menu « Fichier > Charger vocabulaire 1 > Charger en SKOS »);
    2. Charger RAMEAU dans OnaGUI (Menu « Fichier > Charger vocabulaire 2 > Charger en SKOS »), qui va vaillamment charger 160000+ concepts;
    3. Lancer un alignement linguistique (Menu « Alignement > I-Sub distance ») en prenant soin de :
      1. sélectionner la langue « fr » dans les 2 thesaurus;
      2. abaisser légèrement le seuil de tolérance de l’algorithme, en le mettant à 0.85 par exemple; ne le mettez pas trop bas sinon vous aurez trop de correspondances qui ne veulent rien dire, ni trop haut sinon vous allez rater des choses;
    4. Aller prendre un petit café, ou deux, ou trois… en fonction de la taille du vocabulaire que vous avez besoin d’aligner; patientez entre quelques secondes et une nuit entière;
    5. Analyser le tableau de résultat fourni et soit :
      1. supprimer des lignes de correspondances fausses; regardez le score de chaque correspondance : plus le score tend vers 1, meilleure est la correspondance linguisitique, plus le score diminue, plus les libellés sont éloignés;
      2. ajouter des nouvelles correspondances qui auraient été ratées;
    6. Puis exporter l’alignement (Menu « Fichier > Exporter l’alignemenr ») soit dans un format RDF EDOAL, le plus expressif, soit avec les propriétés d’alignement SKOS, soit en CSV pour une analyse dans un tableur;
Vocabulaire Rameau dans OnaGUI

Vocabulaire Rameau chargé dans OnaGUI

 

OnAGUI est un outil perfectible sur bien des aspects mais qui permet de valider « pour de vrai » des alignements sur des vrais projets, sans besoin d’infrastructure compliquée ou d’outil commercial. J’ai pu le mettre en œuvre à 2 reprises : pour l’alignement du thesaurus de l’IRSTEA vers le GEMET et Agrovoc, et plus récemment pour un essai d’alignement du vocabulaire thématique d’indexation de la loi Luxembourgeoise avec le thesaurus Eurovoc utilisé au niveau européen, sur la base de l’analyse des transpositions des directives européennes dans la loi nationale. Il peut également prendre en charger des cas d’usage d’alignement partiel, en alignant seulement les concepts créés ou modifiés après une certaine date, de façon à ne pas à avoir à refaire l’intégralité de l’alignement à chaque nouvelle version du thesaurus.

Si vous avez des questions, des cas d’usage ou des retours d’expérience sur OnAGUI, n’hésitez pas à soumettre des tickets dans le site du projet.

Cet article Aligner son thesaurus avec RAMEAU en utilisant OnAGUI est apparu en premier sur Sparna Blog.

]]>
http://blog.sparna.fr/2018/07/17/aligner-thesaurus-rameau-onagui/feed/ 0
SPARQL sur DOREMUS : une balade autour de Gabriel Fauré http://blog.sparna.fr/2018/06/21/sparql-doremus-une-balade-autour-de-gabriel-faure/ http://blog.sparna.fr/2018/06/21/sparql-doremus-une-balade-autour-de-gabriel-faure/#comments Thu, 21 Jun 2018 08:02:35 +0000 http://blog.sparna.fr/?p=1196 DOREMUS est un beau projet de recherche regroupant plusieurs producteurs de métadonnées musicales (BNF, Philarmonie de Paris, Radio France) associés à des laboratoires universitaires; le résultat a été la publication conjointe des descriptions d’oeuvres de musique classique, dans un modèle de données novateur qui est une extension de FRBRoo, lui-même une extension du CIDOC-CRM. Voici…

Cet article SPARQL sur DOREMUS : une balade autour de Gabriel Fauré est apparu en premier sur Sparna Blog.

]]>
DOREMUS est un beau projet de recherche regroupant plusieurs producteurs de métadonnées musicales (BNF, Philarmonie de Paris, Radio France) associés à des laboratoires universitaires; le résultat a été la publication conjointe des descriptions d’oeuvres de musique classique, dans un modèle de données novateur qui est une extension de FRBRoo, lui-même une extension du CIDOC-CRM.

Voici un tutorial guidé d’interrogation SPARQL des données de Doremus, autour de Gabriel Fauré; ce tutorial explore la modélisation de « création » entre un compositeur et une oeuvre musicale (ou plutôt son expression au sens FRBR). Il montre comment :

  • Trouver un compositeur dans le navigateur Overture de Doremus, le navigateur à facette et le service SPARQL;
  • Naviguer dans ses activités de création, vers ses oeuvres et leurs expressions, et récupérer les dates de création des oeuvres; le tout en illustrant les opérateurs SPARQL de property path, aggrégation, COUNT, assignation, etc;
  • Générer une timeline des compositeurs classiques de façon semi-automatique en utilisant le service timelinejs :

screenshot-timeline-doremus

CIDOC-CRM + SPARQL Tutorial sur les données Doremus

Introduction aux requêtes SPARQL sur les données du projet Doremus (http://data.doremus.org) qui modélise et diffuse les données de création d’oeuvres musicale…

Pour réutiliser ce document dans un cadre non-commercial vous pouvez me contacter.

Dans la même veine, vous pouvez consulter le tutorial SPARQL sur les données data.bnf.fr.

Image du post : Carte postale éditée en 1900 lors de la représentation de l’opéra Prométhée de Gabriel Fauré au Théâtre des Arènes, à Béziers. Sur Wikimedia Commons.

Cet article SPARQL sur DOREMUS : une balade autour de Gabriel Fauré est apparu en premier sur Sparna Blog.

]]>
http://blog.sparna.fr/2018/06/21/sparql-doremus-une-balade-autour-de-gabriel-faure/feed/ 0
Le jour où tout le monde a entendu parler de DBPedia… http://blog.sparna.fr/2018/04/26/le-jour-ou-tout-le-monde-a-entendu-parler-de-dbpedia/ http://blog.sparna.fr/2018/04/26/le-jour-ou-tout-le-monde-a-entendu-parler-de-dbpedia/#comments Thu, 26 Apr 2018 14:27:56 +0000 http://blog.sparna.fr/?p=1189 … c’était le 23 novembre 2012, dans directmatin, à la page High-Tech. Avec ce titre qui me fait sourire encore aujourd’hui « Le Web 3.0 bientôt en France », sous-titre « Wikipédia à la rescousse ». Pris d’un accès de minimalisme ce matin, je voulais partager ici cette petite pépite avant de mettre ce bout de papier là où…

Cet article Le jour où tout le monde a entendu parler de DBPedia… est apparu en premier sur Sparna Blog.

]]>
… c’était le 23 novembre 2012, dans directmatin, à la page High-Tech. Avec ce titre qui me fait sourire encore aujourd’hui « Le Web 3.0 bientôt en France », sous-titre « Wikipédia à la rescousse ».

Pris d’un accès de minimalisme ce matin, je voulais partager ici cette petite pépite avant de mettre ce bout de papier là où il aurait dû se trouver depuis longtemps… à la poubelle.

Au fait, DBPedia francophone, c’est ici.

directmatin-20121123

 

Cet article Le jour où tout le monde a entendu parler de DBPedia… est apparu en premier sur Sparna Blog.

]]>
http://blog.sparna.fr/2018/04/26/le-jour-ou-tout-le-monde-a-entendu-parler-de-dbpedia/feed/ 0
SPARQL sur les données de data.bnf.fr : un exercice guidé dans les Fables http://blog.sparna.fr/2018/03/07/data-bnf-fr-sparql-exercice/ http://blog.sparna.fr/2018/03/07/data-bnf-fr-sparql-exercice/#comments Wed, 07 Mar 2018 14:27:41 +0000 http://blog.sparna.fr/?p=1182 Appréhender les données de data.bnf.fr n’est pas forcément facile. Je vais expérimenter ce nouveau TP pour expliquer comment partir à la découverte des données de la BNF en utilisant SPARQL. L’énoncé permet de comprendre : Comment trouver un auteur par son nom Comment trouver une oeuvre par son nom Comment chercher un mot-clé dans Rameau…

Cet article SPARQL sur les données de data.bnf.fr : un exercice guidé dans les Fables est apparu en premier sur Sparna Blog.

]]>
Appréhender les données de data.bnf.fr n’est pas forcément facile. Je vais expérimenter ce nouveau TP pour expliquer comment partir à la découverte des données de la BNF en utilisant SPARQL. L’énoncé permet de comprendre :

  • Comment trouver un auteur par son nom
  • Comment trouver une oeuvre par son nom
  • Comment chercher un mot-clé dans Rameau
  • Comment faire une recherche combinée sur l’auteur de l’oeuvre et un mot-clé Rameau

Découvrir les données de data.bnf.fr en utilisant SPARQL

Travaux pratiques pour explorer les oeuvres, les auteurs et les mots-clés de data.bnf.fr en utilisant des requêtes SPARQL.

Cet article SPARQL sur les données de data.bnf.fr : un exercice guidé dans les Fables est apparu en premier sur Sparna Blog.

]]>
http://blog.sparna.fr/2018/03/07/data-bnf-fr-sparql-exercice/feed/ 3
Vocabulaires dans le web de données : quels outils open-source ? http://blog.sparna.fr/2018/01/23/vocabulaires-thesaurus-web-donnees-skos-open-source/ http://blog.sparna.fr/2018/01/23/vocabulaires-thesaurus-web-donnees-skos-open-source/#comments Tue, 23 Jan 2018 10:43:08 +0000 http://blog.sparna.fr/?p=1157 Je travaille régulièrement sur des projets de gestion et/ou de mise en ligne de vocabulaires (thesaurus, taxonomies) en SKOS : pour l’UNESCO – voir le précédent billet -, l’INED (thesaurus Popin), le Luxembourg, l’IRSTEA ou le Réseau Canopé (vocabulaire ScolomFr). Ces projets sont réalisés en utilisant de l’open-source sur toute la chaîne, depuis le back-office…

Cet article Vocabulaires dans le web de données : quels outils open-source ? est apparu en premier sur Sparna Blog.

]]>
Je travaille régulièrement sur des projets de gestion et/ou de mise en ligne de vocabulaires (thesaurus, taxonomies) en SKOS : pour l’UNESCO – voir le précédent billet -, l’INED (thesaurus Popin), le Luxembourg, l’IRSTEA ou le Réseau Canopé (vocabulaire ScolomFr). Ces projets sont réalisés en utilisant de l’open-source sur toute la chaîne, depuis le back-office de gestion jusqu’à la diffusion conforme aux standards du web de données, en passant par l’alignement ou la conversion depuis des tableaux Excel.

 

Outils-pour-la-publication-des-thesaurus-dans-le-web-de-donnees

Je vous propose un petit tour d’horizon des outils open-source pour la gestion et la diffusion de vocabulaires contrôlés.

Outils de gestion

Vocbench3

Vocbench3 est l’outil de gestion de référentiels SKOS que je recommande. Il est développé par l’Université de Rome Tor-Vergata, et financé pour 1 ou 2 année encore par le programme de financement européen ISA, ce qui lui donne une bonne visibilité à moyen terme. La communauté d’utilisateurs est large avec beaucoup d’organismes internationaux (FAO/Agrovoc, INRA, Office des Publications de l’UE/Eurovoc, etc.). Le support est bon, l’équipe de développement répond rapidement aux questions.

Coté technique, il est directement basé sur des données RDF, ce qui facilite son intégration dans des environnements techniques basés sur le web de données. Le modèle de données est extensible et permet de gérer des propriétés « customisées » sur les concepts. Vocbench permet également d’éditer des ontologies OWL, sans arriver à concurrencer Protégé.

td_eurovoc_show

Ginco

Ginco est l’outil de gestion de vocabulaires développé par le Ministère de la Culture pour la maintenance de ses référentiels. Il a été dès le départ spécifié pour être compatible avec la norme ISO-25964 sur la modélisation des thesaurus, et avec SKOS. Donc en particulier la gestion des facettes, des tableaux de concepts, etc. Il a un pendant « Ginco diffusion » qui motorise le site de diffusion des vocabulaires du MCC.

OpenTheso

OpenTheso est l’outil de gestion SKOS made in CNRS. La communauté d’utilisateurs est dans le monde de la recherche française/francophone (notamment le réseau FRANTIQ).
On pourra consulter la présentation d’OpenTheso à semweb.pro 2017 par Miled Rousset.

Outils de Publication et Visualisation de vocabulaires

Skosmos

Vous voulez valoriser vos vocabulaires/thesaurus/taxonomies ? Vous avez besoin des les rendre visibles, navigables, interrogeables par les utilisateurs ? Vous voulez recevoir du feedback, faire participer une communauté ? Skosmos est l’outil de choix.
Développé par la Bibliothèque Nationale de Finlande pour son portail « finto.fi » (parlez-vous finnois ?), Skosmos propose une interface de rendu très propre avec toutes les fonctions de navigation dans des vocabulaires contrôlés : listes alphabétiques, arborescence hiérarchique, recherche plain-texte avec autocompletion, gestion des groupes/collections SKOS, affichage propre des alignements avec d’autres vocabulaires. Il s’adapte assez facilement pour le mettre aux couleurs de l’institution. Il prend en charge la négociation de contenu pour l’accès aux données brutes en RDF. L’interface inclut également un formulaire permettant d’envoyer du feedback à l’équipe de maintenance du thesaurus.

L’équipe de développement répond très vite aux questions, le code PHP est de qualité, l’outil est vivant et de nouvelles versions sont disponibles régulièrement.

Skosmos est à mon sens LE meilleur outil pour la diffusion de vocabulaires en SKOS.

screenshot-skosmos-finto

Skos Play

SKOS Play est l’outil que je développe depuis 2013 pour faire de la publication et de la visualisation de référentiels SKOS. Il permet de générer des documents PDF des vocabulaires, des sorties HTML dynamiques (arbres dépliables),des listings alphabétiques, des tableaux de traduction ou d’alignement, ou des data visualisations. A titre d’exemple on pourra consulter les rendus du code Rome de Pôle Emploi en SKOS.

SKOS Play est intégré dans la plateforme de publication des vocabulaires du MCC, et dans celle de l’UNESCO, pour la génération des PDFs. Le service en ligne est quant à lui utilisé plus de 500 fois par mois.

code-rome-visualisation-arbre

Conversion Excel, contrôle qualité, alignement

Skos Play convert

SKOS Play inclut un service de génération de données RDF/SKOS depuis des tableaux Excel (voir précédent billet).

Soyons honnêtes : rien ne remplace Excel :-) ! pour de la saisie ou de l’analyse de données en masse, avoir une vue globale sur ces données, faire des reporting, gérer facilement plusieurs vocabulaires… Pas de courbe d’apprentissage, pas d’outil à installer, grande efficacité de saisie. Et si on utilise un environnement en ligne type Google Sheets, on gagne l’aspect collaboratif.
Cette passerelle Excel-RDF-SKOS s’est révélée très importante pour faire les reprises ou les créations initiales de vocabulaires, avant de les basculer dans des outils de gestion comme VocBench.

convert-screenshot-body

Skos Testing Tool : contrôle qualité

Le SKOS Testing Tool est une interface web permettant de valider la conformité de fichiers SKOS (voir précédent billet). L’outil s’appuie sur qSKOS, qui fonctionne lui en ligne de commande. 27 vérifications peuvent être effectuées sur les données, comme :

  • vérification de l’absence de cycle dans la hiérarchie des concepts
  • vérification que tous les concepts ont bien un prefLabel
  • vérification que tous les concepts sont traduits (dans le cas de thesaurus multilingues)

Combiné avec les sorties alphabétiques/hiérarchiques de SKOS Play, ces vérifications permettent de s’assurer de la qualité des données soit en amont lors des comités de validation du vocabulaire, soit en aval avant la diffusion des données en ligne dans Skosmos.

screenshot-skos-testing-tool

OnaGUI : Alignement semi-automatique

OnaGUI (Ontology Alignment Graphical User Interface) a été développé à l’origine à l’INSERM dans l’équipe de Jean Charlet pour faire de l’alignement d’ontologies médicales, et il a depuis été adapté pour pouvoir aligner des données SKOS.

C’est l’outil le plus accessible et le plus simple d’utilisation pour aligner 2 vocabulaires : on charge un thesaurus à gauche, un thesaurus à droite, et on lance un algorithme d’alignement qui va proposer des correspondances sur la base des proximités des libellés des concepts.

On utilise régulièrement OnaGUI pour illustrer les alignements de thesaurus dans les formations web de données à l’ADBS.

Si on veut utiliser des algorithmes d’alignement plus poussés, on se tournera vers l’API d’alignement de l’INRIA, mais qui demande du développement technique pour être intégrée dans un outil.

onagui-irstea-gemet

Quels outils manquent ?

Quels outils manquent dans l’écosystème des vocabulaires dans le web de données ?

  • Probablement des outils faciles à mettre en œuvre pour assister à la création de vocabulaires à partir d’analyse de corpus (détection d’entités, agrégation des mots en concepts, etc.); en connaissez-vous ? IBM Watson ne ferait pas quelque chose comme ça ?
  • Des interfaces d’alignement puissantes faciliteraient la mise en réseau des référentiels (des choses comme cultuurlink, mais généralisées);
  • Une gestion des versions successives des vocabulaires, avec calcul de deltas, génération automatique de ce qui a changé entre 2 versions, etc;
  • Des plugins dans les CMS courants (WordPress, Drupal, etc…) permettant d’importer directement des vocabulaires SKOS, et de les mettre à jour; ça doit bien exister, non ? également des ponts faciles et direct vers SolR et ElasticSearch;
  • Mon rêve : un outil d’édition des vocabulaires en mode collaboratif et ouvert poussé, en mode SaaS, sans différence entre l’environnement d’édition et de publication, permettant de faire collaborer une communauté plus large que quelques éditeurs experts; ça viendra un jour ! :-)

Et vous, quels outils vous manquent ?

(Illustration de l’article : « Atelier Heilmann Ducommun pour la construction de machines-outils » Gallica http://gallica.bnf.fr/ark:/12148/btv1b10201510v)

Cet article Vocabulaires dans le web de données : quels outils open-source ? est apparu en premier sur Sparna Blog.

]]>
http://blog.sparna.fr/2018/01/23/vocabulaires-thesaurus-web-donnees-skos-open-source/feed/ 11
Outil de test de vocabulaires SKOS http://blog.sparna.fr/2017/07/11/outil-de-test-de-vocabulaires-skos/ http://blog.sparna.fr/2017/07/11/outil-de-test-de-vocabulaires-skos/#comments Tue, 11 Jul 2017 08:11:39 +0000 http://blog.sparna.fr/?p=1151 Nous avons développé un outil de test de vocabulaires SKOS (« SKOS Testing Tool »). Cette application est une interface vers l’outil de validation qSKOS de Christian Mader. L’application est gratuite, open-source, sans login, et en français ! Vous pouvez soumettre des demandes d’évolution ou des remontées de bug sur le Github du projet. L’outil permet de…

Cet article Outil de test de vocabulaires SKOS est apparu en premier sur Sparna Blog.

]]>
Nous avons développé un outil de test de vocabulaires SKOS (« SKOS Testing Tool »). Cette application est une interface vers l’outil de validation qSKOS de Christian Mader.

L’application est gratuite, open-source, sans login, et en français ! Vous pouvez soumettre des demandes d’évolution ou des remontées de bug sur le Github du projet. L’outil permet de :

  • valider un fichier SKOS uploadé ou à partir d’une URL;
  • sélectionner les règles à vérifier;
  • récupérer le résultat de la validation dans un rapport HTML, le format texte brut de qSKOS, ou en RDF dans le Data Quality Vocabulary DQV;
  • pointer directement sur l’URL du rapport de test à partir d’une URL de fichier SKOS (voir les détails sur la page de documentation Github);

Vous avez dit « test de SKOS » ?

On peut distinguer plusieurs niveaux de règles dans les règles vérifiées par qSKOS et l’outil de test :

Les contraintes formelles : SKOS défini peu de contraintes formelles :

  • un concept ne doit pas avoir plus d’un skos:prefLabel par langue
  • un même libellé ne peut pas être à la fois prefLabel ou altLabel
  • une entrée ne peut pas être à la fois Concept et Collection
  • et c’est à peu près tout.

Les conventions SKOS : SKOS donne des contraintes qui sont plus des conventions ou des bonnes pratiques :

  • les relations d’alignement sont à utiliser entre des ConceptScheme différents
  • il faut mieux ne pas avoir d’homonymes dans un ConceptScheme
  • les skos:notation doivent être uniques dans un même ConceptScheme
  • un Concept marqué comme « top concept » (racine) ne doit normalement pas avoir de skos:broader
  • etc.

Les « boulettes classiques » :

  • Concepts sans libellés;
  • Cycles dans la hiérarchie des concepts;
  • Caractères spéciaux dans les libellés (copier-coller depuis Word…)
  • etc…

Les bonnes pratiques de publications de données liées : L’outil vérifie quelques autres bonnes pratiques de publication :

  • Il faut mieux que les concepts soient documenter avec des propriétés de documentation SKOS;
  • Il faut mieux qu’ils soient reliés à d’autres concepts dans le vocabulaire (avec des broader, narrower ou related);
  • Il faut mieux qu’ils fassent référence à d’autres données sur le web (linked data);

Correction automatique des fichiers

La prochaine grande étape après le test sera de proposer des corrections automatiques des données pour certain problèmes, similaires à ce que fait Skosify.

A vos vocabulaires !

Illustration : « Usage des nouvelles mesures » sur Gallica : http://gallica.bnf.fr/ark:/12148/btv1b8412951c

Cet article Outil de test de vocabulaires SKOS est apparu en premier sur Sparna Blog.

]]>
http://blog.sparna.fr/2017/07/11/outil-de-test-de-vocabulaires-skos/feed/ 1
Référentiel ROME de Pôle Emploi en SKOS (à partir de data.gouv.fr) http://blog.sparna.fr/2017/04/18/rome-pole-emploi-skos-rdf-data-gouv-fr/ http://blog.sparna.fr/2017/04/18/rome-pole-emploi-skos-rdf-data-gouv-fr/#comments Tue, 18 Apr 2017 08:31:17 +0000 http://blog.sparna.fr/?p=1132 Etalab, la mission chargée de la politique Open Data de l’administration aujourd’hui intégrée à la DSI de l’Etat, vient d’ouvrir le portail du service public de la donnée (lire l’article sur silicon.fr) : des jeux de données de référence, « à fort impact économique et social », d’un niveau de qualité et de fraîcheur garanti. Parmi ceux-ci…

Cet article Référentiel ROME de Pôle Emploi en SKOS (à partir de data.gouv.fr) est apparu en premier sur Sparna Blog.

]]>
Etalab, la mission chargée de la politique Open Data de l’administration aujourd’hui intégrée à la DSI de l’Etat, vient d’ouvrir le portail du service public de la donnée (lire l’article sur silicon.fr) : des jeux de données de référence, « à fort impact économique et social », d’un niveau de qualité et de fraîcheur garanti. Parmi ceux-ci le Répertoire Opérationnel des Métiers et de l’Emploi (ROME), la classification utilisée par Pôle Emploi.

A partir des fichiers de données du Répertoire Opérationnel des Métiers et de l’Emploi, j’ai mis en ligne des visualisations de données du ROME, après nettoyage, traitement, et conversion des données en SKOS.

Le Répertoire ROME

Ce répertoire ROME m’avait intéressé il y a 4 ans lorsque j’avais effectué une mission pour l’optimisation sémantique du moteur de recherche SolR d’un job board. Nous nous étions demandé à l’époque si nous pouvions réutiliser une partie de ce référentiel pour effectuer un rapprochement (automatique ou manuelle) des titres d’annonces d’emplois vers le référentiel. Cela aurait permis, à partir de l’identification du nom du poste, de catégoriser automatiquement les annonces dans la catégorie ROME appropriée. Le ROME contient en effet plus de 11000 dénominations de postes/métiers, catégorisés dans une double classification : une arborescence principale, et une arborescence thématique. On y trouve donc des entrées comme :

  • Accompagnateur / Accompagnatrice en écotourisme
  • Responsable de rayon produits alimentaires
  • Assistant / Assistante mise en scène
  • etc.

Ces noms de postes sont organisés dans une classification à 3 niveaux : « AGRICULTURE ET PÊCHE, ESPACES NATURELS ET ESPACES VERTS, SOINS AUX ANIMAUX > Espaces naturels et espaces verts > Bûcheronnage et élagage ». Le 3eme niveau (ici « Bûcheronnage et élagage ») correspond à une fiche métier (ici http://candidat.pole-emploi.fr/marche-du-travail/fichemetierrome?codeRome=A1201) et est associé à un code (ici A1201).

Arborescence principale du code ROME dans SKOS-Play

Conversion en SKOS

Je suis reparti ici des fichiers bruts fournis sur data.gouv.fr, et j’ai passé un peu de temps à les convertir en SKOS avec le convertisseur Excel vers SKOS de SKOS Play :

  • ajustement manuel de certaines valeurs mal séparées par des virgules dans le fichier CSV de départ;
  • suppression des guillemets simples et doubles;
  • fusion des 2 fichiers fournis (arborescence principale et arborescence thématique);
  • réorganisation des colonnes;

Il s’agit ensuite de construire un tableau Excel au format adéquat pour une conversion vers SKOS, en adaptant la structure des fichiers, typiquement en calculant le contenu de nouvelles colonnes avec des formules Excel. En particulier, il s’agit de donner des identifiants URI à toutes les entrées du code ROME, pour arriver ainsi à des données open data « 4 étoiles »Cette conversion SKOS est relativement aisée à réaliser, sans écriture de code ni script. Elle est accessible à toute personne capable de manipuler Excel.

Ces données SKOS du ROME sont publiées à http://data.sparna.fr/vocabulaires/code-rome.

Je ne rentrerai pas dans les détails de modélisation du ROME en SKOS, sauf sur 1 point : on peut se demander ce qu’il convient d’identifier comme « Concept » dans ce référentiel. J’ai pris le parti de considérer chaque nom de poste comme un skos:Concept, et tous les éléments de classification thématiques comme des skos:Collection (donc des tiroirs, qui ne sont pas utilisables dans une indexation). Un point de vue différent mais tout aussi valable serait de considérer non pas les noms de poste comme des concepts, mais bien les noms de métier, chaque métier ayant une correspondance avec une fiche sur le site Pôle Emploi; les noms de poste seraient alors des synonymes (skos:altLabel) du métier (dans l’exemple au-dessus, le métier A1202 « Bûcheronnage et élagage » aurait alors pour synonymes « Agent / Agente d’aménagement des haies et fossés », « Agent / Agente d’entretien des espaces naturels », « Ouvrier / Ouvrière d’entretien des espaces naturels », etc.).

Visualisations de données

A partir des données SKOS, on peut ensuite générer des visualisations avec SKOS Play : ces visualisations sont publiés à http://labs.sparna.fr/code-rome.html. 3 visualisations ont été produites :

  1. Un champ de recherche assisté (avec une autocompletion sur les noms des métiers), permettant de lancer une recherche d’annonces sur le site Pôle Emploi à partir d’un nom de métier; on pourrait imaginer quelque chose de similaire pour accéder aux fiches métiers plutôt qu’aux annonces;
  2. Une vue arborescente avec d3js, permettant de naviguer visuellement dans l’arbre;
  3. Un listing indenté en HTML, que l’on peut plier et déplier;

On notera que, sauf pour l’articulation entre le champ de recherche assisté et le site de Pôle Emploi qui demande 10 lignes de javascript, ces visualisations sont produites directement par SKOS Play sans avoir à écrire de code.

Un « Web des données de l’emploi » ?

On a donc ici fait passer le référentiel ROME à un meilleur niveau de qualité des données, permettant une intégration facilitée dans d’autres systèmes, d’autres outils de recherche. Au delà de la démonstration sur la conversion et la visualisation de données, j’aimerai dans une deuxième étape illustrer l’alignement des données du ROME avec d’autres référentiels (probablement ESCO), en utilisant OnaGUI, qui permet de simplifier les alignements de vocabulaires. On aurait alors un beau référentiel 5 étoiles, _dans_ le web (et pas simplement _sur_ le web), avec des correspondances vers d’autres données. Un « web des données de l’emploi » ? il fallait bien ça à quelques jours des présidentielles !

Dans une deuxième étape je publierai le SKOS généré pour que les URIs soient déréférençables, en utilisant SKOSMOS, dans un déploiement similaire à celui utilisé pour publier le thesaurus de l’UNESCO.

J’espère que cette conversion de données en SKOS permettra une diffusion et une intégration plus large de ce référentiel utile pour la recherche d’emplois. Dites-moi si vous réutilisez ces données pour d’autres visualisations ou d’autres systèmes, ou si vous souhaitez de l’aide pour son intégration.

Illustration de l’article tirée de Wikimedia Commons : https://fr.wikipedia.org/wiki/Fichier:Metro_de_Paris_-_Ligne_2_-_Rome_07.jpg

Cet article Référentiel ROME de Pôle Emploi en SKOS (à partir de data.gouv.fr) est apparu en premier sur Sparna Blog.

]]>
http://blog.sparna.fr/2017/04/18/rome-pole-emploi-skos-rdf-data-gouv-fr/feed/ 3