(english summary scroll down) Je continue à creuser le sillon…
Créer des référentiels SKOS/RDF à partir d’Excel
Les projets de « moteurs de recherche sémantiques », ou de « d’accès intelligent à l’information » nécessitent de mettre au point, reprendre et maintenir des référentiels d’autorités : concepts d’indexation, liste de personnes, organisations, lieux, etc. Ces référentiels d’autorité forment l’embryon d’un Knowledge Graph de l’organisation. RDF et/ou SKOS sont de bonnes technologies pour implémenter ce Knowledge Graph de par leur structure en graphe, leur absence de modèle contraint et la possibilité de récupérer des données liées sur le web pour enrichir la connaissance interne. La maintenance et le travail sur ce graphe de connaissance peut nécessiter des outils professionnels et commerciaux; mais ils ne sont pas toujours justifiés et les projets simples et les approches pragmatiques feraient mieux de favoriser l’outil le plus simple pour commencer à créer un Knowledge Graph : Excel.
Ce besoin de génération de données RDF à partir de tableaux éditables par tous, sans courbe d’apprentissage, est récurrent. C’est pourquoi SKOS Play vient d’être enrichi avec un nouveau convertisseur de tableaux Excel vers SKOS / RDF. On créé un fichier Excel, on le structure en respectant quelques règles, on le soumet au convertisseur, et celui-ci nous renvoie un fichier RDF/SKOS. Le convertisseur contient quelques règles prédéfinies pour générer du SKOS mais permet très facilement de générer du RDF utilisant n’importe quel vocabulaire (schema.org, SHACL, etc.).
Ce convertisseur en ligne ne demande rien à télécharger, rien à installer, pas de login à créer, n’a pas de limitations, et est entièrement documenté. Il permet sans aucune courbe d’apprentissage de créer des données RDF/SKOS, par des documentalistes ou professionnels de l’information sans formation sur ces notions. Ce développement a été en partie financé par le gouvernement Luxembourgeois dans le cadre du développement de la nouvelle version du portail de recherche Legilux sur la législation luxembourgeoise, qui s’appuie sur un certain nombre de référentiels contrôlés (testez l’autocompletion du champ de recherche pour vous en rendre compte).
Format des fichiers Excel
Le formulaire de conversion inclut un certain nombre de fichiers Excel d’exemples que vous pouvez télécharger pour les adapter à vos propres données, pour respecter le format de tableau attendu par le convertisseur (reportez-vous à la documentation en ligne). Ce format est très simple :
- quelques informations d’entête dans les premières lignes (URI du ConceptScheme / graphe nommé, métadonnées descriptives du référentiel, déclaration des préfixes, etc.);
- une ligne déclarant les propriétés RDF correspondant à chaque colonne;
- puis ensuite une ligne par entrée, avec son URI dans la première colonne puis les valeurs de chaque propriétés dans les colonnes suivante;
Ce qui donne :
Génération de données RDF
Le convertisseur supporte tout le modèle SKOS, y compris les skos:Collection, skos:OrderedCollection, le SKOS-XL, etc. avec toutes les facilités de saisie correspondantes (possibilité d’inverser le sens des propriétés, de barrer certaines cellules pour qu’elles ne soient pas converties, etc.). Et pour ceux qui veulent aller plus loin, le convertisseur supporte toutes les constructions RDF avancées :
- déclaration de préfixes;
- littéraux avec langues ou datatypes;
- noeuds anonymes;
- listes RDF;
- graphes nommés;
Le convertisseur a été éprouvé dans plusieurs projets en production pour la génération de référentiels d’autorité (personnes, organisations, status, etc.), de concepts SKOS enrichis avec des métadonnées d’autres vocabulaires, et de configuration de Shapes en SHACL.
Intégration avec Google Spreadsheet
Excel c’est bien. Excel collaboratif c’est mieux. C’est pourquoi le convertisseur s’intègre directement avec Google Spreadsheets. Le résultat ? on peut éditer ses tableaux à plusieurs en même temps dans un document en ligne Google, puis se connecter dans le convertisseur avec son login Google, choisir le fichier dans la liste des fichiers de notre Drive, et convertir ce fichier à la volée.
Le web sémantique n’a pas besoin d’être compliqué.
Crédit photo : By Piet Mondrian – Gemeentemuseum Den Haag, Public Domain, https://commons.wikimedia.org/w/index.php?curid=37614350