Beaucoup de discours de présentation sur le web de données…
Outil de test de vocabulaires SKOS
Nous avons développé un outil de test de vocabulaires SKOS (« SKOS Testing Tool »). Cette application est une interface vers l’outil de validation qSKOS de Christian Mader.
L’application est gratuite, open-source, sans login, et en français ! Vous pouvez soumettre des demandes d’évolution ou des remontées de bug sur le Github du projet. L’outil permet de :
- valider un fichier SKOS uploadé ou à partir d’une URL;
- sélectionner les règles à vérifier;
- récupérer le résultat de la validation dans un rapport HTML, le format texte brut de qSKOS, ou en RDF dans le Data Quality Vocabulary DQV;
- pointer directement sur l’URL du rapport de test à partir d’une URL de fichier SKOS (voir les détails sur la page de documentation Github);
Vous avez dit « test de SKOS » ?
On peut distinguer plusieurs niveaux de règles dans les règles vérifiées par qSKOS et l’outil de test :
Les contraintes formelles : SKOS défini peu de contraintes formelles :
- un concept ne doit pas avoir plus d’un skos:prefLabel par langue
- un même libellé ne peut pas être à la fois prefLabel ou altLabel
- une entrée ne peut pas être à la fois Concept et Collection
- et c’est à peu près tout.
Les conventions SKOS : SKOS donne des contraintes qui sont plus des conventions ou des bonnes pratiques :
- les relations d’alignement sont à utiliser entre des ConceptScheme différents
- il faut mieux ne pas avoir d’homonymes dans un ConceptScheme
- les skos:notation doivent être uniques dans un même ConceptScheme
- un Concept marqué comme « top concept » (racine) ne doit normalement pas avoir de skos:broader
- etc.
Les « boulettes classiques » :
- Concepts sans libellés;
- Cycles dans la hiérarchie des concepts;
- Caractères spéciaux dans les libellés (copier-coller depuis Word…)
- etc…
Les bonnes pratiques de publications de données liées : L’outil vérifie quelques autres bonnes pratiques de publication :
- Il faut mieux que les concepts soient documenter avec des propriétés de documentation SKOS;
- Il faut mieux qu’ils soient reliés à d’autres concepts dans le vocabulaire (avec des broader, narrower ou related);
- Il faut mieux qu’ils fassent référence à d’autres données sur le web (linked data);
Correction automatique des fichiers
La prochaine grande étape après le test sera de proposer des corrections automatiques des données pour certain problèmes, similaires à ce que fait Skosify.
A vos vocabulaires !
Illustration : « Usage des nouvelles mesures » sur Gallica : http://gallica.bnf.fr/ark:/12148/btv1b8412951c