DOREMUS est un beau projet de recherche regroupant plusieurs producteurs…
Open data et web de données : convergence ?
L’open data rencontre des problématiques d’interopérabilité, d’interconnexion entre les données, de cohérence de formats, d’accès atomiques aux données. Les standards du web de données proposent des solutions à ces questions, l’objectif étant toujours de maximiser la réutilisation des données.
Le web de données, de son côté, n’a jamais permis autre chose que la diffusion et l’interconnexion de données à l’échelle du web. Il aura fallu attendre la libération des données publiques pour que cet enjeu devienne clair. L’open data offre le cas d’usage idéal pour le web de données – car en fait, on pourrait presque dire que ces 2 mots désignent la même chose et ont le même objectif.
Soyons clair : avancer vers les technologies du web de données, pour un producteur de données, demande un effort supplémentaire. Que peut-il en attendre ? J’y vois 5 enjeux :
- Devenir un producteur de données de référence. La possibilité offerte par les standards du web de données de faire des liens entre les instances décrites dans les données, permettent à un producteur d’obtenir des liens entrants vers ses données, devenant ainsi un « hub », un acteur central dans le réseau de données. C’est un enjeu stratégique : si vous n’ouvrez pas vos données aujourd’hui, d’autres le feront à votre place, et deviendront les référents.
- L’enrichissement de ses données avec celles des autres; La possibilité de relier les éléments décrits dans les données à d’autres, comme celles de la BNF, de l’INSEE, d’Eurovoc, de DBPedia, va permettre aux consommateurs des données de suivre ces liens et d’enrichir le système qu’ils construisent avec ces nouvelles données.
- La normalisation de son catalogue de données au format DCAT, le rendant ainsi interopérable avec les catalogues des autres producteurs. Cela améliore la visibilité et la réutilisation du catalogue des datasets.
- La réutilisation de modèles existants pour décrire les données; les données publiées depuis 10 ans couvrent de nombreux domaines du savoir, et la problématique de description de beaucoup de données a donc déjà été traitée. De nombreux vocabulaires sont déjà disponibles (sur le LOV par exemple) et prêts à l’emploi pour décrire le contenu des données.
- Le bénéfice d’outils existants, et de futures évolutions. Poussé par le W3C, les standards du web de données sont ouverts, pérennes, et formeront la base d’autres technologies, par exemple pour indiquer la traçabilité et les versions des données. Les outils compatibles avec ces standards existent et continueront d’exister.
Y a-t-il, y aura-t-il convergence ? les projets de recherche comme Datalift proposent des outils basés sur les technologies du web de données pour que les producteurs de données « sémantisent » les données. Et moi aussi, je peux vous aider !
Update
Etalab vient de publier le compte-rendu de l’événement « Datalift Camp » qui adressaient ces problématiques et dont ces réflexions personnelles sont issues.
Next Post: Open Data versus API
Vous serez certainement heureux d’apprendre que je travaille depuis près d’un an au passage des métadonnées data.gouv.fr vers le Linked data.
* Conversion toutes les deux heures vers RDF (https://www.data.gouv.fr/fr/datasets/metadonnees-des-jeux-de-donnees-publies-sur-data-gouv-fr-rdf-web-semantique/)
* Publication selon les techniques du Linked data (https://www.data.gouv.fr/fr/reuses/casanovald-devergonde-les-metadonnees-data-gouv-fr/)
* Enrichissement avec des données sur la disponibilité et le temps de réponse des serveurs (http://colin.maudry.fr/ressources-indisponibles-dgfr/)