J'interviens le jeudi 20 mars 2014 à la Cantine Numérique…
Data Is King !
« Data Is King » est un principe qui sous-tend plusieurs buzzwords du moment, et une réalité qui se retrouve à plusieurs échelles. C’est également un slogan permettant de situer et différencier toute cette partie de l’industrie informatique se centrant autour de la gestion de la donnée, par distinction avec les centrages sur le contenu (texte) ou les algorithmes.
Les mouvements du « Data Is King »
Le principe « Data is King » sous-tend les mouvements suivants :
L’Open Data : l’ouverture des données (publiques avec data.gouv.fr ou privées) induit une structuration de l’écosystème des acteurs en deux : d’un côté ceux qui produisent la donnée, de l’autre côté ceux qui l’utilisent ou la réutilise (par une posture de neutralité nécessaire, le producteur de la donnée ne peut pas être celui qui illustre son utilisation dans une application, sous peine de perdre cette impartialité quant à la donnée). Cette structuration illustre parfaitement la notion de réutilisation des données dans plusieurs applications.
Le Web de données, ou sémantique : la notion de web de données, tout en étant antérieure dans le temps à la notion d’Open Data, en est en fait l’aboutissement, la dernière marche au niveau qualitatif. Un peu comme si, se rendant compte que la barre du web sémantique avait été mise trop haut, les architectes du web avaient mis là une marche intermédiaire : publiez vos données d’abord, peu importe le format. Pour ce qui est des aspects propres au web de données, à savoir l’identification des concepts avec des URI et les relations avec d’autres données, hé bien, on verra plus tard, une fois que cette marche aura été franchie. Sous cette problématique se retrouve là encore le « Data is King », les promesses du web en plus : décentralisation, liens, accès par tous et partage par tous.
Gestion du contenu et SEO. Finit le SEO à base des quelques mots-clés mis au bon endroit dans la page. Depuis schema.org, ce qu’il faut pour « ranker », ce sont des données structurées. La promesse de remonter dans les résultats de recherche va inciter les web agencies et les producteurs de contenu à publier leurs métadonnées, voire à produire lorsqu’elles n’y sont pas. On va pouvoir se passer de moteur de recherche dans les systèmes, se contenter de publier de la donnée structurée, et tout faire reposer sur Google pour l’indexation.
L’autre buzzword du moment, Big Data, n’est pour moi pas lié à cette philosophie « Data Is King ». Le Big Data, c’est d’abord de gros algorithmes permettant de traiter beaucoup de données, l’accent est plus mis sur l’infrastructure, la performance, et la scalabilité, que sur les données elles-mêmes.
Les échelles du « Data Is King »
Le principe « Data is King » se retrouve à plusieurs échelles. A l’échelle des applications d’abord, où l’on va privilégier la modélisation claire des schémas de données, et – au minimum – s’assurer que les données ne sont pas prisonnières des applications, voire privilégier dès le départ une politique d’ouverture des données des applications. On le voit avec un peu de recul, les applications passent, les données restent, il est donc capital de faire en sorte que les données ne sont pas propres aux applications, qu’elles peuvent être réutilisées dans d’autres contextes. On ne développe plus des applications, on développe des données; d’autres développeront les applications qui viendront tirer avantage de ses données. La donnée fait partie du capital de l’entreprise, l’application n’en fait pas partie.
A l’échelle des architectures applicatives ensuite, où l’on passe d’architectures orientées services (SOA) à des architectures orientées données, qu’on pourrait appeler DOA par jeu d’opposition. Cela est directement lié aux architectures REST, mais va un peu au-delà, dans la mesure où REST, bien que nécessitant d’identifier des ressources par des URIs, ne privilégie pas nécessairement les données sur le document. Il est plus facile de décentraliser les données et de centraliser les services que de décentraliser les services et de centraliser les données. La promesse d’interopérabilité du SOA et de SOAP est d’emblée dépassée par les architectures REST.
A l’échelle du web enfin, où l’on est en train d’ajouter au web des documents un web des données. Les liens de cette nouvelle couche de la toile ne se font plus de page à page, mais de données à données. Les données sont publiées, interreliées, interprétables par les machines, réutilisables.
Vive le roi Data !
Previous Post: Tutoriel : exemple avec l’API Sesame RDF