Edit (16/04/2020) : intéressé pour essayer SHACL ? testez SHACL…
Le dataware
Le développement de l’industrie informatique se réduisait à ses débuts au hardware (en français, le matériel), c’est-à-dire à la fabrication d’ordinateurs. C’était le règne des « mainframes » d’IBM, ces énormes machines, tellement grosses et chères, que Thomas Watson, fondateur d’IBM déclarait, en 1943, que « la demande en ordinateurs ne depasserait pas les 5 machines par an »*. Les programmes étaient alors partie intégrante de la machine (impossible de « prendre » un programme pour le copier sur une autre machine).
Puis Bill Gates, pillant l’idée à Steve Jobs (voir le film « Pirates of Silicon Valley« ), qui lui même avait du la piller à quelqu’un d’autre, décida de séparer les programmes de la machine, et de se concentrer sur le software (en français, le logiciel). Le software était devenu indépendant de la machine. Les données étaient alors partie intégrante des applications (impossible de « prendre » les données d’une application pour les copier vers une autre).
Aujourd’hui, avec l’avénement du web et les besoins qu’il engendre d’interopérabilité et d’échange entre acteurs ou entre applications, nous entrons dans l’ére du dataware, c’est-à-dire dans un moment où les données sont autonomes des applications. Il est désormais possible de travailler sur les données en elle-mêmes et pour elle-mêmes, indépendamment de l’application qui va les utiliser, elle-même indépendante de la machine sur laquelle elle s’éxecutera. Une même application peut-être installée sur plusieurs machines, une même donnée pourra être consommée par plusieurs applications.
Le dataware est un concept forgé par Ars Industrialis et Christian Fauré. Ce dernier nous rappelle que « -ware » vient d’un mot écossais signifiant « objet de soin ». Je propose la définition suivante de « dataware » : le « Dataware » est la sous-partie de l’industrie informatique qui s’intéresse aux données (les data), dans leur dimension autonome des applications. C’est-à-dire en ce qu’elles sont échangées, publiées, envoyées, récupérées, consommées, etc. Cette dernière précision me semble importante, car elle permet de distinguer la gestion des data d’une application propriétaire et fermée, et la gestion des data pour elles-mêmes.
A partir du moment où on commence à cerner les limites d’un sous-ensemble autonome de problématiques sur les données, on peut imaginer tous les métiers qui vont avec, et parler d’ingénierie des données, d’éditeur ou de fabricants de données, de consultants en données, etc.
—
* : certes la citation est controversée, cependant les chiffres de ventes du modèle IBM 701 en 1953 sont d’à peine une vingtaine d’unités, ce qui montre bien que la demande à cette époque se comptait en quelques unités perdues disséminées dans les labos de recherche.