Ontologie, Thesaurus et Taxonomie sur le web de données

Ontologie, Thesaurus et Taxonomie sur le web de données

Trois espèces d’animaux différentes se rencontrent principalement dans les steppes des langages de représentation des connaissances du web de données. Les ontologies, les thesaurus et les taxonomies, si elles partagent l’organisation hiérarchiques de concepts entre eux, n’ont pas les mêmes usages, ni les mêmes objectifs. L’ontologie est faite pour décrire le monde tel qu’il est; le thesaurus est fait pour faciliter l’accès à des contenus; la taxonomie est fait pour classer des ressources dans des dossiers, des catégories. Les systèmes d’accès aux contenus, aux données ou aux connaissances, combinent et articulent ces 3 systèmes d’organisation pour décrire le monde, indexer, et catégoriser les contenus.

Ontologie Thesaurus Taxonomie
Définition La définition couramment citée, « une ontologie est la spécification formelle d’une conceptualisation partagée », n’éclairera guère le profane. De façon plus opérationnelle, l’ontologie cherche à décrire de façon formelle un domaine de connaissance, en identifiant les types d’objets de ce domaine, leurs propriétés et leurs relations.  « Liste organisée de termes contrôlées et normalisés (descripteurs et non-descripteurs) servant à l’indexation des documents et des questions dans un système documentaire » (D. Degez, D. Ménillet, Thesauroglossaire des langages documentaires) « Taxonomy » est très utilisé par les anglo-saxons pour désigner la « science de la classifcation » et par extension tout système de classification/catégorisation.
Contient… Des classes, des propriétés, et des règles logiques formelles. Eventuellement des instances de classe. Des concepts et des termes, organisés entre eux, avec leurs libellés, leurs traductions, leurs synonymes, et leurs descriptions/définitions. des catégories organisés hiérarchiquement
Utilisation Sert à instancier et à raisonner Sert à indexer des contenus ou des ressources avec des mots-clés et à les rechercher (avec les mêmes mots-clés) Sert à classifier, à ranger des contenus ou des ressources
Niveau de formalisme logique Très formel (formalisme mathématique) Peu formel Moyennement formel (peut être plus formel qu’un thesaurus, dans le sens où la hiérarchie des entrées peut suivre certaines contraintes.)
Niveau de proximité avec la langue naturelle Très éloigné de la langue naturelle (utilise des identifiants techniques pour s’abstraire du langage naturel) Proche de la langue naturelle (donne des équivalents linguistiques de chaque entrée, des traductions dans d’autres langues) Pas particulièrement en lien avec la langue naturelle.
Types de relations utilisées
  • Inclusion (classe / sous-classe);
  • Opérations ensemblistes : union, intersection, exclusion;
  • Caractéristiques des propriétés : domaine, ensemble d’arrivée, transitivité, propriétés inverses, etc.
Hiérarchiques et associatives; éventuellement relations d’alignement  Hiérarchiques seulement
 Exemple « Voiture » est un type particulier de « Véhicule terrestre », lui-même un type particulier de « Véhicule ». La propriété « milieu de déplacement du véhicule » (terre, air, mer, espace) s’applique aux « Véhicules »; les « Véhicules terrestres » sont tous les « Véhicules » dont « milieu de déplacement » vaut « terre ». Le terme « Voiture » est un terme spécifique de « Véhicule terrestre », lui-même spécifique de « Véhicule ». Le terme « Voiture » peut aussi se dire « Automobile », ou « Bagnole ». En anglais on dira « Car ». Si on s’intéresse à « Voiture » on peut également allez voir le terme « Autoroute ». La catégorie « Véhicules terrestre » est une sous-catégories des « Véhicules ». « Voiture » est rangée dans la catégorie des « Véhicules terrestre ».
 Un exemple L’ontologie FOAF définit des classes et des propriétés pour décrire des personnes. Le thesaurus GEMET (General Multilingual Environmental Thesaurus) est un thesaurus multilingue (+ de 30 langues) développé par l’agence européenne de l’énergie et disponible gratuitement. Les taxonomies publiées par l’IPTC servent à catégoriser les articles de news.Les catégories de Wikipedia servent à organiser les entrées de Wikipedia.
Standard de représentation sur le web de données OWL SKOS  SKOS
A utiliser si… Si vous avez besoin de décrire les choses telles qu’elles sont, et pas simplement d’indexer des contenus, et que vous avez besoin de décrire précisément les caractéristiques de chaque chose, alors c’est une ontologie qu’il vous faut. (Typiquement, projets de capitalisation de connaissance) Si vous voulez mettre des mots-clés sur des contenus, et pouvoir rechercher avec ces mêmes mots-clés, vous avez besoin d’un thesaurus.Vous pouvez vouloir utiliser un thesaurus en combinaison avec un moteur de recherche plein-texte pour améliorer sa pertinence. Si vous avez besoin de ranger des documents dans des dossiers, de mettre au point une recherche à facettes, alors c’est d’une taxonomie dont vous avez besoin.
Mais encore… Une ontologie n’est pas une anthologie.  Un thesaurus n’est pas un dinosaure.  (là je n’ai pas l’inspiration… une idée ?)
Next Post:
Previous Post:
This article was written by
There are 7 comments for this article
  1. Jannick Labatut Pouyllau at 21 h 48 min

    N’est pas une nouvelle taxe économique ou n’est pas une infection parasitaire de l’agent protozoaire Toxoplasma gondii.

  2. TGM at 14 h 06 min

    Taxonomie : est l’analyse sans cesse repoussée de l’empilage fiscal… permettant d’avoir un thésaurus français des impôts et taxes et d’en bâtir une ontologie de leurs assiettes et rendements.

    Plus sérieusement, OWL et les ontologies formelles sont l’un des développements des ontologies. Les ontologies informelles ou opérationnelles en sont un autre exemple. néanmoins, il est nécessaire de commencer par quelque chose. Dans un premier temps, je vais regarder plus en avant les ontologies informelles. Par contre, je cherche aussi les outils associés… merci pour votre article

    • Thomas Francart Author at 15 h 03 min

      Merci pour votre commentaire, c’est un point de vue intéressant. Pour moi une ontologie est par définition toujours formelle. Elle peut utiliser des types d’axiomes plus ou moins compliqués, par exemple ne contenir qu’une arborescence de classes sans utiliser toute la mécanique OWL, mais en restant toujours formelle.
      Je parlerais plus de « terminologie métier » je crois, pour désigner ce que (je pense que) vous appelez « ontologie informelle », au sens de « standardisation d’un vocabulaire ».

  3. TGM at 11 h 06 min

    Bonjour,

    Merci. Je suis un bien modeste débutant et la tâche qui m’est confiée est un peu une gageure (mettre de l’ordre dans un gros ensemble de publications et d’outils associés). Je suis un peu perdu… J’associerai Standardisation d’un vocabulaire à la notion de vocabulaire contrôlé. Néanmoins, qui dit vocabulaire dit aussi définitions associées. Par exemple, j’ai 30 ou 40 définitions de la notion de processus (dans le contexte des organisations – au sens large – différent de http://www.w3.org/TR/2014/REC-vocab-org-20140116/), chacune étant vraie dans son contexte, quand il est décrit et faux dans sa généralisation à un autre domaine…
    Pour m’y être intéressé à plusieurs reprises, j’avoue que OWL me rebute à la fois par son côté formel et potentiellement « rigide » (le célèbre exemple des vins ou des pizzas). La dépendance à l’angle de vue (le filtre) semble, dans mon contexte, être une contrainte trop forte.

    • Thomas Francart Author at 11 h 31 min

      L’utilisation de OWL n’implique pas d’avoir un seul point de vue. Au contraire, on peut voir chaque ontologie comme un point de vue différent sur les choses. Vous pourriez très bien imaginer faire 30 ou 40 ontologies de la notion de processus, chacune suivant un « angle » ou « filtre » particulier; et puis faire des ponts (= des équivalences) entre ces points de vue.

      Mais tout dépend quel est votre objectif. Tel que vous le décrivez, si on vous demande de mettre de l’ordre dans des définitions et des termes pour avoir un « référentiel commun », c’est bien un travail sur le vocabulaire qu’il faut faire, sur les mots, et pas un travail de modélisation d’un domaine.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>