Ontologie, Thesaurus et Taxonomie sur le web de données

Ontologie, Thesaurus et Taxonomie sur le web de données

Trois espèces d’animaux différentes se rencontrent principalement dans les steppes des langages de représentation des connaissances du web de données. Les ontologies, les thesaurus et les taxonomies, si elles partagent l’organisation hiérarchiques de concepts entre eux, n’ont pas les mêmes usages, ni les mêmes objectifs. L’ontologie est faite pour décrire le monde tel qu’il est; le thesaurus est fait pour faciliter l’accès à des contenus; la taxonomie est fait pour classer des ressources dans des dossiers, des catégories. Les systèmes d’accès aux contenus, aux données ou aux connaissances, combinent et articulent ces 3 systèmes d’organisation pour décrire le monde, indexer, et catégoriser les contenus.

Ontologie Thesaurus Taxonomie
Définition La définition couramment citée, « une ontologie est la spécification formelle d’une conceptualisation partagée », n’éclairera guère le profane. De façon plus opérationnelle, l’ontologie cherche à décrire de façon formelle un domaine de connaissance, en identifiant les types d’objets de ce domaine, leurs propriétés et leurs relations.  « Liste organisée de termes contrôlées et normalisés (descripteurs et non-descripteurs) servant à l’indexation des documents et des questions dans un système documentaire » (D. Degez, D. Ménillet, Thesauroglossaire des langages documentaires) « Taxonomy » est très utilisé par les anglo-saxons pour désigner la « science de la classifcation » et par extension tout système de classification/catégorisation.
Contient… Des classes, des propriétés, et des règles logiques formelles. Eventuellement des instances de classe. Des concepts et des termes, organisés entre eux, avec leurs libellés, leurs traductions, leurs synonymes, et leurs descriptions/définitions. des catégories organisés hiérarchiquement
Utilisation Sert à instancier et à raisonner Sert à indexer des contenus ou des ressources avec des mots-clés et à les rechercher (avec les mêmes mots-clés) Sert à classifier, à ranger des contenus ou des ressources
Niveau de formalisme logique Très formel (formalisme mathématique) Peu formel Moyennement formel (peut être plus formel qu’un thesaurus, dans le sens où la hiérarchie des entrées peut suivre certaines contraintes.)
Niveau de proximité avec la langue naturelle Très éloigné de la langue naturelle (utilise des identifiants techniques pour s’abstraire du langage naturel) Proche de la langue naturelle (donne des équivalents linguistiques de chaque entrée, des traductions dans d’autres langues) Pas particulièrement en lien avec la langue naturelle.
Types de relations utilisées
  • Inclusion (classe / sous-classe);
  • Opérations ensemblistes : union, intersection, exclusion;
  • Caractéristiques des propriétés : domaine, ensemble d’arrivée, transitivité, propriétés inverses, etc.
Hiérarchiques et associatives; éventuellement relations d’alignement  Hiérarchiques seulement
 Exemple « Voiture » est un type particulier de « Véhicule terrestre », lui-même un type particulier de « Véhicule ». La propriété « milieu de déplacement du véhicule » (terre, air, mer, espace) s’applique aux « Véhicules »; les « Véhicules terrestres » sont tous les « Véhicules » dont « milieu de déplacement » vaut « terre ». Le terme « Voiture » est un terme spécifique de « Véhicule terrestre », lui-même spécifique de « Véhicule ». Le terme « Voiture » peut aussi se dire « Automobile », ou « Bagnole ». En anglais on dira « Car ». Si on s’intéresse à « Voiture » on peut également allez voir le terme « Autoroute ». La catégorie « Véhicules terrestre » est une sous-catégories des « Véhicules ». « Voiture » est rangée dans la catégorie des « Véhicules terrestre ».
 Un exemple L’ontologie FOAF définit des classes et des propriétés pour décrire des personnes. Le thesaurus GEMET (General Multilingual Environmental Thesaurus) est un thesaurus multilingue (+ de 30 langues) développé par l’agence européenne de l’énergie et disponible gratuitement. Les taxonomies publiées par l’IPTC servent à catégoriser les articles de news.Les catégories de Wikipedia servent à organiser les entrées de Wikipedia.
Standard de représentation sur le web de données OWL SKOS  SKOS
A utiliser si… Si vous avez besoin de décrire les choses telles qu’elles sont, et pas simplement d’indexer des contenus, et que vous avez besoin de décrire précisément les caractéristiques de chaque chose, alors c’est une ontologie qu’il vous faut. (Typiquement, projets de capitalisation de connaissance) Si vous voulez mettre des mots-clés sur des contenus, et pouvoir rechercher avec ces mêmes mots-clés, vous avez besoin d’un thesaurus.Vous pouvez vouloir utiliser un thesaurus en combinaison avec un moteur de recherche plein-texte pour améliorer sa pertinence. Si vous avez besoin de ranger des documents dans des dossiers, de mettre au point une recherche à facettes, alors c’est d’une taxonomie dont vous avez besoin.
Mais encore… Une ontologie n’est pas une anthologie.  Un thesaurus n’est pas un dinosaure.  (là je n’ai pas l’inspiration… une idée ?)
Next Post:
Previous Post:
There are 17 comments for this article
  1. Jannick Labatut Pouyllau at 21 h 48 min

    N’est pas une nouvelle taxe économique ou n’est pas une infection parasitaire de l’agent protozoaire Toxoplasma gondii.

  2. TGM at 14 h 06 min

    Taxonomie : est l’analyse sans cesse repoussée de l’empilage fiscal… permettant d’avoir un thésaurus français des impôts et taxes et d’en bâtir une ontologie de leurs assiettes et rendements.

    Plus sérieusement, OWL et les ontologies formelles sont l’un des développements des ontologies. Les ontologies informelles ou opérationnelles en sont un autre exemple. néanmoins, il est nécessaire de commencer par quelque chose. Dans un premier temps, je vais regarder plus en avant les ontologies informelles. Par contre, je cherche aussi les outils associés… merci pour votre article

    • Thomas Francart Author at 15 h 03 min

      Merci pour votre commentaire, c’est un point de vue intéressant. Pour moi une ontologie est par définition toujours formelle. Elle peut utiliser des types d’axiomes plus ou moins compliqués, par exemple ne contenir qu’une arborescence de classes sans utiliser toute la mécanique OWL, mais en restant toujours formelle.
      Je parlerais plus de « terminologie métier » je crois, pour désigner ce que (je pense que) vous appelez « ontologie informelle », au sens de « standardisation d’un vocabulaire ».

  3. TGM at 11 h 06 min

    Bonjour,

    Merci. Je suis un bien modeste débutant et la tâche qui m’est confiée est un peu une gageure (mettre de l’ordre dans un gros ensemble de publications et d’outils associés). Je suis un peu perdu… J’associerai Standardisation d’un vocabulaire à la notion de vocabulaire contrôlé. Néanmoins, qui dit vocabulaire dit aussi définitions associées. Par exemple, j’ai 30 ou 40 définitions de la notion de processus (dans le contexte des organisations – au sens large – différent de http://www.w3.org/TR/2014/REC-vocab-org-20140116/), chacune étant vraie dans son contexte, quand il est décrit et faux dans sa généralisation à un autre domaine…
    Pour m’y être intéressé à plusieurs reprises, j’avoue que OWL me rebute à la fois par son côté formel et potentiellement « rigide » (le célèbre exemple des vins ou des pizzas). La dépendance à l’angle de vue (le filtre) semble, dans mon contexte, être une contrainte trop forte.

    • Thomas Francart Author at 11 h 31 min

      L’utilisation de OWL n’implique pas d’avoir un seul point de vue. Au contraire, on peut voir chaque ontologie comme un point de vue différent sur les choses. Vous pourriez très bien imaginer faire 30 ou 40 ontologies de la notion de processus, chacune suivant un « angle » ou « filtre » particulier; et puis faire des ponts (= des équivalences) entre ces points de vue.

      Mais tout dépend quel est votre objectif. Tel que vous le décrivez, si on vous demande de mettre de l’ordre dans des définitions et des termes pour avoir un « référentiel commun », c’est bien un travail sur le vocabulaire qu’il faut faire, sur les mots, et pas un travail de modélisation d’un domaine.

  4. Hasna at 12 h 09 min

    Article intéressant, sauf qu’on lisant des articles sur le web sémantique, on relie toujours l’ontologie à ce qui est sémantique, à la RI, à la bonne compréhension et l’interprétation du contenu. Cependant, ce que j’ai compri de votre article, est que ce ci est fait à travers les thesaurus et n’on pas l’ontologie genre pour l’indexation sémantique, l’annotation sémantique …

  5. Emmanuel Barthe at 16 h 11 min

    Bonjour Thomas et merci mille fois pour ce blog, souvent ardu pour moi mais qui reste compréhensible, en bossant son vocabulaire, même par un simple étudiant de 1ere année en sciences de l’information. Cela grâce à votre énorme effort de vulgarisation. La brièveté de vos posts est elle aussi méritoire car elle pousse à rester sur le billet et à le lire jusqu’au bout.

    Etant moi-méme blogueur et enseignant-formateur, une question me démange à propos du sujet de ce post : où rangeriez-vous les tags libres (ou simples listes de mots-clés non contrôlés et bien sûr sans hiérarchie ni véritable idée de catégories) et les listes de descripteurs (mots-clés contrôlés mais sans hiérarchisation ni même classification rigoureuse) ?

    Je pose la question aussi parce qu’en tant que bibliothécaire documentaliste j’apprécie la simplicité, la rapidité de mise en oeuvre et la légèreté des mots-clés libres de type tags (et dans une moindre mesure des listes des descripteurs). Ces deux types de langage documentaire m’ont permis d’améliorer notablement l’indexation de catalogues d’ouvrages sans avoir à y investir un temps à mon sens (et à celui de mes patrons) non rentable.

    Comme votre billet ne concerne que des langages documentaires *avec* hiérarchie, je ne pense pas … classer 😉 les deux types de langages supra dans les taxonomies. Mais alors où ? Quel terme général leur affecter ?

    • thomas Author at 16 h 22 min

      où rangeriez-vous les tags libres (ou simples listes de mots-clés non contrôlés et bien sûr sans hiérarchie ni véritable idée de catégories)

      C’est vrai que j’évite soigneusement ici de parler de folksonomies :-) dans la mesure où les folksonomies, comme vous le dites, n’ont pas de véritables idées de catégories ou de regroupement. On pourrait regarder du côté de SKOS-XL qui permet de déclarer des _termes_, par opposition à des Concepts, ou bien des choses comme l’ontologie Lemon, que je ne connais pas. La problématique reste entière d’avoir des outils collaboratifs et des processus pour passer de folsonomies à des taxonomies contrôlées, par le biais de regroupement de termes synonymes et de hiérarchisation.

      et les listes de descripteurs (mots-clés contrôlés mais sans hiérarchisation ni même classification rigoureuse)

      Ca devrait pouvoir se modéliser en SKOS. L’enjeu est bien de raisonner au niveau des _Concepts_ abstraits, et plus au niveau des _mots_.

      Ces deux types de langage documentaire m’ont permis d’améliorer notablement l’indexation de catalogues d’ouvrages sans avoir à y investir un temps à mon sens (et à celui de mes patrons) non rentable.

      Tout à fait; et vous n’aviez sans doute pas de vision ou de besoin de partage de ces langages documentaires avec d’autres partenaires / institutions, donc ce n’est pas tellement utile de les structurer. L’intérêt du web de données là-dedans est bien dans la _publication sur le web de ces langages documentaires_ de façons à pouvoir les relier entre eux.

      Comme votre billet ne concerne que des langages documentaires *avec* hiérarchie, je ne pense pas … classer 😉 les deux types de langages supra dans les taxonomies. Mais alors où ? Quel terme général leur affecter ?

      Folksonomies pour les premières, ou tags, qui sont assez clairement différents des taxonomies effectivement. Pour les descripteurs, ça se discute… je ne dis pas que le tableau ci-dessus est exhaustif :-)

  6. Morel François at 16 h 52 min

    Mais encore…

    – Une ontologie n’est pas une anthologie.
    – Un thesaurus n’est pas un dinosaure.

    – Une taxonomie n’est pas un nouveau type d’impôts.

    ^^

  7. Rachid RIGHI at 14 h 38 min

    Félicitations à vous Thomas Francart pour votre excellent travail de recherche et votre site web que je m’empresse de mettre dans mes favoris. Darwin avait raison ! Le web est un ensemble d’être vivants qui ont tous de près ou de loin une relation entre eux. Je vous remercie pour votre article très intéressant sur le vocabulaire technique lié à l’art et la manière de classer l’information sur Internet.

  8. Samia at 15 h 21 min

    Merci pour la différenciation entre toutes ces notions. Pour ma part, je voudrai savoir ou classeriez vous WordNet et SentiWordNet.
    Merci d’avance

    • Thomas Francart Author at 20 h 46 min

      Bonjour

      Sans être spécialiste de Wordnet, il me semble que ces 2 ressources sont avant tout des ressources _linguistiques_ et non pas des Systèmes d’Organisation de Connaissance. Je ne les qualifierais donc ni de taxonomie, ni de thesaurus, ni d’ontologie.

Répondre à Hasna Cancel comment reply

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>