20 janvier 2014

Le wiki sémantique : solution de capitalisation des connaissances (structurées)

Points forts, points faibles

Les wiki sont de bons moyens d’amener les membres d’une communauté à contribuer collectivement à une base de connaissance partagée. C’est sur ce principe que repose Wikipedia, mais la même idée peut s’appliquer à une entreprise, une association ou une administration.

Un wiki, c’est l’anarchie, et c’est son point fort. L’approche « contribuer d’abord, structurer (un peu) ensuite » assure que la barrière d’entrée pour un contributeur est très faible, qu’il n’est pas obligé de respecter une quelconque structure, et peut même s’approprier ou modifier les structures existantes (en modifiant l’organisation d’un article ou en modifiant des catégories dans le wiki). Cela assure la contribution du plus grand nombre de personnes possibles.

Un wiki, c’est l’anarchie, et c’est son point faible. C’est son point faible si l’exhaustivité ou la qualité des données sont un de ses objectifs, ou si l’on veut pouvoir réutiliser la connaissance contenue dans le wiki dans d’autres applications informatiques. Qualité, exhaustivité, structuration des données pour la machine peuvent difficilement être atteintes par le mode d’organisation classique du wiki [1. Un exemple sur wikipedia/dbpedia ? cette requête SPARQL sur DBPedia francophone ramène toutes les sociétés avec leur slogan. 1/ qualité : certains slogans contiennent des chiffres 2/ exhaustivité : le slogan n’est parfois pas renseigné 3/ structuration : cette requête est possible sur DBpedia qui a structuré les données, mais pas sur wikipedia.]

Les technologies du web sémantique sont un bon moyen pour structurer les informations et les partager sur le web. En miroir des wiki, on peut dire que cette structuration est à la fois leur point faible et leur point fort : point fort car c’est cette structuration des données qui les rend partageables et réutilisables par des machines (mais certains en doutent), point faible car arriver à ce niveau de structuration peut augmenter significativement la barrière d’entrée pour publier et partager des données, en particulier dans des projets de capitalisation de connaissances. Par ailleurs des solutions simples, paramétrables et gratuites de formulaires de saisie pour des données RDF ne courent pas les rues.

Vous me voyez venir. Les wikis sémantiques sont la solution de synthèse du meilleur des deux mondes : le wiki pour son côté « faible barrière d’entrée à la contribution » et la sémantique pour son côté « structuration et partage des données » [2. D’autres dans la sphère francophone l’avaient mentionné bien avant, ici et là.].

Semantic Media Wiki = Media Wiki + Structuration

Semantic Media Wiki (SMW) est une extension du logiciel de wiki Media Wiki, celui qui est utilisé par Wikipedia. Cette extension propose de pouvoir gérer des données structurées dans le wiki, et de publier de ces données dans les formats du web sémantique, dans une base RDF.

Je résume les fonctionnalités indiquées dans la page d’introduction de SMW :

générer automatiquement des listes d’objets dans le wiki, plutôt que de les saisir à la main
présenter les données visuellement dans des graphes, des cartes, des calendriers
améliorer la structure du wiki en évitant les catégories ad-hoc du type « films des années 50″
rechercher des informations de façon structurée (et plus uniquement plein-texte)
mettre à disposition les données du wiki pour d’autres applications et intégrer les données d’autres applications dans le wiki via SPARQL

Voilà ce qu’il ressort de mes premières impression après avoir testé SMW :

L’installation de Media Wiki est facile (package « mediawiki » sur Debian), et de Semantic Media Wiki assez simple avec Semantic Bundle, un ensemble d’extensions regroupées dans un même paquet;
Le paramétrage est un peu alambiqué mais est bien documenté; il faut notamment suivre les pages qui expliquent comment importer un vocabulaire existant (type FOAF, DC, ORG ou autre), comment paramétrer les propriétés et les classes, et comment paramétrer un formulaire; une fois le paramétrage bien compris, on a à notre dispostion une vraie solution de création de formulaires de saisie pour des données RDF.
La synchronisation avec un triplestore Sesame fonctionne bien, et on arrive à récupérer les données structurées du wiki en RDF, et à les interroger en SPARQL.

Paramétrer Semantic Media Wiki pour saisir des données RDF

D’abord, synchroniser SMW avec Sesame

La doc est ici.

Installez Sesame en suivant cette procédure
Utilisez les valeurs suivantes dans le fichier de config (attention de bien mettre « /statements » à la fin de l’URL de service d’update)

$smwgDefaultStore = 'SMWSparqlStore';
# location of query service
$smwgSparqlQueryEndpoint = 'http://localhost:8080/openrdf-sesame/repositories/nomDuRepository';
# location of update service
$smwgSparqlUpdateEndpoint = 'http://localhost:8080/openrdf-sesame/repositories/nomDuRepository/statements';
# location of SPARQL over HTTP service, set it to ''; in case of problems
$smwgSparqlDataEndpoint = '';
# optional name of default graph
$smwgSparqlDefaultGraph = 'http://example.org/mydefaultgraphname';

Ensuite, si vous voulez, paramétrer SMW pour utiliser un vocabulaire externe

La doc est ici.

Assurez-vous d’être connecté en tant qu’admin du wiki
Créez une page MediaWiki:smw_import_PREFIXE_DU_VOCABULAIRE, par exemple MediaWiki:smw_import_org pour importer l’ontologie des organisations

Déclarez dans cette page les types et les propriétés du vocabulaire que vous voulez réutilisez, de cette façon :

http://www.w3.org/ns/org#|[http://www.w3.org/TR/vocab-org/ The Organization Ontology]
 Role|Category
 Post|Category
 hasMember|Type:Page
 memberOf|Type:Page
 holds|Type:Page

Déclarez des propriétés et des catégories dans le wiki;
Déclarez la correspondances de ces propriétés et ces catégories avec les éléments du vocabulaire externe, en utilisant les marqueurs

[[imported from::org:Organization]] (pour une catégorie)
[[imported from::org:hasMember]] (pour une propriété)

Puis, paramétrer des formulaires de saisie

La doc est ici et là.

Je ne suis pas certain de comprendre tout l’enchainement du paramétrage, notamment les différences entre une « catégorie », un « template » ou « modèle », et le « formulaire ». Mais l’exemple de la doc fonctionne bien et peut ensuite être adaptée facilement avec la doc de paramétrage du formulaire sous les yeux. Pour paramétrer un formulaire qui a du sens pour des données structurées, on va surtout s’intéresser aux options suivantes :

values from category= qui permet de restreindre la saisie d’un champ à une catégorie, c’est-à-dire en termes RDF à une classe – c’est l’équivalent d’un paramétrage de range RDFS;
existing values only si vous ne voulez pas qu’un utilisateur qui remplisse le formulaire puisse choisir une valeur qui n’existe pas;

On va ensuite vouloir bloquer l’édition classique d’une page, pour ne permettre l’édition qu’à travers le formulaire. Pour cela il faut changer 2 paramètres dans SMW comme décrit dans la doc ici.

Finalement…

Tout projet d’outil de saisie va de pair avec une reprise de données, il faudrait étudier ce que les fonctions d’import/export de données de Media Wiki permettent, en tous cas l’utilisation de cette brique comme outil de contribution collaborative à une base de connaissances structurée est tentante !

Post Tagged: MediaWiki, RDF, Semantic MediaWiki, SPARQL, Triplestores, wiki

Next Post: Ontologie, Thesaurus et Taxonomie sur le web de données

Previous Post: Partarger et réutiliser des données structurées sur le web

There are 10 comments for this article

Antoine Dubouis 7 mars 2014 at 12 h 14 min

Merci pour ces exemples ! Votre article m’a été très utile pour fabriquer mon wiki sémantique !

Reply to this message
Jean-Baptiste Pressac 1 avril 2014 at 10 h 46 min

Bonjour, Je n’arrive pas à voir à quoi correspondent les étapes 4 et 5 du paramétrage de SMW pour utiliser un vocabulaire externe, pouvez-vous m’éclairer ? Merci

Reply to this message
- Thomas Francart Author 1 avril 2014 at 11 h 58 min
  
  Certains vocabulaires existent déjà dans le web de données : FOAF pour décrire les personnes,ORG pour décrire des organisations, etc. Du coup, on a souvent tout intérêt à utiliser ces modèles connus, essentiellement pour 2 raisons : 1/ ils sont le fruit d’une collaboration entre plusieurs acteurs et à ce titre ont été éprouvés et contiennent des bonnes pratiques de modélisation qu’il serait dommage de réinventer 2/ utiliser ces modèles rends nos données plus facilement compréhensibles par d’autres.
  
  En paramétrant SMW, il est donc parfois souhaitable de dire « ma propriété/ma classe dans mon wiki correspond en réalité à la propriété/la classe défini dans un modèle externe ». Si on dit ça, au lieu d’utiliser une URI locale pour cette propriété/cette classe, SMW utilisera à la place l’URI de la propriété/la classe dans le modèle externe. C’est ce que fait l’étape 5 décrite plus haut, quand on écrit : [[imported from::org:hasMember]], on dit « ma propriété correspond à la propriété hasMember du modèle org (déclaré dans SMW avec ce préfixe) ».
  
  Reply to this message
Pingback: Gephi pour visualiser des graphes RDF - Sparna
Emmanuel Barthe 2 janvier 2017 at 18 h 31 min

Bonsoir,

Je ne dirai rien sur SMW, là je suis dépassé

Mais sur le premier paragraphe, l’argument qui sert de point de départ, j’aurais une divergence qui vient notamment de mon expérience de contributeur épisodique à Wikipedia.

Vous écrivez :
» Un wiki, c’est l’anarchie, et c’est son point fort. L’approche « contribuer d’abord, structurer (un peu) ensuite » assure que la barrière d’entrée pour un contributeur est très faible, qu’il n’est pas obligé de respecter une quelconque structure […] »

C’est vrai, cette anarchie facilite énormément les contributions. Mais pas totalement : elle peut aussi in fine les repousser. En tout cas repousser celles des experts des sujets traités par Wikipedia.

Ce que je veux dire, c’est que le succès même de Wikipedia (WP) a amené un tel niveau de spam et des pressions telles (sociétés, Etats et personnalités mécontentes …) que ses administrateurs en sont venus à effacer autoritairement des heures de travail de naïfs qui n’avaient pas lu assez les règles de fonctionnement quasi-juridiques de WP (neutralité etc.) et à réprimer le contenu original (i.e. non écrit ailleurs, sans référence bibliographique ni webliographique). WP est devenu un club fermé dès qu’on parle de créer ou refondre un article. Et un territoire fortement réglementé et hiér-archisé et non plus une an-archie. Pour plus de détails, voir mon billet : Wikipedia : l’encyclopédie qui s’est rangée http://www.precisement.org/blog/Wikipedia-l-encyclopedie-qui-s-est-range.html

Un nombre non négligeable d’articles, même non « chauds », sont 1. de fait entre les mains de non-experts (devenus en revanche des experts de WP) et 2. manquent cruellement de recul, de synthèse et de sens critique.

D’après ce que je sais, ce type de comportement et de fonctionnement dissuade beaucoup d’experts de contribuer à WP. Pour un exemple que vous connaissez, voir le commentaire en bas de mon billet.

Donc anarchie de WP ? Barrière d’entrée faible ? Personnellement, non, je ne pense pas.

***

Quant à l’absence de structure à respecter, en effet oui. Mais en voie de réduction car WP depuis environ 2 ans incite fortement et facilite aussi à l’utilisation de ses modèles.

Cette facilitation n’est à mon avis pas du tout optimale pour l’instant. Pour s’en convaincre, il suffit d’essayer d’ajouter une référence avec un lien hypertexte en respectant les règles. Personnellement je finis toujours par copier-coller une référence préexistante puis la modifier. C’est plus simple.

Reply to this message
- thomas Author 3 janvier 2017 at 16 h 35 min
  
  Donc anarchie de WP ? Barrière d’entrée faible ? Personnellement, non, je ne pense pas.
  
  Notez que je ne parle pas de Wikipedia mais des outils Wiki en général, qui sont déployés dans des contextes d’intranet ou de projets de capitalisation de connaissance collaboratifs, et ce sont ceux-là qui m’intéressent.
  Je ne peux pas juger sur la forme de gouvernance qui a émergé de Wikipedia, mais je pense vous rejoindre globalement sur votre analyse.
  
  On peut également pour être complet mentionner le projet Wikidata, nouvelle source de données structurées sur le mode contributif ouvert.
  
  Reply to this message
Emmanuel Barthe 4 janvier 2017 at 19 h 33 min

Sur votre blog, vous parlez souvent de Wikipedia, ou plutôt de DBpedia. Et puis c’est vrai, WP est un tel symbole qu’on pense instinctivement d’abord à lui quand on parle de wikis … C’est pourquoi je n’avais pas pensé que votre focus était sur les wiki privés.

Sur les wikis en entreprise, je n’ai pas d’expérience. Qu’en retirez-vous ? Sont-ils faciles à mettre en place et sont-ils bien utilisés par les collaborateurs de la structure ?

Reply to this message
- thomas Author 7 janvier 2017 at 16 h 12 min
  
  Je n’ai pas beaucoup de retours d’expérience, mais ce que je peux dire c’est que le déploiement de Semantic Media Wiki couplé à une base de données structurée en RDF fonctionne; que le paramétrage des formulaires de SMW n’est pas simple mais est assez puissant; et que ce sont des outils faits pour de la capitalisation et du partage de connaissances sur le long terme entre collaborateurs (cas d’un Wiki entre les participants d’une coopérative d’activité et d’emploi, ou cas d’un wiki pour décrire les acteurs économiques du territoire dans le domaine du numérique).
  
  Reply to this message
Thierry B. 30 juin 2017 at 13 h 35 min

Bonjour,

L’article dans le lien ci-dessous expose une solution de mise en place d’un wiki sémantique à partir de TWiki.

https://hal.archives-ouvertes.fr/hal-01185539/

Reply to this message
mammeri hamza 2 juillet 2019 at 21 h 26 min

Votre blog est exceptionnelle, j’ai trouver pas mal d’informations utile pour mon projet de recherche en sciences documentaire.
Merci infiniment…

Reply to this message