Web sémantique : introduction au RDFa
Aujourd'hui, le Web est prévu principalement par des humains pour des humains, ce qui laisse le travail de recherche, de compréhension du contenu exclusivement à l'humain. Or, il serait intéressant que les navigateurs puissent comprendre, au moins partiellement, les pages visitées, ceci afin d'assister le visiteur. Le webmaster va donc laisser des indices que le navigateur pourra comprendre. Ces indices peuvent être le RDFa.
Web sémantique : introduction au RDFa
Reconstituer une vache à partir de steacks
Comme je disais à notre ami dourouc05, RDFa est un peu comme "numéroter des steacks pour essayer de reconstruire une vache".
RDFa, c'est récupérer des pages initialement détachés de toute sémantisation, afin d'y attacher des particules de sens au moyen d'un raccourci hybride XML attribute/namespace.
Le web sémantique va justement au-delà des pages pour se concentrer sur les "sens", les pages n'étant que l'aspect extérieur accessible par les humains.
"N'a clairement aucun intérêt, tout cela est inutile, etc." Ce sont justement les remarques et questions auxquels il faut essayer de trouver les premières réponses avant de s'attaquer à des discussions purement techniques et syntaxiques : RDFa, OWL, etc.
Sans une compréhension de la nature de la connaissance, des ontologies ou encore de la sémantique, toute approche technique se soldera tôt ou tard dans des essais et tentatives aussi inutiles qu'improductives.
Bienvenues donc à des discussions plus philosophiques et stratégiques sur les aspects, les utilisations ou les fondements conceptuels de la sémantique !
Sémantique et Moteur de recherche
Avec cet article de snake264, ainsi que les préoccupations de Flaburgan, il est peut-être temps d'en venir à la bonne question, notamment à propos des (moteur de) recherches et du web sémantique.
Le web sémantique se propose de répondre à des questions qui se rapportent à des concepts réels (est-ce que Lisa est la sœur de Bart ?, Est-ce que Homer est un parent de Lisa et Bart ? etc.) alors que les moteurs de recherche permettent de trouver des ressources (pages, images, vidéos, etc.) correspondant à la requête.
Le web sémantique organise les données par rapport au monde réel (ontologies), mais où trouvera-t-il des données : d'une part, à partir de bases de connaissances (ontologies) publiées, qui est encore en nombre réduit, et d'autre part, en essayant d'extraire une base de connaissance à partir des données déjà disponible sur le web, c'est-à-dire, à partir des pages, d'où le besoin d'un système d'adaptation hybrique : RDFa.
Dans ce cas particulier, il suffit de se poser la question : Si l'ontologie de la Famille Simpson était disponible et interrogeable grâce à SPARQL, pourquoi devrait-on encore analyser des pages HTML avec des attributs RDFa ?
Ce qui nous amène, normalement, à la conclusion sur la vraie nature du web sémantique : la Connaissance.
La connaissance, qui peut-être extraite des pages web, peut aussi se présenter (représenter) sous une autre forme, les ontologies. Une simple affirmation comme "Lisa est la sœur de Bart" peut faire l'objet de milliers de page alors que le web sémantique n'en proposera qu'une forme unique.
Le web sémantique est ce que le web aurait dû être depuis le début : une base de connaissance. Le fait est que l'histoire a fait que les pages ont été mis en avant, il est maintenant temps de refaire l'histoire : reconstruire la connaissance à partir des pages par l'utilisation de RDFa, ou reconstruire la connaissance à partir de nouvelles bases (RDF, OWL).
Moteur de connaissance, Moteur de recherche
L'exemple mentionné par snake264 démontre effectivement les utilisations possibles et avantages d'un système sémantique mais quelques précisions s'avèrent nécessaires et utiles afin de ne pas induire les lecteurs dans des interprétations erronées :
- Le moteur de recherche tel que décrit, c'est-à-dire capable de répondre par Oui/Non à une question, n'est pas LE moteur de recherche traditionnel tel qu'on connait (Google, Bing, etc.) mais consisterait plutôt à un moteur de connaissance ou moteur sémantique, dont on espère voir un jour l'apparition.
- L'approche utilisée (Parcourir des tas de pages, analyser et indexer) est par contre celle d'un moteur traditionnel et ne tient pas compte de tout l'apport du web sémantique (ontologies) et plus particulièrement, du principe de Web de confiance prônée par la w3C.
Dans un web sémantique, le producteur (ou auteur) des Simpsons aurait publié une ontologie dont l'exactitude et le niveau de confiance est complète. La disponibilité d'une telle ontologie permettrait, à partir d'une seule et unique base de connaissance:
1) de créer des pages tenant compte des moyens de visualisation utilisées (mobile, navigateur, etc.), des caractéristiques des lecteurs (enfants, adultes, etc.), avec éventuellement des attributs RDFa;
2) de répondre directement aux questions d'ordres conceptuelles (comme dans l'exemple), avec une certitude maximale et une rapidité quasi-immédiate;
3 ) de fournir une base de connaissance extensible et réutilisable à d'autres services web (Exemple : une entreprise de location de film peut importer cette ontologie pour enrichir sa propre base de connaissance ou de données).
Les efforts du w3C dans la promotion de cette notion de web sémantique ont justement pour objet d'inciter les organisations, groupements professionnels, gouvernements, etc. à publier des ontologies (de confiance) afin d'éviter tout ce travail de collecte/analyse/indexation qui constituent une dépense d'énergie immense, à la fois matérielle et intellectuelle.
Google et le web sémantique
Google, exploitant la base de données qu'il s'est constitué pour la recherche (textuelle), a effectivement introduit des notions de sémantiques dans ses algorithmes mais les résultats eux-mêmes confirment l'impossibilité d'exploitation sémantique des pages web. L'approche sémantique de Google consiste en l'analyse du contenu des pages ainsi que l'extraction d'éventuelles meta-données fournies (RDFa) mais souffre de deux grandes lacunes :
- L'incertitude, donc l'impossibilité d'effectuer des inférences. Google se réserve bien de s'attribuer cette capacité (certitude) en précisant dans ses réponses : "L'hypothèse la plus probable pour (question) est (réponse)." avec mention du nombre et des noms des sites sources.
- La non-exhaustivité, certaines requêtes n'ont tout simplement pas de réponses "sémantiques" et renvoient des listes traditionnelles. Par ailleurs, cette fonction n'est pas encore disponible pour toutes les langues.
http://www.developpez.net/forums/u342506-a304-i1089.png
Le web sémantique a pourtant pour ambition de faire du web une source d'informations sure et de confiance. Ce qui m'amène à l'affirmation de snake264 : "Tout le monde peut créer des ontologies" : Techniquement, tout le monde est capable d'écrire des fichiers owl, rdf et xml. Mais est-ce que cela va faire de "tout le monde" une source sûre et de confiance ? Bref, il ne faudrait pas se limiter à cette approche technique mais surtout découvrir (ou faire découvrir) les autres composants du web sémantique, à savoir la confiance, la réutilisabilité.