Web sémantique : introduction au RDFa

Version imprimable

18/04/2011, 10h49
dourouc05

Web sémantique : introduction au RDFa

Aujourd'hui, le Web est prévu principalement par des humains pour des humains, ce qui laisse le travail de recherche, de compréhension du contenu exclusivement à l'humain. Or, il serait intéressant que les navigateurs puissent comprendre, au moins partiellement, les pages visitées, ceci afin d'assister le visiteur. Le webmaster va donc laisser des indices que le navigateur pourra comprendre. Ces indices peuvent être le RDFa.

Web sémantique : introduction au RDFa
18/04/2011, 14h23
Flaburgan
Je suis plutôt perplexe pour l'instant.
Déjà, ce genre de code :
Code:

1 2 3 4 <div about="http://www.developpez.com/template/images/logo.gif"> <img src="http://www.developpez.com/template/images/logo.gif"/> <span property="dc:title">Logo Developpez.com</span>s </div>
n'a clairement aucun intérêt, ce qu'il y a dans about n'est rien de plus ni de moins que src. Ce serait plutôt au navigateur de comprendre seul src, je ne vois pas du tout ce que lui apporte about.

En dehors de ça, je trouve que cela surcharge énormément la syntaxe d'une page. En fait, je pense que cela aurait un sens si on modifiait notre dtd pour définir de nouvelles balises du type <menu>, <person>, etc... Et à la limite, faire que ces balises aient les attributs RFDa. En fait, j'ai un peu l'impression que je parle d'HTML objet là haha.

Enfin, admettons que le webmaster fasse tout ça, à quoi cela sert-il ? Je veux dire, si on dit réellement que le lien que l'on a mis pointe vers le site d'une amie, qu'est ce que cela va apporter ? Comment le navigateur pourrait-il s'en servir ? Car s'il ne fait rien, tout cela est inutile...

J'ai l'impression qu'on a créé l'outil avant d'avoir le besoin là...
18/04/2011, 15h26
onjanirina

Reconstituer une vache à partir de steacks

Comme je disais à notre ami dourouc05, RDFa est un peu comme "numéroter des steacks pour essayer de reconstruire une vache".
RDFa, c'est récupérer des pages initialement détachés de toute sémantisation, afin d'y attacher des particules de sens au moyen d'un raccourci hybride XML attribute/namespace.
Le web sémantique va justement au-delà des pages pour se concentrer sur les "sens", les pages n'étant que l'aspect extérieur accessible par les humains.

"N'a clairement aucun intérêt, tout cela est inutile, etc." Ce sont justement les remarques et questions auxquels il faut essayer de trouver les premières réponses avant de s'attaquer à des discussions purement techniques et syntaxiques : RDFa, OWL, etc.

Sans une compréhension de la nature de la connaissance, des ontologies ou encore de la sémantique, toute approche technique se soldera tôt ou tard dans des essais et tentatives aussi inutiles qu'improductives.
Bienvenues donc à des discussions plus philosophiques et stratégiques sur les aspects, les utilisations ou les fondements conceptuels de la sémantique !
18/04/2011, 18h13
snake264

Citation:

Envoyé par Flaburgan

J'ai l'impression qu'on a créé l'outil avant d'avoir le besoin là...

Visiblement, à tes questions, tu ne connais pas du tout ce que peut être le Web sémantique, pour répondre à tes questions je te conseil d'abord de lire cet article qui fait une introduction à ce que c'est :

http://jplu.developpez.com/tutoriels.../introduction/

Tu verra qu'après tu pourra mieux y voir tout l'intérêt du RDFa;)
18/04/2011, 20h36
onjanirina

Sémantique et Moteur de recherche

Avec cet article de snake264, ainsi que les préoccupations de Flaburgan, il est peut-être temps d'en venir à la bonne question, notamment à propos des (moteur de) recherches et du web sémantique.

Le web sémantique se propose de répondre à des questions qui se rapportent à des concepts réels (est-ce que Lisa est la sœur de Bart ?, Est-ce que Homer est un parent de Lisa et Bart ? etc.) alors que les moteurs de recherche permettent de trouver des ressources (pages, images, vidéos, etc.) correspondant à la requête.
Le web sémantique organise les données par rapport au monde réel (ontologies), mais où trouvera-t-il des données : d'une part, à partir de bases de connaissances (ontologies) publiées, qui est encore en nombre réduit, et d'autre part, en essayant d'extraire une base de connaissance à partir des données déjà disponible sur le web, c'est-à-dire, à partir des pages, d'où le besoin d'un système d'adaptation hybrique : RDFa.
Dans ce cas particulier, il suffit de se poser la question : Si l'ontologie de la Famille Simpson était disponible et interrogeable grâce à SPARQL, pourquoi devrait-on encore analyser des pages HTML avec des attributs RDFa ?

Ce qui nous amène, normalement, à la conclusion sur la vraie nature du web sémantique : la Connaissance.
La connaissance, qui peut-être extraite des pages web, peut aussi se présenter (représenter) sous une autre forme, les ontologies. Une simple affirmation comme "Lisa est la sœur de Bart" peut faire l'objet de milliers de page alors que le web sémantique n'en proposera qu'une forme unique.

Le web sémantique est ce que le web aurait dû être depuis le début : une base de connaissance. Le fait est que l'histoire a fait que les pages ont été mis en avant, il est maintenant temps de refaire l'histoire : reconstruire la connaissance à partir des pages par l'utilisation de RDFa, ou reconstruire la connaissance à partir de nouvelles bases (RDF, OWL).
18/04/2011, 21h25
snake264

Ce que je dit Onjanirina est très pertinent.

Mais par contre, une petite précision dans son discours, le Web sémantique ce n'est pas soit "des ontologies" soit "du RDFa", car si l'on fait du RDFa on a forcément besoin d'une (ou plusieurs) ontologies.

Ensuite ce qui alimente le Web sémantique en données, ce n'est pas les ontologies elles mêmes, mais les données contenus dans les pages XHTML (et non HTML attention), données qui bien sûr sont indiquées avec RDFa.

Car les pages XHTML sont construites soit à la main, et donc ces données ce sont le développeur qui les écrits, soit par un script qui "traduit" le résultat d'une requête SPARQL sur un triplet store.

Le triplet store étant l'endroit où chercher les informations.

Maintenant que l'on connaît le mode de fonctionnement, voici un petit exemple :

Admettons que l'on veuille savoir si "Lisa est la soeur de Bart". Je vais dans un moteur de recherche et je tape "Est-ce que Lisa est la soeur de Bart ?".

Le moteur de recherche lui, va analyser la requête de cette manière :

Je (le moteur de recherche) passe mon temps à analyser tout un tas de pages XHTML à la recherche de données RDFa, et lorsque je rencontre une donnée qui dit (par exemple) "sujet = Lisa prédicat = famille:sisterOf objet = Bart" (bien sûr la donnée ne sera pas écris tel quel dans le XHTML mais c'est ce que le moteur de recherche comprendra grossièrement) je me dit tiens il y a ici une information qui me dit que "Lisa est la soeur de Bart" je stocke donc ce triplet dans mon triplet store.

Plus tard je reçois la requête "Est-ce que Lisa est la soeur de Bart ?", j'interroge donc mon triplet store avec une requête SPARQL pour savoir si j'ai des données qui correspondent. Oui j'en ai (voir plus haut) et la requête me répond que oui, donc je renvoi "oui" à l'utilisateur.

Voila un exemple grossier de ce qui se passe avec un moteur de recherche qui "comprend" le RDFa et qui sait interroger un triplet store. Bien sûr tu peux aussi alimenter ton triplet store avec tes propres données. Il faut aussi garder en tête que les ontologies ne sont là QUE pour créer une relation entre les données;)

Est-ce que tout ceci répond mieux à tes questions ?:)
19/04/2011, 01h41
onjanirina

Moteur de connaissance, Moteur de recherche

L'exemple mentionné par snake264 démontre effectivement les utilisations possibles et avantages d'un système sémantique mais quelques précisions s'avèrent nécessaires et utiles afin de ne pas induire les lecteurs dans des interprétations erronées :

- Le moteur de recherche tel que décrit, c'est-à-dire capable de répondre par Oui/Non à une question, n'est pas LE moteur de recherche traditionnel tel qu'on connait (Google, Bing, etc.) mais consisterait plutôt à un moteur de connaissance ou moteur sémantique, dont on espère voir un jour l'apparition.

- L'approche utilisée (Parcourir des tas de pages, analyser et indexer) est par contre celle d'un moteur traditionnel et ne tient pas compte de tout l'apport du web sémantique (ontologies) et plus particulièrement, du principe de Web de confiance prônée par la w3C.

Dans un web sémantique, le producteur (ou auteur) des Simpsons aurait publié une ontologie dont l'exactitude et le niveau de confiance est complète. La disponibilité d'une telle ontologie permettrait, à partir d'une seule et unique base de connaissance:
1) de créer des pages tenant compte des moyens de visualisation utilisées (mobile, navigateur, etc.), des caractéristiques des lecteurs (enfants, adultes, etc.), avec éventuellement des attributs RDFa;
2) de répondre directement aux questions d'ordres conceptuelles (comme dans l'exemple), avec une certitude maximale et une rapidité quasi-immédiate;
3 ) de fournir une base de connaissance extensible et réutilisable à d'autres services web (Exemple : une entreprise de location de film peut importer cette ontologie pour enrichir sa propre base de connaissance ou de données).

Les efforts du w3C dans la promotion de cette notion de web sémantique ont justement pour objet d'inciter les organisations, groupements professionnels, gouvernements, etc. à publier des ontologies (de confiance) afin d'éviter tout ce travail de collecte/analyse/indexation qui constituent une dépense d'énergie immense, à la fois matérielle et intellectuelle.
19/04/2011, 02h43
snake264

Citation:

Envoyé par onjanirina

Le moteur de recherche tel que décrit, c'est-à-dire capable de répondre par Oui/Non à une question, n'est pas LE moteur de recherche traditionnel tel qu'on connait (Google, Bing, etc.) mais consisterait plutôt à un moteur de connaissance ou moteur sémantique, dont on espère voir un jour l'apparition.

Le moteur de recherche de Google (US) et Orange savent répondrent à des questions mais ciblés sur certains domaines seulement. Mais c'est en cours d'évolution, il y a des projets en cours pour améliorer ces systèmes chez chacun d'eux.

Citation:

Envoyé par onjanirina

- L'approche utilisée (Parcourir des tas de pages, analyser et indexer) est par contre celle d'un moteur traditionnel et ne tient pas compte de tout l'apport du web sémantique (ontologies) et plus particulièrement, du principe de Web de confiance prônée par la w3C.

Erreur, Google tient compte des données RDFa et Microformat dans son "pagerank" et dans la pertinence de ses résultats. Mais c'est tellement peut utilisé qu'il est vrai que cela ne se voit quasiment pas malheureusement:(

Citation:

Envoyé par onjanirina

Dans un web sémantique, le producteur (ou auteur) des Simpsons aurait publié une ontologie dont l'exactitude et le niveau de confiance est complète. La disponibilité d'une telle ontologie permettrait, à partir d'une seule et unique base de connaissance:
1) de créer des pages tenant compte des moyens de visualisation utilisées (mobile, navigateur, etc.), des caractéristiques des lecteurs (enfants, adultes, etc.), avec éventuellement des attributs RDFa;
2) de répondre directement aux questions d'ordres conceptuelles (comme dans l'exemple), avec une certitude maximale et une rapidité quasi-immédiate;
3 ) de fournir une base de connaissance extensible et réutilisable à d'autres services web (Exemple : une entreprise de location de film peut importer cette ontologie pour enrichir sa propre base de connaissance ou de données).

Les efforts du w3C dans la promotion de cette notion de web sémantique ont justement pour objet d'inciter les organisations, groupements professionnels, gouvernements, etc. à publier des ontologies (de confiance) afin d'éviter tout ce travail de collecte/analyse/indexation qui constituent une dépense d'énergie immense, à la fois matérielle et intellectuelle.

Entièrement d'accord avec toi:ccool:
02/05/2011, 11h41
Flaburgan

Après avoir eu le temps de lire l'article global sur le web sémantique, je reviens me mêler au débat, car le sujet est très intéressant.

Tout d'abord, je ne trouve pas, même maintenant avec plus de connaissance, que mon premier message est un non sens. Je continue de me demander ce que cela apporte au webmaster. Cela permet-il une meilleure navigation dans les pages de son site ? Que s'il a une sorte de "triplet store" interne à son site.

Ensuite, je pense que cette notion de triplet store, qui si j'ai bien compris est une base de connaissance, me paraît bien étrange.

De ce que j'ai compris, les robots du moteur de recherche des connaissances parcourraient les pages pour alimenter ce triplet store. Et quand on leur poserait une question, le moteur se baladerait dans cette immense base pour trouver la réponse.

Cela signifie que quelqu'un doit être capable d'indexer toutes les relations présentes sur le web. J'y vois la plusieurs problèmes que je qualifierai de critique.
Le premier : matériel : cela représente un coût immense et une grosse responsabilité, notamment en cas de panne.
Le second : malgré une grande puissance de calcul, on ne peut pas imaginer réussir à indexer TOUS les sites web. C'est là la puissance du web actuellement, même si Google ne connaît pas un site, je peux moi le trouver si je connais son adresse où en jonglant avec des liens de sites en sites.
Le troisième : Cela signifie qu'une unique entité possède toute la connaissance. Et peut donc la modifier à sa guise. La centralisation du web serait une catastrophe
La quatrième : Que se passe-t-il si deux sites affirment quelque chose de différent ? Lisa est la soeur de Bart et la fille d'Homer, et Llisa est la soeur d'Homer dans un autre site web ? Comment synthétiser l'information dans le triplet store ? Peut-on considérer que puisqu'il y a plus de site qui affirme que Lisa est la fille alors c'est réellement le cas ? Ce qui adviendrait à affirmer que la majorité a toujours raison ?

La solution que je vois, c'est qu'il ne faut pas un triplet store par moteur de recherche, mais un triplet store par site, et le moteur de recherche serait capable de fouiller dans les sites pour ressortir les infos qu'ils jugeraient pertinente, et ainsi nous afficher "d'après le site Homer fan's, Homer est le père de Lisa, d'après le site FAKEFAKE, il est son frère."

La décentralisation, comme d'habitude :)
02/05/2011, 12h35
snake264

Alors il te manque encore quelques petites notions qui sont un peu plus "pointu" mais c'est rien.

Citation:

Envoyé par Flaburgan

Cela permet-il une meilleure navigation dans les pages de son site ? Que s'il a une sorte de "triplet store" interne à son site.

Cela n'a jamais eu pour objectif d'améliorer l'expérience utilisateur sur son site. Son seul intérêt pour lui sera que les autres pourront tirer parti de toutes les informations qui sont dans son site pour améliorer leur base de connaissances. En très gros.

Citation:

Envoyé par Flaburgan

Ensuite, je pense que cette notion de triplet store, qui si j'ai bien compris est une base de connaissance, me paraît bien étrange.

De ce que j'ai compris, les robots du moteur de recherche des connaissances parcourraient les pages pour alimenter ce triplet store. Et quand on leur poserait une question, le moteur se baladerait dans cette immense base pour trouver la réponse.

A peut près c'est ça oui. Mais faut que tu sache que c'est plus rapide que du simple relationnel.

Citation:

Envoyé par Flaburgan

Cela signifie que quelqu'un doit être capable d'indexer toutes les relations présentes sur le web

Il y a des robots pour ça, ça s'appelle des crowler et ça existait bien avant le Web sémantique.

Citation:

Envoyé par Flaburgan

Le premier : matériel : cela représente un coût immense et une grosse responsabilité, notamment en cas de panne.

Pas plus qu'une simple BDD normale que l'on trouve dans n'importe quel moteur de recherche. Il n'y a aucune différence entre les deux pour ça.

Citation:

Envoyé par Flaburgan

Le second : malgré une grande puissance de calcul, on ne peut pas imaginer réussir à indexer TOUS les sites web. C'est là la puissance du web actuellement, même si Google ne connaît pas un site, je peux moi le trouver si je connais son adresse où en jonglant avec des liens de sites en sites.

Et bien là les relations seront plus forte et tu n'auras plus besoin d'aller de site en site pour trouver celui que tu veux. Pour une puissance de calcul moins forte que sur un simple système relationnel. Aussi l'indexation ce fait plus rapidement.

Citation:

Envoyé par Flaburgan

Le troisième : Cela signifie qu'une unique entité possède toute la connaissance. Et peut donc la modifier à sa guise. La centralisation du web serait une catastrophe

Ou tu vois ça toi ? n'importe qui peut faire un petit moteur de recherche et avoir ça propre base. Pourquoi voudrais-tu que tous soit réunis dans un unique endroit ? Et puis il n'y a pas qu'un moteur de recherche à ce que je sache;)

Citation:

Envoyé par Flaburgan

La quatrième : Que se passe-t-il si deux sites affirment quelque chose de différent ? Lisa est la soeur de Bart et la fille d'Homer, et Llisa est la soeur d'Homer dans un autre site web ? Comment synthétiser l'information dans le triplet store ? Peut-on considérer que puisqu'il y a plus de site qui affirme que Lisa est la fille alors c'est réellement le cas ? Ce qui adviendrait à affirmer que la majorité a toujours raison ?

Pour cela je te renvoi aux problèmes de réseaux sémantique que l'on trouve en TALN. Actuellement il y a des poids pour chaque informations en fonction de leur provenance (attention je ne parle pas ici de Web sémantique) et en fonction du nombre d'une même réponse.

Citation:

Envoyé par Flaburgan

La solution que je vois, c'est qu'il ne faut pas un triplet store par moteur de recherche, mais un triplet store par site, et le moteur de recherche serait capable de fouiller dans les sites pour ressortir les infos qu'ils jugeraient pertinente, et ainsi nous afficher "d'après le site Homer fan's, Homer est le père de Lisa, d'après le site FAKEFAKE, il est son frère."

Rien ne t'empêche de faire ça, c'est tout à fait possible mais ralentirai beaucoup l'efficacité du moteur de recherche. Car au lieu de faire une demande dans sa base il faut qu'il se connecte à la tienne attende la réponse qu'il la reçoive et qu'il la traite. En gros c'est comme ci actuellement un moteur de recherche interroge la BDD de chaque site pour avoir ses infos. Et puis comment ferais ceux qui ne peuvent pas installer de triplets store sur leur site ? Comme chez les hébergeur gratuit, comment feront-ils pour partager les infos contenus sur leur site ? LE moyen pour ça est RDFa ;)

Citation:

Envoyé par Flaburgan

La décentralisation, comme d'habitude :)

Oui mais attention à ne pas tomber dans l'extrême ce qui serait tout aussi grave et dangereux que la centralisation;)
02/05/2011, 13h34
onjanirina

Merci à Flaburgan pour cette relance, qui nous remet bien au centre des débats sur le web sémantique, plutôt que de s'éparpiller à des affirmations et autres hypothèses technologiques et syntaxiques qui sont purement et simplement contre-éducatifs et ne satisfont que leurs auteurs (ou traducteurs).

Qu'est-ce que cela apporte au webmaster ?
Le web sémantique apporte une vision nouvelle du métier de webmaster. au lieu d'être le responsable d'un assemblage de pages, le webmaster (ou le nom qu'on donnera à ce nouveau métier) aura pour mission la création, mise à jour et la publication d'une base de connaissance. Pour utiliser l'expression de Flaburgan, le futur webmaster sera responsable de la création, mise à jour et publication d'un Triplet Store par Site. Dans le cas où des sources sûrs ont déja publié des ontologies, il (le webmaster) s'en servira (importation, réutilisation) pour construire le sien. La connaissance (Ontologies) sera "distribuée" par différentes voies : pages, serveurs, ontologies (owl, sparql).

Le Triplet store, le crawling-sémantique, etc.
La notion de Triplet est liée à la syntaxe RDF, et OWL par la suite, dont la mission principale est de fournir une syntaxe permettant l'échange et la communication des données sémantiques sur le web. Les recommandations de la W3C ne comportent aucunement des invitations ou incitations à la création de Triplet store.
Ce qui est encore plus ridicule est ce Triplet store construit sur la base d'un parcours (exhaustif) des pages web. En effet, le principe de "Confiance" , ainsi que de la "Réutilisabilité", est une des composantes de base du web sémantique. Ce qui signifie en pratique : Une source sure publie une ontologie, que d'autres pourront ré-utiliser et étendre afin de construire et publier leurs propres connaissances. Pour le cas d'exemple cité, c'est l'auteur ou le producteur des Simpsons qui devra publié l'ontologie de base (Famille Simpsons) que d'autres pourront ré-utiliser, notamment pour créer des pages web avec des éléments RDFa.
Cet exemple de Moteur de recherche (ou de connaissance puisqu'il va essayer de répondre à une question) qui va parcourir "un tas de pages web" pour construire sa base de connaissance est simplement irréaliste puisque sa validité est conditionné par des hypothèses irréalisables : exhaustivité, authenticité des données (Tout le monde est censé être juste et correct). J'espère que snake264 partagera avec nous des exemples ou travaux sur des moteur de recherche construits sur ce modèle.

Dans les réponses précédentes, je me posais la question "Si l'ontologie de la Famille Simpson était disponible et interrogeable grâce à SPARQL, pourquoi devrait-on encore analyser des pages HTML avec des attributs RDFa ?"
La réponse à cette question permet résumer les apports du web sémantique : Mettre à la disponibilité des utilisateurs des ontologies sûres, qui pourront être (ré)utilisées pour la construction de nouvelles ontologies ou l'enrichissement sémantique de pages web (RDFa).
La construction d'ontologies ne peut être que le fruit d'une démarche personnelle initiée par une entité détentrice de la connaissance sur un domaine. La récupération des unités sémantiques dans les page web (RDFa) ne permettrait que la construction d'une ontologie à faible niveau de certitude et incompatibles à l’exécution d'inférences (owl full).
02/05/2011, 15h30
snake264

Citation:

Envoyé par onjanirina

Qu'est-ce que cela apporte au webmaster ?
Le web sémantique apporte une vision nouvelle du métier de webmaster. au lieu d'être le responsable d'un assemblage de pages, le webmaster (ou le nom qu'on donnera à ce nouveau métier) aura pour mission la création, mise à jour et la publication d'une base de connaissance. Pour utiliser l'expression de Flaburgan, le futur webmaster sera responsable de la création, mise à jour et publication d'un Triplet Store par Site. Dans le cas où des sources sûrs ont déja publié des ontologies, il (le webmaster) s'en servira (importation, réutilisation) pour construire le sien. La connaissance (Ontologies) sera "distribuée" par différentes voies : pages, serveurs, ontologies (owl, sparql).

Oui et non, tout le monde n'a pas la possibilitée d'installer un triplets store sur le serveur où il héberge son site. Cela peut être à la fois la meilleure solution comme la pire, ça dépend du contexte. On ne va pas installer un triplets store si notre site contient qu'une dizaine de pages il vaut mieux utiliser la publication de ses triplets dans le code de la page. Par contre si notre site contient plusieurs centaines de Mo de données là oui il serait plus utile de créer un triplets store et ce qu'il y a de mieux est de faire les deux mais c'est vrai que ça demande pas mal de boulot.

Citation:

Envoyé par onjanirina

Le Triplet store, le crawling-sémantique, etc.
La notion de Triplet est liée à la syntaxe RDF, et OWL par la suite, dont la mission principale est de fournir une syntaxe permettant l'échange et la communication des données sémantiques sur le web. Les recommandations de la W3C ne comportent aucunement des invitations ou incitations à la création de Triplet store.

C'est vrai nul n'est obligé de stocker ses données dans un triplets store on peut très bien les publier via un agrégateur d'ontologie qui affiche simplement toutes nos données en format RDF dans une simple page Web et l'on y accède via un SPARQL endpoint. Il faut garder à l'esprit que le plus important est la publication de données et l'interconnexion dans le Web sémantique.

Citation:

Envoyé par onjanirina

Pour le cas d'exemple cité, c'est l'auteur ou le producteur des Simpsons qui devra publié l'ontologie de base (Famille Simpsons) que d'autres pourront ré-utiliser, notamment pour créer des pages web avec des éléments RDFa.

Se serait très contre productif de faire cela. Il existe de bien meilleurs moyens.

Citation:

Envoyé par onjanirina

Cet exemple de Moteur de recherche (ou de connaissance puisqu'il va essayer de répondre à une question) qui va parcourir "un tas de pages web" pour construire sa base de connaissance est simplement irréaliste puisque sa validité est conditionné par des hypothèses irréalisables : exhaustivité, authenticité des données (Tout le monde est censé être juste et correct).

Faux, cela existe déjà, même chez google. Je t'invite aussi à aller voir ceci http://www.lirmm.fr/jeuxdemots/jdm-accueil.php (pas avec IE par contre:aie:). En gros c'est un site qui montre en jouant comment créer un réseau sémantique de confiance, et c'est prouver;). Par contre ce n'est pour l'instant qu'un sujet de recherche de mon labo. Aussi ce n'est pas pour le Web sémantique (c'est du TALN) mais cela montre comment l'on peut publier des données de confiancesi l'on s'en sert pour le Web sémantique.

Citation:

Envoyé par onjanirina

Dans les réponses précédentes, je me posais la question "Si l'ontologie de la Famille Simpson était disponible et interrogeable grâce à SPARQL, pourquoi devrait-on encore analyser des pages HTML avec des attributs RDFa ?"

Tout simplement pour avoir d'autres infos. Il faut savoir que dans le Web sémantique plus on a de méta données (données sur les données) mieux c'est. L'interconnexion est la chose la plus importante en Web sémantique.

Citation:

Envoyé par onjanirina

La réponse à cette question permet résumer les apports du web sémantique : Mettre à la disponibilité des utilisateurs des ontologies sûres, qui pourront être (ré)utilisées pour la construction de nouvelles ontologies ou l'enrichissement sémantique de pages web (RDFa).
La construction d'ontologies ne peut être que le fruit d'une démarche personnelle initiée par une entité détentrice de la connaissance sur un domaine.

Faux, tout le monde peut créer une ontologie dans le domaine qu'il connaît ou bien même dans un domaine qu'il ne maîtrise pas en approfondissant ses propres connaissances. Et il faut savoir qu'une ontologie est réutilisable. C'est-à-dire que si quelqu'un a oubié une propriété par exemple et bien il créé la sienne en rajoutant cette propriété. Par exemple l'ontologie FOAF n'a pas de propriété "métier" donc pour connaître le métier d'une personne il faut créer une ontologie qui reprend FOAF en rajoutant la propriété métier.

Les ontologies ne seront jamais à 100% fiables. Il manquera toujours des choses et c'est à chaque utilisateurs qu'il revient de faire la sienne pour publier ses données à condition de mettre à disposition la documentation de son ontologie pour permettre de l'utiliser.
02/05/2011, 16h55
onjanirina

Google et le web sémantique
Google, exploitant la base de données qu'il s'est constitué pour la recherche (textuelle), a effectivement introduit des notions de sémantiques dans ses algorithmes mais les résultats eux-mêmes confirment l'impossibilité d'exploitation sémantique des pages web. L'approche sémantique de Google consiste en l'analyse du contenu des pages ainsi que l'extraction d'éventuelles meta-données fournies (RDFa) mais souffre de deux grandes lacunes :
- L'incertitude, donc l'impossibilité d'effectuer des inférences. Google se réserve bien de s'attribuer cette capacité (certitude) en précisant dans ses réponses : "L'hypothèse la plus probable pour (question) est (réponse)." avec mention du nombre et des noms des sites sources.
- La non-exhaustivité, certaines requêtes n'ont tout simplement pas de réponses "sémantiques" et renvoient des listes traditionnelles. Par ailleurs, cette fonction n'est pas encore disponible pour toutes les langues.
http://www.developpez.net/forums/u342506-a304-i1089.png

Le web sémantique a pourtant pour ambition de faire du web une source d'informations sure et de confiance. Ce qui m'amène à l'affirmation de snake264 : "Tout le monde peut créer des ontologies" : Techniquement, tout le monde est capable d'écrire des fichiers owl, rdf et xml. Mais est-ce que cela va faire de "tout le monde" une source sûre et de confiance ? Bref, il ne faudrait pas se limiter à cette approche technique mais surtout découvrir (ou faire découvrir) les autres composants du web sémantique, à savoir la confiance, la réutilisabilité.
02/05/2011, 18h18
snake264

C'est pour le moment tout à fait normal vu le pauvre contenu existant pour le Web sémantique. Il y a aussi la même chose mais en plus performant chez orange.

http://www.casimages.com/img.php?i=1...1407558425.png http://www.developpez.net/forums/dat...AASUVORK5CYII=http://www.developpez.net/forums/dat...AASUVORK5CYII=http://www.developpez.net/forums/dat...AASUVORK5CYII=Et libre à tout le monde d'utiliser ou de créer l'ontologie qu'il veut. Il faut qu'à l'avenir n'importe qui puisse (déjà) créer une ontologie, c'est pour cela qu'il y a certains labo qui travaillent sur des outils que tout le monde peut utiliser pour faire son ontologie sans vraiment comprendre ce qu'il y a derrière. Un peu comme photoshop tout le monde sait l'utiliser mais 1/10ème des utilisateurs ne connaissent pas les théorie de physique et de mathématiques qui sont derrière.

Pour le moment la plus grosse lacune du Web sémantique est le manque flagrant d'ontologies.
31/08/2014, 22h07
geforce

Bonjour à tous,

1- Comment peut-on trouver la description des balises de toutes les ontologies (Mot clés, signification, namespace en relation, préfixe ....) pour pouvoir les utiliser dans d'autres contextes de connaissance.

2- Juste une précision les moteurs d'inférence qui utilisent ces balises ou propriétés RDFa présentement c'est juste Google ? Comment peut on savoir qu'elles sont utilisées (autre que dans un contexte de référencement)?

Merci
12/09/2014, 13h48
snake264

Citation:

Envoyé par geforce

Bonjour à tous,

1- Comment peut-on trouver la description des balises de toutes les ontologies (Mot clés, signification, namespace en relation, préfixe ....) pour pouvoir les utiliser dans d'autres contextes de connaissance.

Tu peux utiliser ce site http://lov.okfn.org/dataset/lov/

Citation:

Envoyé par geforce

2- Juste une précision les moteurs d'inférence qui utilisent ces balises ou propriétés RDFa présentement c'est juste Google ? Comment peut on savoir qu'elles sont utilisées (autre que dans un contexte de référencement)?

Merci

Voir Google knowledge graph, Bing knowledge graph, etc... Tout les moteurs de recherche maintenant les utilisent.