IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Actualités Discussion :

Meta espère augmenter la précision de Wikipedia avec un nouveau modèle d'IA

  1. #1
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    8 383
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 8 383
    Points : 196 425
    Points
    196 425
    Par défaut Meta espère augmenter la précision de Wikipedia avec un nouveau modèle d'IA
    Meta espère augmenter la précision de Wikipedia et ses 6,5 millions d'articles avec un nouveau modèle d'IA,
    capable de vérifier automatiquement des centaines de milliers de citations à la fois

    Wikipedia contient environ 6,5 millions d’articles de contributeurs bénévoles. Cependant, bien que les sources des articles soient citées, comment savoir si ceux-ci sont fiables ? C'est à cette question que Meta veut répondre avec SPHERE, un modèle open source capable d’analyser automatiquement des centaines de milliers de citations à la fois pour vérifier si elles soutiennent réellement les affirmations correspondantes, elle l’a publié récemment sur la plateforme Github.

    Meta a précisé qu’il n’était pas partenaire avec Wikimedia, la fondation qui gère Wikipedia, pour ce projet. Son objectif est de créer une plateforme pour aider les éditeurs de Wikipédia à repérer systématiquement les problèmes de citation et à corriger rapidement la citation ou le contenu de l’article correspondant.


    L'équipe de recherche et d'avancement de Meta AI a récemment développé un système basé sur un réseau neuronal, appelé SIDE, qui est capable de scanner des centaines de milliers de citations Wikipédia à la fois et de vérifier si elles prennent réellement en charge le contenu correspondant.

    Wikipédia est une encyclopédie en ligne gratuite multilingue écrite et maintenue par des bénévoles grâce à une collaboration ouverte et un système d'édition basé sur wiki. Wikipédia compte quelque 6,5 millions d'articles. Wikipédia est en crowdsourcing, il exige donc généralement que les faits soient corroborés ; les citations, les déclarations controversées et les documents controversés sur les personnes vivantes doivent inclure une citation. Les bénévoles revérifient les notes de bas de page de Wikipédia, mais, à mesure que le site continue de croître, il est difficile de suivre le rythme des plus de 17 000 nouveaux articles ajoutés chaque mois. Les lecteurs s'interrogent souvent sur l'exactitude des entrées de Wikipédia qu'ils lisent. Les éditeurs humains ont besoin de l'aide de la technologie pour identifier le charabia ou les déclarations qui manquent de citations, mais comprennent que déterminer si une source confirme ou non une affirmation est une tâche complexe pour l'IA, car elle nécessite une compréhension approfondie pour effectuer une analyse précise.

    À cette fin, l'équipe de recherche Meta AI a créé un nouvel ensemble de données de 134 millions de pages Web publiques (divisées en 906 millions de passages de 100 jetons chacun), un ordre de grandeur de plus de données que les sources de connaissances prises en compte dans la recherche actuelle en PNL et beaucoup plus complexe que jamais utilisé pour ce genre de recherches. Le deuxième plus grand ensemble de données en matière de passages/documents est le générateur Internet Augmented Dialog, qui extrait les données de 250 millions de passages et de 109 millions de documents.

    L'équipe de recherche et d'avancement de Meta AI a récemment développé un système basé sur un réseau neuronal, appelé SIDE, qui est capable de scanner des centaines de milliers de citations Wikipédia à la fois et de vérifier si elles prennent réellement en charge le contenu correspondant.

    Wikipédia est une encyclopédie en ligne gratuite multilingue écrite et maintenue par des bénévoles grâce à une collaboration ouverte et un système d'édition basé sur wiki. Wikipédia compte quelque 6,5 millions d'articles. Wikipédia est un crowdsourcing, il exige donc généralement que les faits soient corroborés ; les citations, les déclarations controversées et les documents controversés sur les personnes vivantes doivent inclure une citation. Les bénévoles revérifient les notes de bas de page de Wikipédia, mais, à mesure que le site continue de croître, il est difficile de suivre le rythme des plus de 17 000 nouveaux articles ajoutés chaque mois. Les lecteurs s'interrogent souvent sur l'exactitude des entrées de Wikipédia qu'ils lisent. Les éditeurs humains ont besoin de l'aide de la technologie pour identifier le charabia ou les déclarations qui manquent de citations, mais comprennent que déterminer si une source confirme ou non une affirmation est une tâche complexe pour l'IA, car elle nécessite une compréhension approfondie pour effectuer une analyse précise.

    À cette fin, l'équipe de recherche Meta AI a créé un nouvel ensemble de données de 134 millions de pages Web publiques (divisées en 906 millions de passages de 100 jetons chacun), un ordre de grandeur de plus de données que les sources de connaissances prises en compte dans la recherche actuelle en PNL et beaucoup plus complexe que jamais utilisé pour ce genre de recherches. Le deuxième plus grand ensemble de données en termes de passages/documents est le générateur Internet Augmented Dialog, qui extrait les données de 250 millions de passages et de 109 millions de documents.

    Ce nouvel ensemble de données est la source de connaissances du modèle de réseau de neurones qui trouve les citations qui semblent non pertinentes et suggère un événement source plus applicable, pointant vers le passage spécifique qui soutient l'affirmation. Les techniques de compréhension du langage naturel (NLU) sont utilisées pour effectuer les tâches qui permettent au système d'évaluer une citation. Dans NLU, un modèle traduit des phrases humaines (ou des mots, des phrases ou des paragraphes) en représentations mathématiques complexes. L'outil est conçu pour comparer ces représentations afin de déterminer si une affirmation soutient ou contredit une autre.

    Le nouvel ensemble de données est également l'un des principaux composants du système*: Sphere, qui est une bibliothèque de récupération à l'échelle du Web et est déjà open source.

    Le flux de décision de SIDE, d'une revendication sur Wikipédia à une suggestion de nouvelle citation, fonctionne comme suit*:

    Nom : sphere.png
Affichages : 1218
Taille : 274,3 Ko

    La demande est envoyée au moteur de récupération Sphere, qui produit une liste de documents candidats potentiels à partir du corpus Sphere. Le sous-système de récupération clairsemé utilise un modèle seq2seq pour traduire le contexte de citation en texte de requête, puis correspond à la requête résultante (un vecteur de sac de mots clairsemé) sur un index BM25 de Sphere. Le modèle seq2seq est formé à l'aide des données de Wikipédia lui-même*: les requêtes cibles sont définies pour être des titres de page Web de citations Wikipédia existantes. Le sous-système de récupération dense est un réseau de neurones qui apprend à partir des données de Wikipédia pour coder le contexte de citation dans un vecteur de requête dense. Ce vecteur est ensuite mis en correspondance avec les codages vectoriels de tous les passages dans Sphere et les plus proches sont renvoyés.

    Le moteur de vérification classe ensuite les documents candidats et la citation originale en référence à la revendication. Un réseau de neurones prend la revendication et un document en entrée, et prédit dans quelle mesure il prend en charge la revendication. Pour des raisons d'efficacité, il fonctionne sur un niveau par passage et calcule le score de vérification d'un document comme le maximum sur ses scores par passage. Les scores de vérification sont calculés par un transformateur BERT affiné qui utilise la revendication et le passage concaténés comme entrée.

    En d'autres termes, le modèle crée et compare des représentations mathématiques de la signification d'énoncés entiers plutôt que de mots individuels. Étant donné que les pages Web peuvent contenir de longues portions de texte, les modèles évaluent le contenu par blocs et ne prennent en compte que le passage le plus pertinent lorsqu'ils décident de recommander ou non une URL.

    Les indices transmettent les sources potentielles à un modèle de classement des preuves, qui compare le nouveau texte à la citation originale. À l'aide d'une compréhension fine du langage, le modèle classe la source citée et les alternatives récupérées en fonction de la probabilité qu'elles soutiennent l'affirmation. Si la citation originale n'est pas classée au-dessus des documents candidats, une nouvelle citation parmi les candidats récupérés est suggérée.

    Meta

    Citation Envoyé par Meta
    En tant qu'encyclopédie la plus populaire de tous les temps - avec quelque 6,5 millions d'articles - Wikipédia est la première étape par défaut dans la recherche d'informations de recherche, de documents de base ou d'une réponse à cette question lancinante sur la culture pop. Wikipédia peut vous dire que les scientifiques ont nommé une nouvelle espèce de champignon Spongiforma squarepantsii, d'après le personnage de dessin animé SpongeBob SquarePants, ou que le membre de la tribu Blackfeet Joe Hipp a été le premier Amérindien à concourir pour le titre mondial des poids lourds de la World Boxing Association.

    Mais parfois, cette recherche rapide d'informations s'accompagne d'un doute persistant*: comment savoir si ce que nous lisons est exact*? Par exemple, si vous aviez lu l'entrée mentionnée ci-dessus sur le membre de la tribu Blackfeet Joe Hipp il y a un mois, la citation de Wikipedia pour cette affirmation aurait été une page Web qui ne mentionnait même pas Hipp ou la boxe. Wikipédia est en crowdsourcing, il exige donc généralement que les faits soient corroborés ; les citations, les déclarations controversées et les documents controversés sur les personnes vivantes doivent inclure une citation. Les bénévoles revérifient les notes de bas de page de Wikipédia, mais, à mesure que le site continue de croître, il est difficile de suivre le rythme des plus de 17 000 nouveaux articles ajoutés chaque mois.

    Les outils automatisés peuvent aider à identifier le charabia ou les déclarations sans citations, mais aider les éditeurs humains à déterminer si une source confirme réellement une affirmation est une tâche beaucoup plus complexe, qui nécessite la profondeur de compréhension et d'analyse d'un système d'IA.

    En nous appuyant sur les recherches et les avancées de Meta AI, nous avons développé le premier modèle capable de scanner automatiquement des centaines de milliers de citations à la fois pour vérifier si elles soutiennent vraiment les affirmations correspondantes. Il est disponible en open-source, et vous pouvez voir une démo de notre vérificateur. En tant que source de connaissances pour notre modèle, nous avons créé un nouvel ensemble de données de 134 millions de pages Web publiques - un ordre de grandeur plus vaste et beaucoup plus complexe jamais utilisé pour ce type de recherches. Il attire l'attention sur les citations douteuses, permettant aux éditeurs humains d'évaluer les cas les plus susceptibles d'être défectueux sans avoir à passer au crible des milliers de déclarations correctement citées. Si une citation semble non pertinente, notre modèle suggérera une source plus applicable, pointant même vers le passage spécifique qui soutient la revendication. À terme, notre objectif est de créer une plate-forme pour aider les éditeurs de Wikipédia à repérer systématiquement les problèmes de citation et à corriger rapidement la citation ou à corriger le contenu de l'article correspondant à grande échelle.

    "Il s'agit d'un exemple puissant d'outils d'apprentissage automatique qui peuvent aider à faire évoluer le travail des bénévoles en recommandant efficacement des citations et des sources précises. L'amélioration de ces processus nous permettra d'attirer de nouveaux éditeurs sur Wikipédia et de fournir des informations de meilleure qualité et plus fiables à des milliards de personnes dans le monde. J'attends avec impatience des améliorations continues dans ce domaine, d'autant plus que les outils d'apprentissage automatique sont capables de fournir des citations plus personnalisées et des options multilingues pour servir nos communautés Wikimedia dans plus de 300 langues".

    Shani Evenstein Sigalov, chercheur à l'Université de Tel Aviv et wikimédien de longue date.

    Enseigner aux machines à comprendre la relation entre des passages de texte complexes, tels que les entrées Wiki et les articles qu'elles citent, aidera également la communauté des chercheurs à faire progresser l'IA vers des systèmes plus intelligents capables de raisonner sur les connaissances du monde réel avec plus de complexité et de nuances.

    Par exemple, pour remplacer la citation ratée sur Joe Hipp, notre système recommande un passage d'un article de 2015 dans le Great Falls Tribune*:

    « En 1989, au crépuscule de sa carrière, [Marvin] Camel a combattu Joe Hipp de la Blackfeet Nation. Hipp, qui est devenu le premier Amérindien à se battre pour le championnat du monde des poids lourds, a déclaré que le combat était l'un des plus étranges de sa carrière ».

    Pour identifier cette source, notre système a dû analyser une sémantique complexe. Le passage du journal ne mentionne pas explicitement la boxe, mais le modèle a déduit le contexte à partir d'indices indirects, tels que le terme poids lourd. Il a également compris que le mot défi dans l'article de Tribune signifie la même chose que rivaliser dans la revendication de Wikipedia.
    Conclusion

    Un système informatique qui a une compréhension du langage au niveau humain n'est pas encore conçu, mais des projets comme celui-ci, qui enseignent aux algorithmes à comprendre un matériau dense avec un degré de sophistication toujours plus élevé, aident l'IA à donner un sens au monde réel. L'équipe de recherche et d'avancement de Meta AI affirme que l'objectif de ce travail est de créer une plate-forme pour aider les éditeurs de Wikipédia à repérer systématiquement les problèmes de citation et à corriger rapidement la citation ou à corriger le contenu de l'article correspondant à grande échelle. SIDE est open source et peut être testé.

    Tester SIDE

    Source : Meta

    Et vous ?

    Que pensez-vous de ce type de projet ?
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  2. #2
    Membre éclairé
    Homme Profil pro
    Développeur .NET
    Inscrit en
    Septembre 2014
    Messages
    204
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Développeur .NET
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Septembre 2014
    Messages : 204
    Points : 712
    Points
    712
    Par défaut
    ça ne va pas être vu d'un bon oeil qu'un GAFAM bidouille Wikipedia

  3. #3
    Membre expert
    Homme Profil pro
    ingénieur qualité
    Inscrit en
    Mars 2015
    Messages
    1 098
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Belgique

    Informations professionnelles :
    Activité : ingénieur qualité
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Mars 2015
    Messages : 1 098
    Points : 3 356
    Points
    3 356
    Par défaut
    Citation Envoyé par Stéphane le calme Voir le message
    Meta espère augmenter la précision de Wikipedia
    Pourquoi?
    En quoi ça les regarde?

  4. #4
    Invité
    Invité(e)
    Par défaut
    Bonjour,

    Meta espère augmenter la précision de Wikipedia et ses 6,5 millions d'articles avec un nouveau modèle d'IA, capable de vérifier automatiquement des centaines de milliers de citations à la fois

    Que pensez-vous de ce type de projet ?
    Ce qui est génant c'est quand dans le modèle d'analyse , les articles pointes sur le site lui même. Une page A a besoin d'une page B , sur Wikipedia . Si c'est une page externe, une image, une video, un son, un graphe , un pdf , un chiffre ... comment l'outil va pouvoir analyser ?

    L'analyse de base est textuelle.

    Quid aussi , du politiquement correct ? Le robot de contrôle serait tenté de neutraliser des éléments qui vont à l'encontre de sa société par exemple. Censure, blocage, "vérité officielle / officieuse" ...

  5. #5
    Membre extrêmement actif
    Homme Profil pro
    Développeur Java
    Inscrit en
    Septembre 2011
    Messages
    749
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Développeur Java
    Secteur : High Tech - Opérateur de télécommunications

    Informations forums :
    Inscription : Septembre 2011
    Messages : 749
    Points : 2 876
    Points
    2 876
    Par défaut
    Citation Envoyé par totozor Voir le message
    Pourquoi?
    En quoi ça les regarde?
    Ben, en rien, mais il faut qu'ils fassent parler d'eux (et faire oublier les tweets de leur patron sur leur metaverse à la noix )

  6. #6
    Membre extrêmement actif
    Profil pro
    Analyste cogniticien
    Inscrit en
    Novembre 2010
    Messages
    269
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : Analyste cogniticien

    Informations forums :
    Inscription : Novembre 2010
    Messages : 269
    Points : 627
    Points
    627
    Par défaut
    Donc si j'ai bien compris, Facebook veut restituer la Vérité sur Wikipédia. Et sur quoi Facebook détient la Vérité ? Sur ces algorithmes qui déterminent quelle Vérité doit être affichée sur les murs de Facebook ? On est mal barrés.

Discussions similaires

  1. Réponses: 16
    Dernier message: 24/03/2017, 17h10
  2. augmenter la précision
    Par deubelte dans le forum C++
    Réponses: 2
    Dernier message: 20/01/2009, 14h34
  3. la précision d'affichage avec printf
    Par mony84 dans le forum Bibliothèque standard
    Réponses: 2
    Dernier message: 13/09/2008, 01h29
  4. Augmenter la précision avec la méthode de corrélation de phase
    Par Programmeur_Aladdin dans le forum Traitement d'images
    Réponses: 0
    Dernier message: 28/02/2008, 16h59
  5. Réponses: 17
    Dernier message: 04/08/2005, 15h49

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo