IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Google lance un nouveau système d'IA dans DeepMind, appelé SAFE


Sujet :

Intelligence artificielle

  1. #1
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    901
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 901
    Points : 63 383
    Points
    63 383
    Par défaut Google lance un nouveau système d'IA dans DeepMind, appelé SAFE
    Google lance un nouveau système d'IA dans DeepMind, appelé SAFE, qui est censé être meilleur que les humains en matière de vérification des faits.

    Google a lancé un nouveau système d'IA dans DeepMind, appelé SAFE. Une nouvelle étude a révélé que le système SAFE de DeepMind est plus performant que les humains en matière de vérification des faits.

    La recherche a été publiée dans un article et s'intitulait "Long-form factuality in large language models". Dans cet article, il est question d'une méthode de vérification des faits appelée Search-Augmented Factuality Evaluator (SAFE). Il a été constaté que SAFE décompose chaque fait d'un document individuellement et le vérifie ensuite à l'aide d'une recherche sur Google.

    L'un des auteurs de l'étude explique que SAFE utilise de grands modèles de langage (LLM) pour décomposer correctement chaque fait et vérifier d'abord chaque fait lui-même en utilisant son processus de raisonnement en plusieurs étapes, puis en faisant correspondre les faits avec les résultats de la recherche sur Google. Pour déterminer si SAFE peut être utilisé à la place des humains en termes de vérification des faits, les chercheurs ont testé 16 000 faits avec DeepMind et des humains. Ils ont constaté que SAFE correspondait aux humains dans 72 % des cas. Il y a également eu 100 désaccords sur des faits entre les humains et SAFE, et SAFE s'est avéré correct dans 76 % des cas.

    Nom : 2.PNG
Affichages : 5461
Taille : 45,6 Ko

    L'article affirme que ce LLM peut acquérir des pouvoirs surhumains, mais de nombreux chercheurs ne s'entendent pas sur la signification du terme "surhumain". Garcy Marcus, chercheur dans le domaine de l'IA, a déclaré qu'il avait été troublé par le terme "surhumain". Selon lui, les chercheurs survalorisent le modèle et cette formulation ne correspond pas au modèle. Il a également ajouté que les chercheurs voulaient dire que SAFE est meilleur que les vérificateurs de faits humains sous-payés. Pour être réellement qualifié de surhumain, SAFE doit rivaliser avec de nombreux vérificateurs de données humains professionnels, car cela est important pour obtenir des résultats corrects.

    Les chercheurs affirment que SAFE est 20 fois moins cher que les vérificateurs de faits humains. SAFE a également été utilisé sur de nombreux autres modèles tels que ChatGPT, Gemini, Claude, etc. afin de vérifier si ces modèles comportent des erreurs factuelles. Les résultats ont montré que les modèles les plus importants comportaient moins d'erreurs factuelles. Mais certains des meilleurs modèles ont également généré de fausses affirmations, ce qui montre qu'on ne devrait pas trop se fier à ces modèles pour obtenir des informations factuelles. SAFE a permis d'identifier ces fausses affirmations.

    Le code SAFE a été ouvert sur GitHub. Les autres chercheurs peuvent utiliser ce code pour vérifier leurs travaux et trouver les erreurs qu'ils ont commises sur certains faits. SAFE a encore un long chemin à parcourir et il lui reste encore beaucoup de travail à faire pour rivaliser avec les humains.

    Présentation de SAFE

    L'étude a examiné comment évaluer de manière approfondie les faits de forme longue dans les grands modèles de langage. Cette méthode, appellée SAFE, utilise un grand modèle de langage activé par la recherche pour diviser une réponse longue en faits individuels, réviser les faits individuels pour qu'ils soient autonomes, déterminer la pertinence de chaque fait individuel pour répondre à l'invite, et vérifier la factualité de chaque fait pertinent en lançant des requêtes Google Search.

    L'étude a démontré que SAFE atteint des performances remarquable en étant en accord avec 72 % des annotations humaines et en gagnant 76 % des exemples sur un ensemble de 100 cas de désaccord échantillonnés de manière aléatoire. Il a été également montré que SAFE est 20 fois moins cher que les annotateurs humains issus du crowdsourcing. De plus, comparé à treize modèles issus de quatre familles de modèles (Gemini, GPT, Claude, PaLM-2) sur LongFact et il a été constaté que les modèles de langage plus importants présentaient généralement une meilleure factualité sur le long terme.

    Nom : 1.png
Affichages : 1062
Taille : 51,6 Ko

    Les recherches futures dans ce domaine peuvent explorer un large éventail de directions. Tout d'abord, l'une des principales pistes à explorer est la manière d'améliorer la factualité de la forme longue d'un modèle linguistique par le biais d'un meilleur pré-entraînement/réglage ou en l'enrichissant par l'utilisation d'outils externes. Il existe également des domaines d'amélioration pour SAFE en termes de dépendance à l'égard des agents de modèles linguistiques basés sur la recherche.

    En outre, l'étude porte sur la factualité (c'est-à-dire l'exactitude des faits par rapport à la connaissance du monde), et il n'est donc pas encore clair comment mesurer de manière fiable l'hallucination (c'est-à-dire l'exactitude des faits par rapport à la connaissance interne d'un modèle) dans des contextes de longue durée. Grâce au benchmark, l'étude veut démontrer comment des méthodes fiables d'obtention d'ensembles de données, d'évaluation de modèles et d'agrégation de métriques peuvent améliorer de manière significative la compréhension des capacités des modèles dans des contextes de longue durée.


    Long-form factuality in large language models

    Résumé

    Les grands modèles de langage (LLM) génèrent souvent un contenu qui contient des erreurs factuelles lorsqu'ils répondent à des invites de recherche de faits sur des sujets ouverts. Pour évaluer la factualité d'un modèle dans des domaines ouverts, nous utilisons d'abord GPT-4 pour générer LongFact (des faits de forme longue), un ensemble de questions comprenant des milliers de questions couvrant 38 sujets. Nous proposons ensuite que les agents LLM soient utilisés comme évaluateurs automatisés des faits de forme longue par le biais d'une méthode que nous appelons Search-Augmented Factuality Evaluator (SAFE).

    SAFE utilise un LLM pour décomposer une réponse longue en un ensemble de faits individuels et pour évaluer l'exactitude de chaque fait à l'aide d'un processus de raisonnement en plusieurs étapes comprenant l'envoi de requêtes de recherche à Google Search et la détermination de l'appui d'un fait par les résultats de la recherche. En outre, nous proposons d'étendre le score F1 en tant que mesure agrégée des faits de forme longue . Pour ce faire, nous équilibrons le pourcentage de faits étayés dans une réponse (précision) avec le pourcentage de faits fournis par rapport à un hyperparamètre représentant la longueur de réponse préférée de l'utilisateur (rappel).

    Empiriquement, nous démontrons que les agents LLM peuvent atteindre des performances d'évaluation surhumaines - sur un ensemble de ∼16 000 faits individuels, SAFE est en accord avec les annotateurs humains 72 % du temps, et sur un sous-ensemble aléatoire de 100 cas de désaccord, SAFE gagne 76 % du temps. Dans le même temps, SAFE est plus de 20 fois moins cher que les annotateurs humains. Nous comparons également treize modèles de langage sur LongFact dans quatre familles de modèles (Gemini, GPT, Claude et PaLM-2), et nous constatons que les modèles de langage de grande taille permettent généralement d'obtenir une meilleure factualité sur le long terme. LongFact, SAFE et l'ensemble du code expérimental sont disponibles.
    Source : "Long-form factuality in large language models" (Google DeepMind)

    Et vous ?

    Pensez-vous que cette étude est crédible ou pertinente ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    Google DeepMind vient de publier une liste de niveaux d'AGI et définir des niveaux de performance. Elle suggère des principes tels que se focaliser sur les capacités plutôt que sur les mécanismes

    L'hallucination est inévitable et serait une limitation innée des grands modèles de langage en intelligence artificielle, selon une étude sur la possibilité d'éliminer les hallucinations des LLM

    Les grands modèles de langage sont en état d'ébriété, selon Mattsi Jansky, développeur de logiciels, il présente l'envers du decor des LLM, dans un billet de blog
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  2. #2
    Membre extrêmement actif
    Homme Profil pro
    Graphic Programmer
    Inscrit en
    Mars 2006
    Messages
    1 545
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Graphic Programmer
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Mars 2006
    Messages : 1 545
    Points : 3 941
    Points
    3 941
    Par défaut
    avec des sources d'information fabriquée par des ia ca va etre freestyle..

  3. #3
    Futur Membre du Club
    Homme Profil pro
    Étudiant
    Inscrit en
    Octobre 2022
    Messages
    11
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Doubs (Franche Comté)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Octobre 2022
    Messages : 11
    Points : 9
    Points
    9
    Par défaut
    Bonsoir, au risque de paraitre un peu "noob", j'aimerais pouvoir partager les articles sur l'IA via un flux RSS.
    Mais le problème c'est que : je ne trouve pas l'onglet du flux rss de l'article même ( donc du coup est ce que c'est possible de le partager) et si non qui dois-je contacter pour pouvoir les partager?

Discussions similaires

  1. Réponses: 0
    Dernier message: 21/10/2017, 23h15
  2. Google lance un nouveau type d’annonce sur Gmail
    Par Wilfried INDAT dans le forum Actualités
    Réponses: 0
    Dernier message: 03/09/2015, 03h05
  3. Google lance son nouveau routeur Wi-Fi à usage domestique
    Par Stéphane le calme dans le forum Hardware
    Réponses: 14
    Dernier message: 21/08/2015, 20h04
  4. Android : Google lance un nouveau portail
    Par Hinault Romaric dans le forum Android
    Réponses: 2
    Dernier message: 14/01/2012, 15h26

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo