IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Des chercheurs affirment qu'un modèle d'IA s'effondre lorsqu'il est entraîné sur du contenu généré par l'IA


Sujet :

Intelligence artificielle

  1. #1
    Chroniqueur Actualités

    Homme Profil pro
    Dirigeant
    Inscrit en
    Juin 2016
    Messages
    3 160
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Bénin

    Informations professionnelles :
    Activité : Dirigeant
    Secteur : Aéronautique - Marine - Espace - Armement

    Informations forums :
    Inscription : Juin 2016
    Messages : 3 160
    Points : 66 298
    Points
    66 298
    Par défaut Des chercheurs affirment qu'un modèle d'IA s'effondre lorsqu'il est entraîné sur du contenu généré par l'IA
    Des chercheurs mettent en garde contre un "effondrement du modèle" lorsque l'IA s'entraîne sur du contenu généré par l'IA
    ils affirment que cela pourrait à terme éloigner l'IA de la réalité

    L'IA générative est tellement avide de données qu'elle a déjà commencé à consommer le matériel qu'elle a elle-même généré. Mais un groupe de chercheurs a mis en garde contre cet état de choses dans un rapport d'étude publié récemment. Les chercheurs, issus de différentes universités du Royaume-Uni et du Canada, affirment que cet ouroboros de l'IA pourrait très mal se terminer. Selon eux, en raison des innombrables problèmes liés à l'IA générative, en particulier le problème de l'hallucination, l'utilisation par l'IA de ses propres données comme matériel d'entraînement est susceptible de créer un processus dégénératif qui pourrait totalement éloigner l'IA de la réalité.

    Les algorithmes d'IA générative ont besoin d'énormes quantités de données de formation pour effectuer des tâches, car ils combinent le contenu qu'ils connaissent déjà, ce qui se fait principalement par l'annotation des données. Les données d'entraînement des modèles de langage tels que ChatGPT, Stable Diffusion et Midjourney proviennent initialement de sources humaines (livres, articles, photographies…). Mais aujourd'hui, alors que de plus en plus de personnes utilisent l'IA pour produire et publier du contenu, l'on craint que le contenu généré par l'IA devienne omniprésent sur le Web et se confonde avec les données provenant de sources humaines.

    Ainsi, une question évidente se pose : que se passerait-il si le contenu généré par l'IA prolifère sur Internet et que les modèles d'IA commençaient à s'entraîner sur ce contenu, plutôt que sur le contenu généré par l'homme ? Un groupe de chercheurs du Royaume-Uni et du Canada s'est penché sur ce problème et a récemment publié un article sur ses travaux dans la revue en libre accès arXiv. Ce qu'ils ont découvert semble inquiétant pour la technologie actuelle de l'IA générative et son avenir : « nous constatons que l'utilisation d'un contenu généré par un modèle d'IA dans la formation entraîne des défauts irréversibles dans les modèles qui en résultent ».


    Le rapport d'étude, intitulé "The Curse of Recursion : Training on Generated Data Makes Models Forget", le groupe de chercheurs a lancé une mise en garde contre ce qu'il a appelé "l'effondrement du modèle". Ils décrivent cela comme un processus dégénératif par lequel, au fil du temps, les modèles oublient la véritable distribution sous-jacente des données. Autrement dit, les contenus générés par l'IA et publiés en ligne pourraient être réintroduits dans les modèles d'IA, ce qui entraînerait des distorsions et des inexactitudes. Selon eux, ce processus est inévitable, même dans les cas où les conditions d'apprentissage à long terme sont presque idéales.

    « Au fil du temps, les erreurs dans les données générées s'accumulent et finissent par forcer les modèles qui apprennent à partir des données générées à percevoir la réalité de manière encore plus erronée. Nous avons été surpris d'observer la rapidité avec lequel l'effondrement du modèle se produit : les modèles peuvent rapidement oublier la plupart des données originales à partir desquelles ils ont appris », a écrit l'un des principaux auteurs de l'étude, Ilia Shumailov, dans un courriel adressé à VentureBeat. Shumailov a expliqué que lorsqu'un modèle d'IA est exposé à davantage de données générées par l'IA, ses performances se dégradent.

    Et il produit davantage d'erreurs dans les réponses et le contenu qu'il génère. Un autre des auteurs de l'article, Ross Anderson, professeur d'ingénierie de la sécurité à l'université de Cambridge et à l'université d'Édimbourg, a écrit dans un billet de blogue consacré : « tout comme nous avons jonché les océans de déchets plastiques et rempli l'atmosphère de dioxyde de carbone, nous sommes sur le point de remplir Internet de bla-bla. Il sera donc plus difficile de former de nouveaux modèles en exploitant le Web, ce qui donnera un avantage aux entreprises qui le font déjà ou qui contrôlent l'accès aux interfaces humaines à grande échelle ».

    « En effet, nous voyons déjà des startups spécialisées dans l'IA s'attaquer à l'Internet Archive pour obtenir des données d'entraînement », a-t-il ajouté. Une autre façon de voir le problème est de le comparer au film de science-fiction Multiplicity (1996) avec Michael Keaton, dans lequel un homme humble se clone lui-même, puis clone les clones, chacun d'entre eux entraînant une diminution exponentielle des niveaux d'intelligence et une augmentation de la stupidité. Il existe déjà des cas où des modèles ont été formés sur des données générées par l'IA. Par exemple, des modèles sont intentionnellement formés sur les données générées par GPT-4.

    De même, DeviantArt, la plateforme d'IA en ligne pour les artistes, permet de publier des œuvres d'art créées par l'IA et de les utiliser comme données d'entraînement pour de nouveaux modèles d'IA. Tout comme la tentative de copier ou de cloner indéfiniment quelque chose, le rapport indique que ces pratiques pourraient conduire à un plus grand nombre de cas d'effondrement du modèle. Compte tenu des graves implications de l'effondrement des modèles, l'accès à la distribution des données d'origine est essentiel. Les modèles d'IA ont besoin de données réelles, produites par l'homme, pour comprendre et simuler notre monde avec précision.

    Alors, comment prévenir l'effondrement du modèle ? Selon le document de recherche, l'effondrement du modèle a deux causes principales. La première est l'"erreur d'approximation statistique", liée au nombre limité d'échantillons de données. La seconde est l'"erreur d'approximation fonctionnelle", qui découle du fait que la marge d'erreur utilisée lors de l'apprentissage de l'IA n'est pas correctement configurée. Ces erreurs peuvent s'accumuler au fil des générations, provoquant un effet en cascade d'inexactitudes croissantes. L'article publié par les chercheurs présente un "avantage du premier arrivé" pour la formation des modèles d'IA.

    Si l'on peut conserver l'accès à la source originale de données générées par l'homme, l'on peut éviter un changement de distribution préjudiciable et, par conséquent, l'effondrement du modèle. Distinguer le contenu généré par l'IA à grande échelle est toutefois un défi de taille, qui pourrait nécessiter une coordination à l'échelle de la communauté. L'état actuel du Web inquiète déjà les experts, y compris son créateur Tim Berners-Lee. Mais les nouveaux outils d'IA d'aide à la rédaction de contenu, tel que le nouvel assistant Jetpack AI de WordPress, risquent de dégrader davantage l'état du Web, avec de fausses informations générées par l'IA.

    En fin de compte, l'importance de l'intégrité des données et l'influence de l'information humaine sur l'IA ne valent que ce que valent les données dont elles sont issues, et l'explosion du contenu généré par l'IA pourrait finir par être une arme à double tranchant pour l'industrie. C'est le principe du "garbage in, garbage out" (GIGO) - l'IA basée sur le contenu de l'IA conduira à un grand nombre de machines "très intelligentes, mais délirantes".

    Sources : rapport de l'étude, billet de blogue

    Et vous ?

    Quel est votre avis sur le sujet ?
    Que pensez-vous des conclusions de l'étude ?
    Comment peut-on prévenir le phénomène décrit par les chercheurs ?

    Voir aussi

    WordPress pourra bientôt générer des articles et des blogues entiers grâce à un nouvel outil piloté par l'IA, mais les critiques craignent que l'outil dégrade davantage l'état du Web

    OpenAI propose aux développeurs d'importantes mises à jour pour ses modèles d'IA et réduit les coûts d'accès à ses API, afin de faire face à l'émergence des modèles d'IA concurrents Bard et Claude

    Un rédacteur de contenu a confié que tous ses clients l'ont remplacé par ChatGPT : « ça m'a anéanti ». Les craintes de voir l'IA générative conduire à un chômage généralisé s'amplifient

  2. #2
    Membre émérite
    Inscrit en
    Janvier 2006
    Messages
    726
    Détails du profil
    Informations forums :
    Inscription : Janvier 2006
    Messages : 726
    Points : 2 746
    Points
    2 746
    Par défaut Problème connu
    Le problème se pose déjà depuis quelques années dans le domaine de la traduction automatique.

    Au début des années 2000 les systèmes de traduction statistiques ont été une vraie révolution (les recherches avaient commencé un peu avant mais c'est Google qui a vraiment popularisé le concept)
    Plus tard DeepL a prouvé l'importance de s'assurer de la qualité des données d'entraînement (en fait ils utilisent le même algorithme mais ont pris soin de nettoyer les traductions avant entraînement, là où Google avait tout misé sur la quantité plutôt que la qualité)
    Et maintenant de plus en plus d'utilisateurs croient améliorer le modèle en fournissant des données d'entraînement issues du moteur de traduction automatique, ce qui a pour effet inverse de renforcer les cas d'erreur initialement peu nombreux.

    Au final c'est comme une étoile qui s'effondre sous son propre poids...

Discussions similaires

  1. Réponses: 8
    Dernier message: 05/04/2022, 19h37
  2. Réponses: 0
    Dernier message: 11/06/2020, 22h39
  3. Réponses: 17
    Dernier message: 11/03/2020, 16h22
  4. Réponses: 522
    Dernier message: 16/10/2018, 15h47
  5. Réponses: 0
    Dernier message: 29/11/2017, 11h59

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo