IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

L'industrie de l'IA est confrontée à une pénurie critique de données d'entraînement de haute qualité


Sujet :

Intelligence artificielle

  1. #1
    Chroniqueur Actualités

    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Juin 2023
    Messages
    1 594
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Bénin

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 594
    Par défaut L'industrie de l'IA est confrontée à une pénurie critique de données d'entraînement de haute qualité
    L'IA est déjà à court de données d'entraînement et les mines d'informations inexploitées des entreprises pourraient être le dernier espoir
    selon le responsable des données chez Goldman Sachs

    L'industrie de l'IA est confrontée à une pénurie critique de données d'entraînement de haute qualité. La raréfaction des données crée un goulot d'étranglement pour les progrès des grands modèles de langages (LLM). Elle induit également une dépendance accrue à l'égard des données synthétiques. Ce qui risque de submerger les modèles avec des résultats de mauvaise qualité, et influencer les futurs systèmes d'IA. Mais pour l'instant, les entreprises possèdent encore de vastes quantités de données propriétaires inexploitées, ce qui constitue une ressource importante pour le développement de l'IA en entreprise malgré la pénurie mondiale de données.

    Les experts prédisent une pénurie de données de haute qualité depuis quelques années. Neema Raphael, responsable des données chez Goldman Sachs, est récemment revenu sur le problème, affirmant que l'industrie est déjà à court de données d'entraînement. Les grandes entreprises d’IA ont déjà épuisé « la majeure partie » des données humaines accessibles publiquement (textes, images, vidéos, conversations) utilisées pour entraîner leurs modèles.

    « Nous sommes déjà à court de données », a déclaré Neema Raphael dans un épisode du podcast « Exchanges » de la banque publié le 30 septembre 2025. Neema Raphael a ajouté que cette pénurie de données d'entraînement pourrait déjà influencer la manière dont les nouveaux systèmes d'IA sont conçus.

    Il a cité l'exemple chinois DeepSeek, affirmant qu'une hypothèse concernant ses coûts de développement supposés provenait de l'entraînement sur les résultats de modèles existants plutôt que sur des données entièrement nouvelles. La technique utilisée par DeepSeek est appelée la « distillation ». Elle consiste à transférer les connaissances d'un grand modèle à un modèle plus petit. DeepSeek a distillé des connaissances à partir des modèles d'OpenAI.

    Les Big Tech désapprouvent cette technique. OpenAI a accusé DeepSeek de récolter indûment des données de son API à des fins de distillation de modèles. « Je pense que ce qui sera vraiment intéressant, c'est de voir comment les modèles précédents façonneront la prochaine itération du monde », a déclaré Neema Raphael.

    Le recours aux données synthétiques : un risque d'effondrement du modèle

    Le Web étant saturé, les développeurs se tournent vers les données synthétiques, c'est-à-dire les textes, images et codes générés par des machines. Cette approche offre un approvisionnement illimité. L'un des risques est l'effondrement du modèle, c'est-à-dire la dégradation des performances d'un système d'IA une fois qu'il a été entraîné sur ses propres données générées précédemment, ce qui conduit à la perte des nuances apprises précédemment.


    En d'autres termes, l'utilisation de données d'entraînement synthétiques risque de submerger les modèles avec des résultats de mauvaise qualité ou des erreurs d'IA ; les erreurs s'accumulent et s'amplifient à chaque nouvelle génération. Le modèle finit par s'effondrer complètement après plusieurs générations.

    Ses commentaires rejoignent d'autres avertissements similaires, notamment celui lancé en début d'année par Ilya Sutskever, cofondateur d'OpenAI. Il a suggéré que « l'ère du développement rapide de l'IA pourrait sans aucun doute prendre fin » une fois que toutes les données utiles en ligne auront été consommées.

    Dans une étude publiée en 2024 dans Nature, des chercheurs de l'Université d'Oxford et de Cambridge ont mis en garde contre le risque d'effondrement des modèles d'IA lorsqu'ils sont formés sur des données générées par d'autres modèles. Les chercheurs ont souligné que l'utilisation sans discernement de contenus générés par l'IA entraîne des défauts irréversibles, qui ont une incidence sur les performances et l'équité de la prédiction des modèles.

    Cependant, lorsqu'on a demandé à Neema Raphael si cela pourrait freiner, voire torpiller, le potentiel inexploité des développements à venir en matière d'IA, tels que les agents autonomes, le cadre de Goldman Sachs a répondu qu'il ne pense pas que cela constituerait un obstacle aux progrès futurs.

    Les données propriétaires des entreprises : prochaine frontière de l'IA ?

    Neema Raphael a déclaré qu'il ne pense pas que le manque de données de qualité constituerait une contrainte majeure, en partie parce que les entreprises disposent de réserves d'informations inexploitées. « D'un point de vue consommateur, il est intéressant de constater que nous assistons à une véritable explosion synthétique des données. Mais d'un point de vue entrepreneurial, il y a encore beaucoup à exploiter dans ce domaine », a-t-il expliqué.

    Cela signifie que la véritable frontière n'est peut-être pas le Web ouvert, mais les ensembles de données propriétaires détenus par les entreprises. Des flux commerciaux aux interactions avec les clients, des entreprises comme Goldman Sachs disposent d'informations qui pourraient rendre les outils d'IA beaucoup plus précieux si elles étaient exploitées correctement. Selon Goldman Sachs, la quantité d'informations qui se trouve derrière les pare-feu des entreprises et piégée dans les référentiels de données est très importante pour « générer de la valeur commerciale ».

    Cependant, cet optimisme doit être tempéré par des conclusions récentes selon lesquelles les entreprises américaines ont déjà investi jusqu'à 40 milliards de dollars dans des initiatives d'IA générative, sans résultat tangible ; que les agents d'IA autonomes se trompent la plupart du temps dans les tâches de bureau ; et que les systèmes d'IA ont besoin d'êtres humains pour les surveiller et corriger les erreurs qui se glissent dans leurs productions.

    Par ailleurs, Neema Raphael a souligné que pour les entreprises, l'obstacle ne consiste pas seulement à trouver davantage de données, mais aussi à s'assurer que ces données sont exploitables. « Le défi consiste à comprendre les données, à comprendre le contexte commercial dans lequel elles s'inscrivent, puis à être capable de les normaliser d'une manière qui permette à l'entreprise de les exploiter de manière pertinente », a déclaré Neema Raphael.

    L’émergence des modèles de monde : la clé de l'avenir de l'IA générative ?

    Les progrès dans les grands modèles de langage (LLM) semblent ralentir. Les écarts de performances entre les derniers LLM du marché sont à peine remarquables malgré les sommes colossales englouties dans leur développement. Alors les entreprises commencent à se tourner vers une nouvelle une technologie dite « modèle de monde ». Les modèles de monde visent à naviguer dans le monde physique en apprenant à partir de vidéos et de données robotiques.

    Le PDG de Google, Sundar Pichai, a prévenu en décembre 2024 que le développement de l'IA va commencer à ralentir. « Je pense que les progrès vont devenir plus difficiles, les fruits à portée de main ont disparu », a déclaré Sundar Pichai lors de l'événement The New York Times Dealbook. Les progrès en matière de performances ont considérablement ralenti depuis, suggérant que le développement de grands modèles de langage a atteint un plafond.

    Bien que certains acteurs du secteur, à l'instar du PDG de Nvidia, Jensen Huang, rejettent l'idée selon laquelle l'IA générative se heurte à un mur, le reste de l'industrie est déjà la recherche de la clé du prochain grand bond en avant de l'IA. La solution pourrait résider dans ce qu'ils appellent « modèles de monde ».

    Les « modèles de monde » sont conçus pour comprendre et simuler la réalité au-delà du texte. Ils s’appuient sur des données visuelles, physiques et interactives pour prédire comment un environnement évolue, comment des objets se déplacent ou comment des agents interagissent. Selon les experts du secteur, cela ouvre la voie à des applications dans la robotique, les véhicules autonomes, les jeux vidéo ou encore la simulation scientifique.

    Les défis clés à relever et les perspectives de l'industrie de l'IA

    Yann LeCun, considéré comme l'un des « parrains » de l'IA moderne, est l'un des plus fervents défenseurs de l'architecture des modèles de monde. Yann LeCun est un chercheur français en intelligence artificielle et vision artificielle. Lauréat du prestigieux prix Turing en 2019, Yann LeCun est le scientifique en chef du laboratoire Fair de Meta. Il avertit depuis longtemps que les LLM ne parviendront jamais à raisonner et à planifier comme les humains.

    Mais des défis restent à relever. La construction des modèles de monde demande d’énormes volumes de données vidéo et de simulation. Ces données sont coûteuses à collecter et traiter. L'entraînement de ces modèles exige une puissance de calcul encore plus importante que pour les LLM. De plus, il reste difficile de mesurer la véritable compréhension d’un modèle du monde réel, car les tests en simulation ne reflètent pas toujours les performances en conditions concrètes.

    Le champ d'application potentiel de cette technologie de pointe est vaste. Les modèles de monde ouvrent la possibilité de servir toutes ces autres industries et d'amplifier ce que les ordinateurs ont fait pour le travail intellectuel. Yann LeCun et d'autres partisans de ces modèles affirment que cette vision d'une nouvelle génération de systèmes d'IA dotant les machines d'une intelligence équivalente à celle des humains pourrait prendre 10 ans à se concrétiser.

    Conclusion

    L'IA est gourmande en données. Tous les aspects de la technologie - modèles d'apprentissage automatique, apprentissage continu, généralisation et analyses prédictives et descriptives - nécessitent de vastes ensembles de données d'entraînement. Plus les données sont diverses et complètes, plus le système d'IA est performant. C'est pourquoi les données sont souvent considérées comme le « carburant d'entraînement » de l'IA.

    La raréfaction des données de qualité remet en question le modèle de croissance actuel de l’IA, fondé sur l’accès massif à des données disponibles gratuitement sur le Web. Elle suggère que les prochaines avancées ne viendront plus du simple élargissement des ensembles de données, mais de méthodes d’entraînement plus efficaces, d’un usage plus sélectif de la donnée et d’une valorisation des sources exclusives détenues par les entreprises.

    Alors que les progrès des LLM ralentissent, les entreprises d'IA investissent massivement dans les « modèles de monde » capables de comprendre les environnements humains et simuler la réalité au-delà du texte. Selon les entreprises spécialisées dans l'IA et les partisans de cette approche, les modèles de monde sont à même d'acquérir une intelligence pratique et de mieux comprendre les environnements humains.

    Et vous ?

    Quel est votre avis sur le sujet ?

    Voir aussi

    Les modèles d'IA s'effondrent lorsqu'ils sont formés sur des données générées récursivement, si bien qu'il sera plus difficile de former les futurs LLM, car ils seront empoisonnés par le contenu créé par l'IA

    Les entreprises d'IA sont-elles à court de données pour entraîner leurs modèles après avoir englouti l'ensemble de l'Internet ? Un rapport alerte sur une potentielle pénurie de données

    Des chercheurs ont créé un équivalent open source au modèle de « raisonnement » o1 d'OpenAI pour moins de 50 $, en utilisant la méthode controversée de « distillation » désapprouvée par certains Big Tech

  2. #2
    Membre confirmé
    Homme Profil pro
    Développeur en systèmes embarqués
    Inscrit en
    Mai 2015
    Messages
    461
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 54
    Localisation : Belgique

    Informations professionnelles :
    Activité : Développeur en systèmes embarqués

    Informations forums :
    Inscription : Mai 2015
    Messages : 461
    Par défaut Cela dit tout...


    Citation Envoyé par Mathis Lucas Voir le message
    Le Web étant saturé, les développeurs se tournent vers les données synthétiques, c'est-à-dire les textes, images et codes générés par des machines. Cette approche offre un approvisionnement illimité. L'un des risques est l'effondrement du modèle, c'est-à-dire la dégradation des performances d'un système d'IA une fois qu'il a été entraîné sur ses propres données générées précédemment, ce qui conduit à la perte des nuances apprises précédemment.
    Ce seul paragraphe résume tout, c'est la preuve que l'IA est un cul de sac. Si les réponses de l'IA se détériorent au fur et à mesure qu'elle ingurgite des données générées par elle-même, cela prouve bien que ce qu'elle produit n'est pas vraiment de "bonne qualité". Game Over.

    BàV et Peace & Love

  3. #3
    Membre actif
    Profil pro
    Inscrit en
    Novembre 2003
    Messages
    156
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2003
    Messages : 156
    Par défaut
    L'humanité produit chaque seconde une quantité astronomique de données, que ce soit des messages, des emails, des appels téléphoniques, des photographies, des vidéos...
    Par exemple Google ne sera jamais en pénurie, vu que rien que par l'intermédiaire du téléphone ils ont accès à toute votre vie 24 h sur 24.

  4. #4
    Membre prolifique
    Avatar de Ryu2000
    Homme Profil pro
    Étudiant
    Inscrit en
    Décembre 2008
    Messages
    10 509
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 37
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Décembre 2008
    Messages : 10 509
    Par défaut
    Citation Envoyé par OuftiBoy Voir le message
    cela prouve bien que ce qu'elle produit n'est pas vraiment de "bonne qualité".
    Pour l'instant.
    Les entreprises qui font de l'IA, disent que si les investisseurs continuent de leur donner des milliards, dans 20, 30 ans, l'IA sera un outil très performant.
    Y'en a beaucoup qui veulent jouer, parce que si l'IA devient vraiment rentable un jour, ils gagneront de l'argent.

    Bon après c'est une bulle, donc beaucoup vont faire faillite et les survivants vont se dégonfler un peu.
    C'est comme si tu regardes le cours de l'action Cisco depuis le début, un moment ça monte, un moment ça chute et après ça remonte.
    En 2001 ça revient au niveau de 1998, mais entre les 2 il y a un pic.

    Citation Envoyé par jnspunk Voir le message
    vu que rien que par l'intermédiaire du téléphone ils ont accès à toute votre vie 24 h sur 24.
    Il y a aussi des histoires de Gmail, de Google Docs, etc.

    La fille qui travaille sur sa thèse de doctorat va un jour l'envoyer à un professeur ou je ne sais quoi via son compte Gmail et Google aura sa thèse.

  5. #5
    Membre confirmé
    Homme Profil pro
    Développeur en systèmes embarqués
    Inscrit en
    Mai 2015
    Messages
    461
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 54
    Localisation : Belgique

    Informations professionnelles :
    Activité : Développeur en systèmes embarqués

    Informations forums :
    Inscription : Mai 2015
    Messages : 461
    Par défaut En voilà une bonne solution...
    jnspunk,

    Citation Envoyé par jnspunk Voir le message
    L'humanité produit chaque seconde une quantité astronomique de données, que ce soit des messages, des emails, des appels téléphoniques, des photographies, des vidéos... Par exemple Google ne sera jamais en pénurie, vu que rien que par l'intermédiaire du téléphone ils ont accès à toute votre vie 24 h sur 24.
    Cette quantité astronomique de données, prisent sans recul, sans validation, sans contexte, ne me semble pas être une base pour améliorer les choses . C'est justement a cause de ses données prises volées, et la manière dont elles sont traitées par Madame IrmA et sa boule de Crystal que l'IA est ce qu'elle est .

    Les seules IA qui apportent un "réel" plus, c'est par exemple le traitement d'images, validées, comparées, et analysées par des spécialistes (je pense ici à l'imagerie médicale). On peut nommer cela de l'IA, c'est à la mode, mais c'est quelque chose totalement à l'opposer d'une IA.

    Si on parle de code, c'est une hérésie totale. Le métier de développeur est difficile justement parce qu'il doit réfléchir à ce qu'il fait, sur base d'une "demande" qu'il faut souvent "repréciser". Un programme doit vivre, il a un historique, il évolue, il a un contexte, il change, s'adapte, s'améliore grâce à des développeurs. Comment savoir, si une "future" IA pourra faire cela sur le long terme ? Sera-t-il toujours là, ceux qui l'on produite seront-ils toujours là ?

    Tant qu'il y a des humains, il y aura des développeurs, les "IA" peuvent disparaitre, et leur code doit pouvoir être "compris" par un développeur, ne fussent que pour "valider" ce code. Sinon, c'est pour le moins audacieux...

    Peu de "création" auront fait autant de mal à l'humain que ces IAs. Les jeunes ne seront plus formés pour être des développeurs, mais des "prompteurs" , et au final plus personne n'aura les compétences pour "valider" ce que produit l'IA. L'IA, c'est très "court-termisme". Mais un jour viendra où il faudra payer la note. C'est une question de temps...

    BàV et Peace & Love.

  6. #6
    Membre confirmé
    Homme Profil pro
    Développeur en systèmes embarqués
    Inscrit en
    Mai 2015
    Messages
    461
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 54
    Localisation : Belgique

    Informations professionnelles :
    Activité : Développeur en systèmes embarqués

    Informations forums :
    Inscription : Mai 2015
    Messages : 461
    Par défaut Je ne pense pas...
    Citation Envoyé par Ryu2000 Voir le message
    Pour l'instant.
    Je ne vois rien qui puissent améliorer la situation, et je ne suis pas devin.

    Citation Envoyé par Ryu2000 Voir le message
    Les entreprises qui font de l'IA, disent que si les investisseurs continuent de leur donner des milliards, dans 20, 30 ans, l'IA sera un outil très performant. Y'en a beaucoup qui veulent jouer, parce que si l'IA devient vraiment rentable un jour, ils gagneront de l'argent.
    Quand j'étais jeune, vers 7 ou 8 ans au milieux des 70's, on me promettait des "voitures volantes" pour l'an 2000. Il y'a 10 ans, un gars (quizz, qui ?) nous promettait des "voitures autonomes" pour dans 12 mois. Dans les années 70, des investisseurs ont cru à des "avions renifleurs", etc

    Citation Envoyé par Ryu2000 Voir le message
    Bon après c'est une bulle, donc beaucoup vont faire faillite et les survivants vont se dégonfler un peu.
    Oui, c'est une bulle, mais qui lorsqu'elle éclatera, aura un effet domino désastreux pour l'économie en générale, bien pire que celle des ".com" début 2000, d'après certains "spécialistes"...

    Citation Envoyé par Ryu2000 Voir le message
    C'est comme si tu regardes le cours de l'action Cisco depuis le début, un moment ça monte, un moment ça chute et après ça remonte. En 2001 ça revient au niveau de 1998, mais entre les 2 il y a un pic.
    Quel est le rapport ?

    Citation Envoyé par Ryu2000 Voir le message
    Il y a aussi des histoires de Gmail, de Google Docs, etc. La fille qui travaille sur sa thèse de doctorat va un jour l'envoyer à un professeur ou je ne sais quoi via son compte Gmail et Google aura sa thèse.
    Et qui va dire si cette thèse est valable, dans quel contexte, elle est peut-être complètement bidon ou fausse cette thèse, l'IA va-t-elle la prendre pour argent comptant ?

    BàT et Peace & Love.

  7. #7
    Membre prolifique
    Avatar de Ryu2000
    Homme Profil pro
    Étudiant
    Inscrit en
    Décembre 2008
    Messages
    10 509
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 37
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Décembre 2008
    Messages : 10 509
    Par défaut
    Citation Envoyé par OuftiBoy Voir le message
    Je ne vois rien qui puissent améliorer la situation
    Il n'y a qu'a attendre et regarder.
    Est-ce que Chat GPT, Mistral, Deepseek, Grok, Gemini, vont disparaitre dans un futur proche ?

    Les gars ont l'air d'y croire, donc ils ont peut-être raison.

    Citation Envoyé par OuftiBoy Voir le message
    des "voitures autonomes" pour dans 12 mois.
    C'est du "fake it until you make it" complétement standard.
    Il faut attendre 4, 5 ans et voir les progrès. (si Tesla ne meurt pas d'ici là)
    Pour l'instant l'autopilot est une aide à la conduite et ça fonctionne bien, les gens ne doivent pas laisser la voiture se conduire toute seule.

    Citation Envoyé par OuftiBoy Voir le message
    Quel est le rapport ?
    Les cours des actions des entreprises qui font de l'IA et qui survivront à l'éclatement de la bulle vont baisser.

    Citation Envoyé par OuftiBoy Voir le message
    Et qui va dire si cette thèse est valable
    Elle fera le peer review elle même
    Ou sinon elle attend que la thèse soit publié pour voir les commentaires des scientifiques.

    Bon là c'est pas le meilleur exemple, il aurait fallu trouver un scénario avec des données secrète.

    Je vais essayer de faire une analogie, entre les outils comme Grok aujourd'hui et Pro Tools en 1991.
    Au tout début des stations audionumérique (digital audio workstation) une bonne partie de l'industrie musicale trouvait que c'était de la merde, ça ralentissait tout le processus.
    Donc des gars de l'industrie se disaient "ça ne fonctionnera jamais, on va continuer avec les bandes magnétiques". (voir le documentaire Sound City)

    Et ben aujourd'hui les stations audionumérique sont très bien (Cubase, Ableton Live, etc).
    Il faudra revenir dans 34 ans pour voir si Grok existe toujours et si oui, est-ce qu'il est performant ?

  8. #8
    Membre confirmé
    Homme Profil pro
    Développeur en systèmes embarqués
    Inscrit en
    Mai 2015
    Messages
    461
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 54
    Localisation : Belgique

    Informations professionnelles :
    Activité : Développeur en systèmes embarqués

    Informations forums :
    Inscription : Mai 2015
    Messages : 461
    Par défaut Heu...
    Ryu2000,

    Citation Envoyé par Ryu2000 Voir le message
    Il n'y a qu'a attendre et regarder.
    Est-ce que Chat GPT, Mistral, Deepseek, Grok, Gemini, vont disparaitre dans un futur proche ?
    Les gars ont l'air d'y croire, donc ils ont peut-être raison.
    Un peu comme Macron ? Désolé, c'était plus fort que moi. Ce n'est pas en répétant 1000x une chose qu'elle devient vraie. Il faut séparer le problème pour mieux comprendre.

    1./ Les investisseurs: Certains s'y retrouveront peut-être, et s'il en ont les moyens, vont continuer a alimenter la bête. Si la "bête" trouve un créneaux où elle est va rapporter. Peut-être même que cette "bête" ne se nommera plus IA lorsque ce moment arrivera. Il y en a toujours qui tirent les marrons du feu...

    2./ L'IA en elle-même, avec les limites actuelles, peut être utile dans certains domaines. Mais cela ne sera pas la révolution sur vendue actuellement.

    Citation Envoyé par Ryu2000 Voir le message
    C'est du "fake it until you make it" complétement standard. Il faut attendre 4, 5 ans et voir les progrès. (si Tesla ne meurt pas d'ici là). Pour l'instant l'autopilot est une aide à la conduite et ça fonctionne bien, les gens ne doivent pas laisser la voiture se conduire toute seule.
    Les aides à la conduite vont très certainement progresser, mais le "gars" il a dit 10x l'année prochaine (pour une voiture autonome de niveau 5), toi du dis dans 5 ans. Moi j'en sais rien, juste que ce n'est pas le cas maintenant. Alors oui, peut-être, qui sait. Après-tout, attendons les voitures autonomes-volantes-flottantes-taxi-partagées...

    Citation Envoyé par Ryu2000 Voir le message
    Les cours des actions des entreprises qui font de l'IA et qui survivront à l'éclatement de la bulle vont baisser.
    Je n'en sais rien, je ne suis pas économiste. Je sais juste qu'une bulle finit toujours par éclater. C'est son destin.

    Citation Envoyé par Ryu2000 Voir le message
    Elle fera le peer review elle même
    Ou sinon elle attend que la thèse soit publié pour voir les commentaires des scientifiques.
    Elle n'a pas le temps d'attendre notre amie l'IA, pour que la bulle n'éclate pas, elle doit continuer a grossir.
    Même des "études" bidons sont validées (l'histoire arrivée à Lancet n'est pas si vieille).
    Et je doute que quelques milliers de thèses en plus change quelque chose au problème.

    Citation Envoyé par Ryu2000 Voir le message
    Bon là c'est pas le meilleur exemple, il aurait fallu trouver un scénario avec des données secrète.
    Des données "secrète"... Il me semble que cela ne "match" pas trop avec les termes validés, certifiées. Sauf chez Boeing, et on voit le résultat...

    Citation Envoyé par Ryu2000 Voir le message
    Je vais essayer de faire une analogie, entre les outils comme Grok aujourd'hui et Pro Tools en 1991. Au tout début des stations audionumérique (digital audio workstation) une bonne partie de l'industrie musicale trouvait que c'était de la merde, ça ralentissait tout le processus. Donc des gars de l'industrie se disaient "ça ne fonctionnera jamais, on va continuer avec les bandes magnétiques". (voir le documentaire Sound City)

    Et ben aujourd'hui les stations audionumérique sont très bien (Cubase, Ableton Live, etc).
    Il faudra revenir dans 34 ans pour voir si Grok existe toujours et si oui, est-ce qu'il est performant ?
    Dans 34 ans, je ne serais plus là, où au mieux dans le même état que Biden

    Et puis, il y a une question plus philosophique derrière ce brol nommé actuellement IA. On veut une IA "plus intelligente" que l'homme, mais cette IA est créée par des hommes. L'homme a rarement créé quelque chose de plus grand que lui. Il découvre, il cherche, il explore, il expérimente, il réfléchit. La "science", c'est des expériences reproductibles acceptées, jusqu'au prochain Génie (1 ou 2 par siècles, et dans certains domaines) qui va tout remettre en cause.

    Actuellement, l'IA ne fait que de "chercher", non pas a innover, mes a trouver dans sa base de donnée "immense" (mais trop petite) une réponse correspondant plus ou moins à une question.

    Allez, à dans 5 ans ou 34 ans

    BàT et Peace & Love.

  9. #9
    Membre éprouvé
    Profil pro
    programmeur du dimanche
    Inscrit en
    Novembre 2003
    Messages
    1 034
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : programmeur du dimanche
    Secteur : Santé

    Informations forums :
    Inscription : Novembre 2003
    Messages : 1 034
    Par défaut
    Citation Envoyé par OuftiBoy Voir le message
    ...
    Actuellement, l'IA ne fait que de "chercher", non pas a innover, mes a trouver dans sa base de donnée "immense" (mais trop petite) une réponse correspondant plus ou moins à une question.
    ...
    Salut, petite remarque parce que c'est dvlp.com, il vaut mieux ne pas utiliser le mot "base de données" car les modèles de langage n'en n'ont pas et ne font pas de recherche. Leurs paramètres ont été calculés à partir des données d'entrée.
    ça semble ergoter, mais c'est une différence qui explique que les hallucinations sont consubstantielles au concept. Si le modèle sur-apprend les données, il ne sera capable que de travailler sur ces données, si il sous apprend, il n'arrive à rien. Entre les 2, on espère qu'il arrive à généraliser quelque chose à des nouvelles données. Les hallu, ce sont juste quelque chose qu'il a généralisé, mais qui ne correspond pas à quelque chose de réel.

  10. #10
    Membre confirmé
    Homme Profil pro
    Développeur en systèmes embarqués
    Inscrit en
    Mai 2015
    Messages
    461
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 54
    Localisation : Belgique

    Informations professionnelles :
    Activité : Développeur en systèmes embarqués

    Informations forums :
    Inscription : Mai 2015
    Messages : 461
    Par défaut Oui, LLM != BDD
    Fagus,

    Citation Envoyé par Fagus Voir le message
    Salut, petite remarque parce que c'est dvlp.com, il vaut mieux ne pas utiliser le mot "base de données" car les modèles de langage n'en n'ont pas et ne font pas de recherche. Leurs paramètres ont été calculés à partir des données d'entrée.
    Je suis bien d'accord, disons que c'est un "abus de langage" de ma part. LLM c'est une masse de donnée non validées, et une BDD est un "subset" d'informations validées (si la BDD est correctement alimentée, on est bien d'accord).

    Citation Envoyé par Fagus Voir le message
    ça semble ergoter, mais c'est une différence qui explique que les hallucinations sont consubstantielles au concept. Si le modèle sur-apprend les données, il ne sera capable que de travailler sur ces données, si il sous apprend, il n'arrive à rien. Entre les 2, on espère qu'il arrive à généraliser quelque chose à des nouvelles données. Les hallu, ce sont juste quelque chose qu'il a généralisé, mais qui ne correspond pas à quelque chose de réel.
    Là aussi, je suis d'accord, une BDD "n'hallucine pas", elle donne un résultat si elle "comporte" l''extrait" qu'on lui demande, là où une AI (LLM) donne une réponse même si cette réponse est fausse. Elle pourrait dire qu'elle ne sait pas, mais non, elle "Hallucine" et donne une réponse soit "approximative", soit "très approximative", soit "complètement fausse", sans s'en rendre compte. Elle n'est pas capable de juger si la réponse qu'elle donne est bonne ou pas, elle n'est pas capable de s'interroger sur la réponse qu'elle donne. On devrait pouvoir lui dire que cette réponse est incorrecte, et elle devrait pourrait pouvoir l'intégrer, mais la masse de donnée sur laquelle il faudrait "corriger" la réponse de l'IA, rend cela possible. Il faudrait de plus être certain que la correction donnée est faite par un spécialiste du domaine, ce qui est également impossible.

    C'est pour cela que j'ai du mal a comprendre l'avantage d'une AIG (LLM). Une IA qui donne un résultat fiable ne peut le faire que parce que les données qu'on lui a soumisse ont été validées par des spécialistes du domaine. Même dans ce cas, (tous comme l'humain), elle peut se tromper, mais bien plus rarement (par exemple dans le cas d'imagerie médicales), et sa réponse est évaluée par le spécialiste qui lui a posé une question.

    BàV et Peace & Love.

Discussions similaires

  1. Réponses: 27
    Dernier message: 03/07/2023, 10h12
  2. Réponses: 0
    Dernier message: 25/06/2021, 21h02
  3. Est-ce une erreur de considérer la POO comme standard de l'industrie pour l'organisation des bases de code ?
    Par Patrick Ruiz dans le forum Débats sur le développement - Le Best Of
    Réponses: 124
    Dernier message: 19/11/2019, 12h38
  4. Réponses: 4
    Dernier message: 10/12/2018, 14h18
  5. Réponses: 14
    Dernier message: 17/03/2003, 19h31

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo