L'IA est déjà à court de données d'entraînement et les mines d'informations inexploitées des entreprises pourraient être le dernier espoir
selon le responsable des données chez Goldman Sachs
L'industrie de l'IA est confrontée à une pénurie critique de données d'entraînement de haute qualité. La raréfaction des données crée un goulot d'étranglement pour les progrès des grands modèles de langages (LLM). Elle induit également une dépendance accrue à l'égard des données synthétiques. Ce qui risque de submerger les modèles avec des résultats de mauvaise qualité, et influencer les futurs systèmes d'IA. Mais pour l'instant, les entreprises possèdent encore de vastes quantités de données propriétaires inexploitées, ce qui constitue une ressource importante pour le développement de l'IA en entreprise malgré la pénurie mondiale de données.
Les experts prédisent une pénurie de données de haute qualité depuis quelques années. Neema Raphael, responsable des données chez Goldman Sachs, est récemment revenu sur le problème, affirmant que l'industrie est déjà à court de données d'entraînement. Les grandes entreprises d’IA ont déjà épuisé « la majeure partie » des données humaines accessibles publiquement (textes, images, vidéos, conversations) utilisées pour entraîner leurs modèles.
« Nous sommes déjà à court de données », a déclaré Neema Raphael dans un épisode du podcast « Exchanges » de la banque publié le 30 septembre 2025. Neema Raphael a ajouté que cette pénurie de données d'entraînement pourrait déjà influencer la manière dont les nouveaux systèmes d'IA sont conçus.
Il a cité l'exemple chinois DeepSeek, affirmant qu'une hypothèse concernant ses coûts de développement supposés provenait de l'entraînement sur les résultats de modèles existants plutôt que sur des données entièrement nouvelles. La technique utilisée par DeepSeek est appelée la « distillation ». Elle consiste à transférer les connaissances d'un grand modèle à un modèle plus petit. DeepSeek a distillé des connaissances à partir des modèles d'OpenAI.
Les Big Tech désapprouvent cette technique. OpenAI a accusé DeepSeek de récolter indûment des données de son API à des fins de distillation de modèles. « Je pense que ce qui sera vraiment intéressant, c'est de voir comment les modèles précédents façonneront la prochaine itération du monde », a déclaré Neema Raphael.
Le recours aux données synthétiques : un risque d'effondrement du modèle
Le Web étant saturé, les développeurs se tournent vers les données synthétiques, c'est-à-dire les textes, images et codes générés par des machines. Cette approche offre un approvisionnement illimité. L'un des risques est l'effondrement du modèle, c'est-à-dire la dégradation des performances d'un système d'IA une fois qu'il a été entraîné sur ses propres données générées précédemment, ce qui conduit à la perte des nuances apprises précédemment.
En d'autres termes, l'utilisation de données d'entraînement synthétiques risque de submerger les modèles avec des résultats de mauvaise qualité ou des erreurs d'IA ; les erreurs s'accumulent et s'amplifient à chaque nouvelle génération. Le modèle finit par s'effondrer complètement après plusieurs générations.
Ses commentaires rejoignent d'autres avertissements similaires, notamment celui lancé en début d'année par Ilya Sutskever, cofondateur d'OpenAI. Il a suggéré que « l'ère du développement rapide de l'IA pourrait sans aucun doute prendre fin » une fois que toutes les données utiles en ligne auront été consommées.
Dans une étude publiée en 2024 dans Nature, des chercheurs de l'Université d'Oxford et de Cambridge ont mis en garde contre le risque d'effondrement des modèles d'IA lorsqu'ils sont formés sur des données générées par d'autres modèles. Les chercheurs ont souligné que l'utilisation sans discernement de contenus générés par l'IA entraîne des défauts irréversibles, qui ont une incidence sur les performances et l'équité de la prédiction des modèles.
Cependant, lorsqu'on a demandé à Neema Raphael si cela pourrait freiner, voire torpiller, le potentiel inexploité des développements à venir en matière d'IA, tels que les agents autonomes, le cadre de Goldman Sachs a répondu qu'il ne pense pas que cela constituerait un obstacle aux progrès futurs.
Les données propriétaires des entreprises : prochaine frontière de l'IA ?
Neema Raphael a déclaré qu'il ne pense pas que le manque de données de qualité constituerait une contrainte majeure, en partie parce que les entreprises disposent de réserves d'informations inexploitées. « D'un point de vue consommateur, il est intéressant de constater que nous assistons à une véritable explosion synthétique des données. Mais d'un point de vue entrepreneurial, il y a encore beaucoup à exploiter dans ce domaine », a-t-il expliqué.
Cela signifie que la véritable frontière n'est peut-être pas le Web ouvert, mais les ensembles de données propriétaires détenus par les entreprises. Des flux commerciaux aux interactions avec les clients, des entreprises comme Goldman Sachs disposent d'informations qui pourraient rendre les outils d'IA beaucoup plus précieux si elles étaient exploitées correctement. Selon Goldman Sachs, la quantité d'informations qui se trouve derrière les pare-feu des entreprises et piégée dans les référentiels de données est très importante pour « générer de la valeur commerciale ».
Cependant, cet optimisme doit être tempéré par des conclusions récentes selon lesquelles les entreprises américaines ont déjà investi jusqu'à 40 milliards de dollars dans des initiatives d'IA générative, sans résultat tangible ; que les agents d'IA autonomes se trompent la plupart du temps dans les tâches de bureau ; et que les systèmes d'IA ont besoin d'êtres humains pour les surveiller et corriger les erreurs qui se glissent dans leurs productions.
Par ailleurs, Neema Raphael a souligné que pour les entreprises, l'obstacle ne consiste pas seulement à trouver davantage de données, mais aussi à s'assurer que ces données sont exploitables. « Le défi consiste à comprendre les données, à comprendre le contexte commercial dans lequel elles s'inscrivent, puis à être capable de les normaliser d'une manière qui permette à l'entreprise de les exploiter de manière pertinente », a déclaré Neema Raphael.
L’émergence des modèles de monde : la clé de l'avenir de l'IA générative ?
Les progrès dans les grands modèles de langage (LLM) semblent ralentir. Les écarts de performances entre les derniers LLM du marché sont à peine remarquables malgré les sommes colossales englouties dans leur développement. Alors les entreprises commencent à se tourner vers une nouvelle une technologie dite « modèle de monde ». Les modèles de monde visent à naviguer dans le monde physique en apprenant à partir de vidéos et de données robotiques.
Le PDG de Google, Sundar Pichai, a prévenu en décembre 2024 que le développement de l'IA va commencer à ralentir. « Je pense que les progrès vont devenir plus difficiles, les fruits à portée de main ont disparu », a déclaré Sundar Pichai lors de l'événement The New York Times Dealbook. Les progrès en matière de performances ont considérablement ralenti depuis, suggérant que le développement de grands modèles de langage a atteint un plafond.
Bien que certains acteurs du secteur, à l'instar du PDG de Nvidia, Jensen Huang, rejettent l'idée selon laquelle l'IA générative se heurte à un mur, le reste de l'industrie est déjà la recherche de la clé du prochain grand bond en avant de l'IA. La solution pourrait résider dans ce qu'ils appellent « modèles de monde ».
Les « modèles de monde » sont conçus pour comprendre et simuler la réalité au-delà du texte. Ils s’appuient sur des données visuelles, physiques et interactives pour prédire comment un environnement évolue, comment des objets se déplacent ou comment des agents interagissent. Selon les experts du secteur, cela ouvre la voie à des applications dans la robotique, les véhicules autonomes, les jeux vidéo ou encore la simulation scientifique.
Les défis clés à relever et les perspectives de l'industrie de l'IA
Yann LeCun, considéré comme l'un des « parrains » de l'IA moderne, est l'un des plus fervents défenseurs de l'architecture des modèles de monde. Yann LeCun est un chercheur français en intelligence artificielle et vision artificielle. Lauréat du prestigieux prix Turing en 2019, Yann LeCun est le scientifique en chef du laboratoire Fair de Meta. Il avertit depuis longtemps que les LLM ne parviendront jamais à raisonner et à planifier comme les humains.
Mais des défis restent à relever. La construction des modèles de monde demande d’énormes volumes de données vidéo et de simulation. Ces données sont coûteuses à collecter et traiter. L'entraînement de ces modèles exige une puissance de calcul encore plus importante que pour les LLM. De plus, il reste difficile de mesurer la véritable compréhension d’un modèle du monde réel, car les tests en simulation ne reflètent pas toujours les performances en conditions concrètes.
Le champ d'application potentiel de cette technologie de pointe est vaste. Les modèles de monde ouvrent la possibilité de servir toutes ces autres industries et d'amplifier ce que les ordinateurs ont fait pour le travail intellectuel. Yann LeCun et d'autres partisans de ces modèles affirment que cette vision d'une nouvelle génération de systèmes d'IA dotant les machines d'une intelligence équivalente à celle des humains pourrait prendre 10 ans à se concrétiser.
Conclusion
L'IA est gourmande en données. Tous les aspects de la technologie - modèles d'apprentissage automatique, apprentissage continu, généralisation et analyses prédictives et descriptives - nécessitent de vastes ensembles de données d'entraînement. Plus les données sont diverses et complètes, plus le système d'IA est performant. C'est pourquoi les données sont souvent considérées comme le « carburant d'entraînement » de l'IA.
La raréfaction des données de qualité remet en question le modèle de croissance actuel de l’IA, fondé sur l’accès massif à des données disponibles gratuitement sur le Web. Elle suggère que les prochaines avancées ne viendront plus du simple élargissement des ensembles de données, mais de méthodes d’entraînement plus efficaces, d’un usage plus sélectif de la donnée et d’une valorisation des sources exclusives détenues par les entreprises.
Alors que les progrès des LLM ralentissent, les entreprises d'IA investissent massivement dans les « modèles de monde » capables de comprendre les environnements humains et simuler la réalité au-delà du texte. Selon les entreprises spécialisées dans l'IA et les partisans de cette approche, les modèles de monde sont à même d'acquérir une intelligence pratique et de mieux comprendre les environnements humains.
Et vous ?
Quel est votre avis sur le sujet ?
Voir aussi
Les modèles d'IA s'effondrent lorsqu'ils sont formés sur des données générées récursivement, si bien qu'il sera plus difficile de former les futurs LLM, car ils seront empoisonnés par le contenu créé par l'IA
Les entreprises d'IA sont-elles à court de données pour entraîner leurs modèles après avoir englouti l'ensemble de l'Internet ? Un rapport alerte sur une potentielle pénurie de données
Des chercheurs ont créé un équivalent open source au modèle de « raisonnement » o1 d'OpenAI pour moins de 50 $, en utilisant la méthode controversée de « distillation » désapprouvée par certains Big Tech







Quel est votre avis sur le sujet ?
Répondre avec citation







et sa boule de Crystal que l'IA est ce qu'elle est
.


que ces IAs. Les jeunes
ne seront plus formés pour être des développeurs, mais des "prompteurs"
, et au final plus personne n'aura les compétences pour "valider" ce que produit l'IA. L'IA, c'est très "court-termisme". Mais un jour viendra où il faudra payer la note. C'est une question de temps...
Désolé, c'était plus fort que moi. Ce n'est pas en répétant 1000x une chose qu'elle devient vraie. Il faut séparer le problème pour mieux comprendre. 
Partager