IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

  1. #121
    Membre éprouvé
    Avatar de calvaire
    Homme Profil pro
    .
    Inscrit en
    Octobre 2019
    Messages
    2 429
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 43
    Localisation : Singapour

    Informations professionnelles :
    Activité : .
    Secteur : Conseil

    Informations forums :
    Inscription : Octobre 2019
    Messages : 2 429
    Par défaut
    Citation Envoyé par floyer Voir le message
    Mais ce n’est pas nouveau, la révolte des Canuts, le remplacement de la standardiste du 22 à Asnière ou du poinçonneur des Lilas sont des précédents où l’automatisation supprime des emplois.
    Avec le recul, on peut affirmer que la disparition de ces métiers fut une bonne chose. Qui, en 2026, aurait vraiment envie de devenir Canut et de filer la soie ?
    Qui voudrait être standardiste à répondre à des dizaines d’appels répétitifs et chiants, ou poinçonneur des Lilas coincé dans une cabine glaciale à vérifier des tickets toute la journée  ?


    Citation Envoyé par floyer Voir le message
    La principale nouveauté est de toucher des professions Bac+5.
    C’est faux de dire que la nouveauté est de toucher des professions Bac+5, dans les années 1970 les métiers d’analyste et de programmeur informatique ont commencé à être impactés par l’arrivée des premiers logiciels de calcul automatique et des mainframes. ce sont des postes nécessitant un haut niveau d’études, mais ils ont vu certaines tâches répétitives disparaître. Cela montre que l’automatisation n’a jamais été limitée aux métiers peu qualifiés.
    Ou l'’introduction de machines automatisées pour les analyses sanguines ou biochimiques années 80-90 a réduit le rôle manuel des techniciens de laboratoire. Ces postes nécessitaient un niveau Bac+2 à Bac+5 selon la spécialisation, mais des tâches répétitives ont été supprimées, ce qui montre que l’automatisation n’a jamais été réservée aux "métiers peu qualifiés".

    Finalement, es ce intéressant de pisser du code ? pas vraiment je trouve. Le vrai rôle d’un ingénieur, c’est de matérialiser les stratégies business et marketing en produits ou services à forte valeur ajoutée.
    Jusqu’à aujourd'hui apprendre le code et coder était le moyen de le faire, mais avec l'ia on est aujourd'hui dans de l'hybride, mais le but reste le même.
    La France est un pays qui redistribue tout sauf de l'espoir.

  2. #122
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    10 073
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 10 073
    Par défaut Créateur de PUBG : les LLM se nourrissent de leurs propres déchets et entraînent le web dans une spirale
    Le créateur de PUBG tire la sonnette d'alarme : les LLM se nourrissent de leurs propres déchets et entraînent le web dans une spirale de dégradation sans fond,
    l'IA générative risque de rendre internet de moins en moins fiable

    Brendan Greene, père du genre battle royale avec PlayerUnknown's Battlegrounds, brise le silence sur l'intelligence artificielle générative. Dans une interview, le développeur irlandais dresse un constat sévère : le contenu produit par les grands modèles de langage (LLM) est en train de corrompre l'internet dans une boucle de rétroaction dont personne ne semble mesurer véritablement les conséquences. Derrière la formule-choc « une course vers le fond », se cache un problème scientifique documenté qui préoccupe jusqu'aux chercheurs de Nature et Harvard : le « model collapse », ou effondrement des modèles.

    « Comment faire confiance à quelque chose qui vous dit de vérifier ses propres réponses ? »

    La déclaration de Brendan Greene arrive dans un contexte de débat croissant sur la fiabilité des systèmes d'IA générative. Interrogé par le journaliste Joshua Wolens de PC Gamer sur l'avenir du calcul local face à la tendance généralisée vers le cloud, Greene a dévié sur un sujet qui lui tient manifestement à cœur. Son point de départ est le non-déterminisme des LLM : « comment faire confiance à quelque chose qui vous dit en bas de page de vérifier toutes les réponses qu'il vous donne ? Parce que ça peut halluciner, et ça hallucine », déclare-t-il.

    Le créateur de PUBG ne s'arrête pas là. Il pointe du doigt une statistique qu'il juge alarmante : environ 20 % des interactions en ligne seraient désormais artificielles, et la quantité d'informations générées par des LLM serait « vertigineusement élevée ». Ces chiffres, difficiles à vérifier avec précision dans leur totalité, reflètent néanmoins une tendance documentée. Des données issues de trackers spécialisés indiquent que 74,2 % des pages web nouvellement créées contenaient une partie de texte généré par IA en avril 2025, et que la proportion de pages rédigées par IA dans les vingt premiers résultats Google est passée de 11 % à près de 20 % entre mai 2024 et juillet 2025.

    Nom : brendan.png
Affichages : 26895
Taille : 305,1 Ko

    La boucle infernale : quand l'IA se nourrit de ses propres déchets

    C'est là que le propos de Greene prend toute sa dimension technique. Il décrit la situation comme « une boucle auto-alimentée » : les LLM ingèrent ce contenu de mauvaise qualité, qui devient alors « vérité », ce qui ressemble selon lui à « une course vers le fond ». L'expression peut paraître provocatrice, mais elle recouvre un phénomène bien réel que les chercheurs nomment model collapse (l'effondrement des modèles).

    Une étude publiée dans Nature a démontré que l'entraînement de modèles d'IA générative sur des données réelles et générées de façon indiscriminée, pratique courante via le scraping du web, conduit à un effondrement de leur capacité à produire des résultats diversifiés et de qualité. Autrement dit, plus les modèles consomment leur propre production, moins ils sont capables d'originalité ou de précision.

    La Harvard Journal of Law & Technology explique le mécanisme par une analogie parlante : c'est similaire à photocopier une photocopie plusieurs fois: chaque itération dégrade un peu plus le signal d'origine. Les chercheurs y soulignent également une conséquence économique structurelle : les données non contaminées, collectées avant la généralisation de l'IA générative en 2022, pourraient devenir un actif stratégique, creusant un fossé entre les acteurs déjà établis (qui les possèdent) et les nouveaux entrants.

    Le problème est encore plus préoccupant qu'il n'y paraît. Des travaux présentés à l'ICLR 2025 ont établi qu'une proportion infime de données synthétiques dans un corpus d'entraînement (aussi faible qu'un sur mille) peut suffire à provoquer un effondrement des performances, et que des modèles plus grands amplifient ce phénomène plutôt qu'ils ne le résolvent. La promesse que l'augmentation d'échelle (scaling) résout tous les problèmes se heurte ici à un mur.

    « Le scaling ne résoudra pas le problème de l'intelligence »

    Greene s'attaque directement à ce dogme du secteur. Il dénonce l'absurdité d'exploiter des centres de données alimentés aux turbines à gaz ou au méthane uniquement pour obtenir plus de puissance de calcul, en affirmant que « le scaling ne résoudra pas le problème de l'intelligence ». Une prise de position directement dirigée vers l'obsession de l'industrie pour l'AGI (l'Intelligence Artificielle Générale), ce Graal perpétuellement annoncé à deux ans d'échéance, et perpétuellement repoussé.

    Pour lui, les LLM actuels ne sont que « des modèles statistiques qui donnent le mot suivant », des outils certes utiles dans des domaines spécifiques, mais qui ne « scalent pas » lorsqu'on tente d'en faire des services généraux via des surcouches et des GPT. Sa conclusion sur l'AGI est tranchée : nous n'y sommes pas près.

    Ce constat rejoint une inquiétude plus large documentée en février 2026. Un article paru dans les Communications of the ACM a observé que l'effondrement des modèles n'est plus un risque théorique mais un phénomène déjà présent dans des systèmes en production, avec des dégradations mesurées dans des outils commerciaux, comme un suppresseur de fond qui a commencé à échouer sur certaines textures de cheveux, ou des générateurs d'images produisant des résultats de plus en plus homogènes.

    Nom : high.png
Affichages : 3044
Taille : 143,1 Ko

    La distinction que Greene tient à préserver : ML versus IA générative

    Habile communicant, Greene prend soin de ne pas se laisser enfermer dans une posture anti-IA globale. Son studio PlayerUnknown Productions, basé à Amsterdam et actuellement en développement sur le jeu de survie Prologue: Go Wayback, utilise bel et bien des techniques d'apprentissage automatique, mais dans un cadre radicalement différent.

    Il insiste sur le fait que son usage est « très spécifique au domaine » : appliqués à un ensemble de données restreint et maîtrisé, les modèles sont efficaces, peu sujets aux hallucinations, et surtout déterministes. C'est la condition sine qua non à ses yeux. Ce qui l'agace, en revanche, c'est la confusion entretenue entre apprentissage automatique ciblé et IA générative grand public : Apple a parlé de ML pendant des années sans déclencher de réactions, puis dès que le mot « IA » a été prononcé, tout le monde s'est mis à s'enflammer alors que c'est le même champ, et que ça exploite les mêmes mécanismes, ironise-t-il.

    Cette position tranche avec celle de Krafton, l'éditeur coréen qui détient encore PUBG et une participation minoritaire dans PlayerUnknown Productions, et qui a adopté une stratégie délibérément « AI-first », allant jusqu'à proposer des départs volontaires à ses équipes. Greene, lui, a fermement réaffirmé l'indépendance de son studio vis-à-vis des orientations stratégiques de son investisseur.

    La décentralisation comme réponse ?

    Fidèle à sa vision à long terme de mondes virtuels planétaires et d'une informatique distribuée, Greene réaffirme sa conviction que l'avenir passe par le calcul local plutôt que par des mega data centers. Il s'inquiète notamment des expulsions de résidents causées par l'implantation forcée de ces infrastructures en Géorgie, et estime que la puissance de calcul à grande échelle ne peut pas reposer uniquement sur des serveurs centralisés.

    Cette position rejoint un débat plus large sur la soutenabilité écologique et sociale du modèle d'IA générative dominant. Pendant que les grands acteurs se livrent à une course aux armements computationnels, la qualité intrinsèque du web (ce vaste corpus sur lequel repose toute l'économie de l'entraînement des LLM) se dégrade. Et si personne ne protège activement la donnée humaine originale, le résultat risque d'être une « spirale entropique » où les erreurs se cumulent et où les modèles produisent des résultats de plus en plus incohérents, répétitifs ou incorrects.

    Le paradoxe est cruel : l'industrie de l'IA déploie des ressources colossales pour produire toujours plus de contenu, qui finit par empoisonner les données nécessaires à son propre développement futur. Brendan Greene n'est pas chercheur, mais sa métaphore de la « course vers le fond » a le mérite de nommer le phénomène avec une clarté que beaucoup de communiqués de presse corporate évitent soigneusement.

    Sources : interview de Brendan Greene, étude publiée dans Nature sur le model colapse, Harvard Journal of Law & Technology , OpenReview

    Et vous ?

    La donnée humaine est-elle vouée à devenir une ressource rare ? Si les contenus générés par IA contaminent progressivement le web, les corpus pré-2022 pourraient devenir des actifs stratégiques que seules les grandes entreprises déjà établies contrôlent, creusant encore davantage les inégalités dans la course à l'IA.

    Le calcul local est-il une réponse réaliste à la crise des LLM centralisés ? Greene milite pour une informatique distribuée et déterministe. Mais à l'heure où les modèles les plus performants nécessitent des dizaines de milliers de GPU, cette vision est-elle techniquement atteignable à court terme ?

    Peut-on réguler la production de contenu IA avant que la boucle ne devienne irréversible ? Des mécanismes comme le filigranage (watermarking) ou le marquage de provenance des données sont évoqués, mais aucune norme contraignante n'existe encore. Qui devrait imposer ces règles ? Les États, les plateformes, les développeurs de modèles ?

    La distinction entre ML spécialisé et IA générative est-elle comprise du grand public ? Greene déplore que son usage ciblé de l'apprentissage automatique soit amalgamé avec le tout-venant de l'IA générative. Comment l'industrie peut-elle rétablir une distinction claire sans perdre ceux qui ne font pas la différence entre ChatGPT et un algorithme de recommandation ?

    Voir aussi :

    L'IA est en train de tuer le Web. Elle ruine le trafic et le modèle économique des sites Web, tout en transformant la toile en une immense base de contenus recyclés par des machines sans originalité

    Cloudflare exige que Google modifie la façon dont ses outils IA explorent le web : « Nous obtiendrons de Google un moyen de bloquer les IA Overviews sans bloquer l'indexation de la recherche classique »

    SocialAI : la «théorie de l'Internet mort» prend vie avec l'app de médias sociaux alimentée par l'IA, suggérant que la majorité des activités sociales en ligne sont artificielles et manipulent les utilisateurs

    DuckDuckGo dit stop à l'invasion des images générées par IA dans les résultats de recherche en introduisant une fonctionnalité permettant de les masquer : une petite option, un grand signal pour le web
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  3. #123
    Membre émérite Avatar de stigma
    Homme Profil pro
    Créateur jeux vidéo
    Inscrit en
    Octobre 2003
    Messages
    1 153
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 75
    Localisation : France, Pas de Calais (Nord Pas de Calais)

    Informations professionnelles :
    Activité : Créateur jeux vidéo
    Secteur : Arts - Culture

    Informations forums :
    Inscription : Octobre 2003
    Messages : 1 153
    Par défaut
    j'utilise l'IA pour des aides à la programmation mais elle fait de plus en plus d'erreurs.
    Les automates n'ont pas de bug, Kate Walker. Juste des coquetteries de fonctionnement. (Oscar)

    Omanah https://store.steampowered.com/app/3662180/Omanah/

  4. #124
    Membre extrêmement actif
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Octobre 2017
    Messages
    2 772
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Suisse

    Informations professionnelles :
    Activité : Développeur informatique

    Informations forums :
    Inscription : Octobre 2017
    Messages : 2 772
    Par défaut
    Dans une interview, le développeur irlandais dresse un constat sévère : le contenu produit par les grands modèles de langage (LLM) est en train de corrompre l'internet dans une boucle de rétroaction dont personne ne semble mesurer véritablement les conséquences.
    Nous avons un bel exemple avec youtube: Les vidéo IA complètement délirantes sont en train d'envahir la plateforme...

    Vous avez un doute sur l'origine IA de la video? Le plus souvent vous allez avoir un agent IA qui se fait passer pour l'auteur de la video qui répond aux commentaires des internautes et la réponse prend toujours la même forme: Quelque soit la position de l'internaute, l'IA le remercie et lui dit qu'il a raison

    Exemple réel sur youtube:

    Commentaire d'un internaute sur une video IA présentant un évènement historique : "Cette video est nulle et ne correspond pas du tout à la réalité historique"

    Diverses réponses de l'IA répondant aux commentaires critiques des internautes (Attention, il s'agit de vraies réponses de l'IA sur youtube!):

    "Je vois ce que vous voulez dire. Mon objectif reste de raconter les mecanismes historiques et les lecons humaines, et je suis partant pour en discuter sous l angle des faits et du contexte." (on remarquera que l'IA a des problèmes à gérer les accents de la langue française: mécanisme, leçon, l'angle? Et l'apostrophe entre le "l" et "angle", l'IA connait pas?)

    "Votre témoignage apporte un éclairage humain intéressant. Ces perceptions sociales et nationales aident aussi à comprendre certains choix historiques."

    "Votre précision est pertinente. Les chiffres et la terminologie font encore débat selon les sources, et le format impose parfois des simplifications qu’il est important de discuter."

    "Merci pour cette précision. Tu as raison de souligner le terrain réel et son importance stratégique, qui est parfois simplifié dans les représentations visuelles."

    "Merci, bonne observation. Les noms et appellations changent selon les sources et les époques, donc ça mérite d’être expliqué plus proprement. Je vais faire plus attention à la formulation."

  5. #125
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    10 073
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 10 073
    Par défaut Un tiers des nouveaux sites web sont créés par l'IA, selon une étude de Stanford et l'Internet Archive
    Un tiers des nouveaux sites web sont créés par l'IA : Stanford et l'Internet Archive mesurent pour la première fois l'ampleur réelle de la colonisation algorithmique du web,
    la « théorie de l'Internet mort » reçoit un début de validation empirique

    Une étude menée par des chercheurs de Stanford, d'Imperial College London et de l'Internet Archive révèle qu'en l'espace de trois ans à peine, l'intelligence artificielle générative a colonisé près du tiers des nouvelles pages web publiées dans le monde. Derrière les chiffres, une transformation silencieuse mais radicale du tissu même du web; plus uniforme, plus positif, et peut-être moins humain.

    La vitesse à laquelle le phénomène s'est installé laisse les chercheurs eux-mêmes perplexes. Des chercheurs travaillant avec les données de l'Internet Archive ont découvert qu'un tiers des sites web créés depuis 2022 sont générés par l'IA. Plus précisément, à mi-2025, environ 35 % des sites web nouvellement publiés étaient classifiés comme entièrement ou partiellement générés par l'IA, contre zéro avant le lancement de ChatGPT fin 2022.

    L'étude, intitulée The Impact of AI-Generated Text on the Internet (littéralement L'impact des textes générés par l'IA sur Internet), est signée par Jonas Doležal (Imperial College London), Sawood Alam et Mark Graham (Internet Archive), et Maty Bohacek (Stanford University). Elle s'appuie sur un corpus massif de pages web archivées sur une période de 33 mois, entre août 2022 et mai 2025, extraites via l'API du Wayback Machine.

    Pour Doležal, la rapidité du basculement a quelque chose de vertigineux : « Je trouve la rapidité de cette prise de contrôle de l'IA sur le web tout à fait stupéfiante. Après des décennies durant lesquelles les humains l'ont façonné, une part significative d'internet est devenue définie par l'IA en à peine trois ans. Nous assistons, selon moi, à une transformation majeure du paysage numérique en une fraction du temps qu'il a fallu pour le construire. »

    Méthodologie : détecter le signal dans le bruit

    L'un des défis majeurs de cette recherche était technique : comment identifier de manière fiable un contenu généré par l'IA au sein d'un corpus représentatif du web ? Les chercheurs ont expérimenté quatre méthodes de détection (Binoculars, Desklib, DivEye et Pangram v3) sélectionnées sur la base de leur performance sur le benchmark RAID, et ont procédé à leurs propres vérifications de robustesse selon la longueur du texte, le format HTML ou texte brut, la famille de modèle et la langue. C'est finalement Pangram v3 qui s'est imposé comme le détecteur le plus fiable.

    La constitution de l'échantillon elle-même posait problème : construire un échantillon statistiquement représentatif du web est difficile, car il n'existe pas d'index central et les domaines populaires sont surreprésentés dans la plupart des explorations automatisées. Les chercheurs ont contourné cela en s'appuyant sur le Wayback Machine et en appliquant une approche d'échantillonnage stratifié multidimensionnel, visant à approximer un tirage aléatoire uniforme parmi les pages web publiquement accessibles publiées entre 2022 et 2025.

    Nom : fully.png
Affichages : 6952
Taille : 50,7 Ko

    Six hypothèses à l'épreuve des faits

    La véritable originalité de cette étude ne réside pas tant dans la mesure brute du taux de contenus IA que dans la mise à l'épreuve systématique de six grandes théories concernant les effets de cette contamination. Les chercheurs ont testé si la prolifération de l'IA engendrait : une contraction sémantique (appauvrissement de la diversité des idées), une dégradation de la vérité factuelle, une dérive vers un ton uniformément positif et lissé, un tarissement des liens vers des sources externes, une dilution de l'entropie informationnelle (contenus plus longs mais moins denses), et enfin une monoculture stylistique effaçant les voix individuelles. Résultat : seules deux de ces six hypothèses sont confirmées par les données.

    La contraction sémantique est réelle. Les sites web générés par l'IA affichaient une similarité sémantique 33 % plus élevée que les sites écrits par des humains (0,0701 contre 0,0526). En d'autres termes, les textes produits par les modèles de langage se ressemblent davantage entre eux et tendent à appauvrir le spectre des idées exprimées en ligne, même si les chercheurs prennent soin de distinguer cela d'une monoculture stylistique stricte, qui, elle, n'est pas confirmée statistiquement.

    La dérive vers le positivisme est tout aussi marquante. Les sites générés par l'IA affichaient des scores de sentiment positif 107 % plus élevés que les sites non-IA (0,7042 contre 0,3400). L'internet devient, sous l'influence de l'IA, un espace structurellement plus enjoué, plus lisse, débarrassé des aspérités, des controverses, des tons acides qui caractérisent souvent l'écriture humaine authentique.

    Ce qui ne se confirme pas : les surprises de la recherche

    La principale surprise de l'étude est l'absence de confirmation empirique pour ce que les chercheurs appellent le « Truth Decay », l'hypothèse que l'IA alimenterait une recrudescence de fausses informations et d'hallucinations sur le web. Aucune corrélation statistiquement significative n'a été trouvée entre le taux de contenu IA et le taux d'erreurs factuelles vérifiables. Les chercheurs ont pourtant mobilisé des vérificateurs humains rémunérés pour valider des affirmations factuelles extraites des sites analysés.

    Doležal nuance cependant ce résultat rassurant : « Le résultat le plus surprenant était que notre hypothèse de dégradation de la vérité n'a pas été confirmée. Mais il pourrait quand même se passer que l'IA augmente silencieusement le volume d'affirmations invérifiables — des affirmations qui ne peuvent pas être vérifiées par les outils et infrastructures de fact-checking existants. Ou il se peut tout simplement qu'internet n'ait pas été un endroit particulièrement enclin à la vérité pour commencer. »

    De même, l'hypothèse des « îles épistémiques », selon laquelle les contenus IA citeraient moins leurs sources, n'est pas confirmée : aucune corrélation significative n'a été trouvée entre prévalence de l'IA et densité de liens sortants. Les pages générées automatiquement ne sont pas plus avares de références externes que les pages humaines.

    L'écart entre croyances et réalité

    L'étude révèle un fossé frappant entre les perceptions du public et les données empiriques. Les chercheurs ont sondé 853 adultes américains dans un échantillon stratifié sur leurs habitudes d'utilisation de l'IA, leur vision générale de l'impact de l'IA sur la société, et leur adhésion à chacune des six hypothèses étudiées.

    Le résultat est éloquent : le public croit aux six impacts négatifs de l'IA sur l'internet, mais seuls deux sont étayés par les données. Notamment, 75,1 % des répondants croient à la dégradation factuelle, et 83 % à la monoculture stylistique, deux hypothèses que les données ne confirment pas. Cette dissonance entre perception et réalité est elle-même un phénomène digne d'étude : la peur de l'IA sur le web outrepasse largement les effets mesurables.

    Nom : public stat.png
Affichages : 361
Taille : 27,2 Ko

    La « Dead Internet Theory » reçoit un début de validation empirique

    Cette étude s'inscrit dans un débat plus large autour de la « Dead Internet Theory », l'idée que l'internet serait désormais peuplé en majorité de bots et de contenus synthétiques, que les humains y auraient perdu la parole au profit des algorithmes. La Dead Internet Theory suggère que l'internet n'est plus façonné principalement par l'activité humaine, mais par des systèmes automatisés, l'intelligence artificielle et des contenus générés algorithmiquement.

    Jusqu'ici cantonnée au rang de théorie complotiste, cette vision trouve désormais dans les données empiriques une résonance partielle, mais mesurable. Ce que cette étude ne confirme pas, c'est la version forte et conspirationniste du phénomène; l'idée d'une manipulation orchestrée. Ce qu'elle confirme, en revanche, c'est une transformation structurelle du web par accumulation de contenus standardisés, positifs et sémantiquement convergents.

    À mesure que l'internet se pollue de contenus générés par l'IA, les modèles commencent à s'entraîner sur leurs propres productions synthétiques, consommant en quelque sorte leurs propres déchets. Ce processus crée à terme une boucle de rétroaction dégénérative : les modèles apprennent à partir d'informations erronées ou biaisées, elles-mêmes produites par une IA, entraînant un déclin potentiellement irréversible de la qualité de leurs productions. C'est ce qu'on appelle parfois le « model collapse »... un risque systémique qui n'est plus théorique.

    Vers un outil de surveillance continue

    Les chercheurs ne comptent pas s'en tenir à cette photographie statique. Maty Bohacek a indiqué que l'équipe travaillait avec l'Internet Archive pour transformer cette recherche en un outil continu fournissant ce signal de manière permanente, plutôt qu'en une étude bornée dans le temps. L'équipe souhaite également affiner la granularité de l'analyse en étudiant quels types de sites sont les plus affectés, avec une décomposition par catégorie ou par langue.

    Doležal, pour sa part, pose la question qui structure peut-être tout l'avenir du web : « À mesure que les contenus générés par l'IA se répandent, le défi est de trouver un rôle pour ces modèles qui ne résulte pas simplement en un web aseptisé et répétitif. Plutôt que de forcer les modèles à être parfaitement conformes et agréables, leur permettre d'avoir une personnalité plus distincte ou une certaine 'friction' pourrait les aider à agir comme un partenaire créatif plutôt qu'un substitut à la voix humaine. »

    Ce que cette étude ne dit pas encore, c'est comment on arrête le mouvement. Mesurer la contamination est une chose ; décider de ce qu'on veut préserver (et pour qui) en est une autre.

    La double peine des éditeurs : des coûts qui explosent, des revenus qui s'effondrent

    Le tableau est particulièrement sombre pour les acteurs du web qui vivent de leur contenu. Les éditeurs subissent ce que l'on pourrait qualifier de double peine : d'un côté, une explosion des coûts d'infrastructure générée par le scraping intensif ; de l'autre, une chute vertigineuse des revenus liés au trafic référencé.

    Sur le plan des coûts d'abord, les bots IA ne se contentent pas de visiter discrètement les pages : ils déclenchent des pics de charge qui font s'emballer les serveurs en autoscale. Tristan Berguer, cofondateur de la start-up Senthor, rapporte avoir constaté des factures serveur mensuelles atteignant 60 000 à 120 000 euros pour certains éditeurs à cause de ce faux trafic. Entre janvier et août 2025, le trafic de requêtes IA et LLM a presque quadruplé chez les clients de DataDome, passant de 2,6 % à 10,1 % du trafic total de bots.

    Sur le plan des revenus ensuite, la situation est tout aussi préoccupante. Le taux de clics (CTR) depuis les interfaces IA vers les sites sources est tombé à 0,27 % au quatrième trimestre 2025, contre 0,8 % au deuxième trimestre, soit une division par trois en seulement six mois. Les éditeurs qui ont conclu des accords de licence avec des entreprises IA en espérant s'en sortir mieux ne sont pas épargnés non plus : leur CTR n'atteignait que 1,33 % au quatrième trimestre 2025, soit une division par 6,5 par rapport au début de la même année. En clair, il faut environ 135 scrapes IA pour générer un seul visiteur humain redirigé vers le site source, et ce ratio empire de mois en mois.

    La dépendance à Google, longtemps décriée, apparaît rétrospectivement comme un moindre mal. Malgré son érosion, Google générait encore 84,1 % des recommandations externes aux éditeurs au deuxième trimestre 2025. L'ensemble des applications IA ne représentait, lui, que 0,102 % du trafic « referral ». Autrement dit, Google délivrait encore 831 fois plus de visiteurs que tous les systèmes d'IA réunis — tout en aspirant le contenu via ses propres bots pour alimenter ses AI Overviews, sans guère plus de contrepartie.

    Source : étude

    Et vous ?

    La détection est-elle fiable ? Pangram v3 est aujourd'hui le meilleur outil disponible selon les chercheurs, mais les modèles de génération évoluent beaucoup plus vite que les détecteurs. Dans six mois, ces chiffres seront-ils encore valides, ou sous-estiment-ils déjà massivement la réalité ?

    Le « positivisme IA » est-il vraiment un problème ? Un internet plus poli, moins agressif, moins haineux est-ce nécessairement une dégradation ? Ou l'aspérité et la conflictualité humaines sont-elles elles aussi une valeur à préserver ?

    Qui est responsable ? Le phénomène est-il le fait de spammeurs SEO utilisant l'IA pour produire des contenus en masse, d'entreprises légitimes automatisant leur production éditoriale, ou d'utilisateurs individuels mal outillés ? La réponse change radicalement le regard que l'on porte sur la situation.

    Le « model collapse » est-il inévitable ? Si les modèles futurs s'entraînent de plus en plus sur du contenu IA, la qualité des LLM va-t-elle se dégrader structurellement et à quelle échéance ?

    Faut-il certifier l'humanité en ligne ? Certains, comme le cofondateur de Reddit Alexis Ohanian, militent pour un internet « dont l'authenticité humaine serait vérifiable ». Est-ce techniquement réalisable sans sacrifier l'anonymat ? Et qui contrôlerait cette certification ?

    Voir aussi :

    L'IA est en train de tuer le Web. Elle ruine le trafic et le modèle économique des sites Web, tout en transformant la toile en une immense base de contenus recyclés par des machines sans originalité

    Les bots envahissent Internet et les utilisateurs d'IA en sont responsables : RAG, scraping, robots.txt ignoré à 99,5 % pendant que les éditeurs regardent leur trafic s'effondrer sans pouvoir riposter

    Le patron de ChatGPT, Sam Altman, suggère que la « théorie de l'Internet mort » pourrait contenir une part de vérité, car les plateformes telles que X d'Elon Musk sont aujourd'hui envahies par les robots
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

Discussions similaires

  1. Réponses: 6
    Dernier message: 03/11/2022, 10h29
  2. Réponses: 0
    Dernier message: 22/08/2016, 05h14
  3. Android 5.0 : Dalvik pourrait être remplacé par ART
    Par Hinault Romaric dans le forum Android
    Réponses: 4
    Dernier message: 20/06/2014, 14h29
  4. Réponses: 5
    Dernier message: 01/02/2013, 09h26

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo