IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre émérite Avatar de stigma
    Homme Profil pro
    Créateur jeux vidéo
    Inscrit en
    Octobre 2003
    Messages
    1 153
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 75
    Localisation : France, Pas de Calais (Nord Pas de Calais)

    Informations professionnelles :
    Activité : Créateur jeux vidéo
    Secteur : Arts - Culture

    Informations forums :
    Inscription : Octobre 2003
    Messages : 1 153
    Par défaut
    j'utilise l'IA pour des aides à la programmation mais elle fait de plus en plus d'erreurs.
    Les automates n'ont pas de bug, Kate Walker. Juste des coquetteries de fonctionnement. (Oscar)

    Omanah https://store.steampowered.com/app/3662180/Omanah/

  2. #2
    Membre extrêmement actif
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Octobre 2017
    Messages
    2 782
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Suisse

    Informations professionnelles :
    Activité : Développeur informatique

    Informations forums :
    Inscription : Octobre 2017
    Messages : 2 782
    Par défaut
    Dans une interview, le développeur irlandais dresse un constat sévère : le contenu produit par les grands modèles de langage (LLM) est en train de corrompre l'internet dans une boucle de rétroaction dont personne ne semble mesurer véritablement les conséquences.
    Nous avons un bel exemple avec youtube: Les vidéo IA complètement délirantes sont en train d'envahir la plateforme...

    Vous avez un doute sur l'origine IA de la video? Le plus souvent vous allez avoir un agent IA qui se fait passer pour l'auteur de la video qui répond aux commentaires des internautes et la réponse prend toujours la même forme: Quelque soit la position de l'internaute, l'IA le remercie et lui dit qu'il a raison

    Exemple réel sur youtube:

    Commentaire d'un internaute sur une video IA présentant un évènement historique : "Cette video est nulle et ne correspond pas du tout à la réalité historique"

    Diverses réponses de l'IA répondant aux commentaires critiques des internautes (Attention, il s'agit de vraies réponses de l'IA sur youtube!):

    "Je vois ce que vous voulez dire. Mon objectif reste de raconter les mecanismes historiques et les lecons humaines, et je suis partant pour en discuter sous l angle des faits et du contexte." (on remarquera que l'IA a des problèmes à gérer les accents de la langue française: mécanisme, leçon, l'angle? Et l'apostrophe entre le "l" et "angle", l'IA connait pas?)

    "Votre témoignage apporte un éclairage humain intéressant. Ces perceptions sociales et nationales aident aussi à comprendre certains choix historiques."

    "Votre précision est pertinente. Les chiffres et la terminologie font encore débat selon les sources, et le format impose parfois des simplifications qu’il est important de discuter."

    "Merci pour cette précision. Tu as raison de souligner le terrain réel et son importance stratégique, qui est parfois simplifié dans les représentations visuelles."

    "Merci, bonne observation. Les noms et appellations changent selon les sources et les époques, donc ça mérite d’être expliqué plus proprement. Je vais faire plus attention à la formulation."

  3. #3
    Inactif  

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    10 084
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 10 084
    Par défaut Un tiers des nouveaux sites web sont créés par l'IA, selon une étude de Stanford et l'Internet Archive
    Un tiers des nouveaux sites web sont créés par l'IA : Stanford et l'Internet Archive mesurent pour la première fois l'ampleur réelle de la colonisation algorithmique du web,
    la « théorie de l'Internet mort » reçoit un début de validation empirique

    Une étude menée par des chercheurs de Stanford, d'Imperial College London et de l'Internet Archive révèle qu'en l'espace de trois ans à peine, l'intelligence artificielle générative a colonisé près du tiers des nouvelles pages web publiées dans le monde. Derrière les chiffres, une transformation silencieuse mais radicale du tissu même du web; plus uniforme, plus positif, et peut-être moins humain.

    La vitesse à laquelle le phénomène s'est installé laisse les chercheurs eux-mêmes perplexes. Des chercheurs travaillant avec les données de l'Internet Archive ont découvert qu'un tiers des sites web créés depuis 2022 sont générés par l'IA. Plus précisément, à mi-2025, environ 35 % des sites web nouvellement publiés étaient classifiés comme entièrement ou partiellement générés par l'IA, contre zéro avant le lancement de ChatGPT fin 2022.

    L'étude, intitulée The Impact of AI-Generated Text on the Internet (littéralement L'impact des textes générés par l'IA sur Internet), est signée par Jonas Doležal (Imperial College London), Sawood Alam et Mark Graham (Internet Archive), et Maty Bohacek (Stanford University). Elle s'appuie sur un corpus massif de pages web archivées sur une période de 33 mois, entre août 2022 et mai 2025, extraites via l'API du Wayback Machine.

    Pour Doležal, la rapidité du basculement a quelque chose de vertigineux : « Je trouve la rapidité de cette prise de contrôle de l'IA sur le web tout à fait stupéfiante. Après des décennies durant lesquelles les humains l'ont façonné, une part significative d'internet est devenue définie par l'IA en à peine trois ans. Nous assistons, selon moi, à une transformation majeure du paysage numérique en une fraction du temps qu'il a fallu pour le construire. »

    Méthodologie : détecter le signal dans le bruit

    L'un des défis majeurs de cette recherche était technique : comment identifier de manière fiable un contenu généré par l'IA au sein d'un corpus représentatif du web ? Les chercheurs ont expérimenté quatre méthodes de détection (Binoculars, Desklib, DivEye et Pangram v3) sélectionnées sur la base de leur performance sur le benchmark RAID, et ont procédé à leurs propres vérifications de robustesse selon la longueur du texte, le format HTML ou texte brut, la famille de modèle et la langue. C'est finalement Pangram v3 qui s'est imposé comme le détecteur le plus fiable.

    La constitution de l'échantillon elle-même posait problème : construire un échantillon statistiquement représentatif du web est difficile, car il n'existe pas d'index central et les domaines populaires sont surreprésentés dans la plupart des explorations automatisées. Les chercheurs ont contourné cela en s'appuyant sur le Wayback Machine et en appliquant une approche d'échantillonnage stratifié multidimensionnel, visant à approximer un tirage aléatoire uniforme parmi les pages web publiquement accessibles publiées entre 2022 et 2025.

    Nom : fully.png
Affichages : 8703
Taille : 50,7 Ko

    Six hypothèses à l'épreuve des faits

    La véritable originalité de cette étude ne réside pas tant dans la mesure brute du taux de contenus IA que dans la mise à l'épreuve systématique de six grandes théories concernant les effets de cette contamination. Les chercheurs ont testé si la prolifération de l'IA engendrait : une contraction sémantique (appauvrissement de la diversité des idées), une dégradation de la vérité factuelle, une dérive vers un ton uniformément positif et lissé, un tarissement des liens vers des sources externes, une dilution de l'entropie informationnelle (contenus plus longs mais moins denses), et enfin une monoculture stylistique effaçant les voix individuelles. Résultat : seules deux de ces six hypothèses sont confirmées par les données.

    La contraction sémantique est réelle. Les sites web générés par l'IA affichaient une similarité sémantique 33 % plus élevée que les sites écrits par des humains (0,0701 contre 0,0526). En d'autres termes, les textes produits par les modèles de langage se ressemblent davantage entre eux et tendent à appauvrir le spectre des idées exprimées en ligne, même si les chercheurs prennent soin de distinguer cela d'une monoculture stylistique stricte, qui, elle, n'est pas confirmée statistiquement.

    La dérive vers le positivisme est tout aussi marquante. Les sites générés par l'IA affichaient des scores de sentiment positif 107 % plus élevés que les sites non-IA (0,7042 contre 0,3400). L'internet devient, sous l'influence de l'IA, un espace structurellement plus enjoué, plus lisse, débarrassé des aspérités, des controverses, des tons acides qui caractérisent souvent l'écriture humaine authentique.

    Ce qui ne se confirme pas : les surprises de la recherche

    La principale surprise de l'étude est l'absence de confirmation empirique pour ce que les chercheurs appellent le « Truth Decay », l'hypothèse que l'IA alimenterait une recrudescence de fausses informations et d'hallucinations sur le web. Aucune corrélation statistiquement significative n'a été trouvée entre le taux de contenu IA et le taux d'erreurs factuelles vérifiables. Les chercheurs ont pourtant mobilisé des vérificateurs humains rémunérés pour valider des affirmations factuelles extraites des sites analysés.

    Doležal nuance cependant ce résultat rassurant : « Le résultat le plus surprenant était que notre hypothèse de dégradation de la vérité n'a pas été confirmée. Mais il pourrait quand même se passer que l'IA augmente silencieusement le volume d'affirmations invérifiables — des affirmations qui ne peuvent pas être vérifiées par les outils et infrastructures de fact-checking existants. Ou il se peut tout simplement qu'internet n'ait pas été un endroit particulièrement enclin à la vérité pour commencer. »

    De même, l'hypothèse des « îles épistémiques », selon laquelle les contenus IA citeraient moins leurs sources, n'est pas confirmée : aucune corrélation significative n'a été trouvée entre prévalence de l'IA et densité de liens sortants. Les pages générées automatiquement ne sont pas plus avares de références externes que les pages humaines.

    L'écart entre croyances et réalité

    L'étude révèle un fossé frappant entre les perceptions du public et les données empiriques. Les chercheurs ont sondé 853 adultes américains dans un échantillon stratifié sur leurs habitudes d'utilisation de l'IA, leur vision générale de l'impact de l'IA sur la société, et leur adhésion à chacune des six hypothèses étudiées.

    Le résultat est éloquent : le public croit aux six impacts négatifs de l'IA sur l'internet, mais seuls deux sont étayés par les données. Notamment, 75,1 % des répondants croient à la dégradation factuelle, et 83 % à la monoculture stylistique, deux hypothèses que les données ne confirment pas. Cette dissonance entre perception et réalité est elle-même un phénomène digne d'étude : la peur de l'IA sur le web outrepasse largement les effets mesurables.

    Nom : public stat.png
Affichages : 404
Taille : 27,2 Ko

    La « Dead Internet Theory » reçoit un début de validation empirique

    Cette étude s'inscrit dans un débat plus large autour de la « Dead Internet Theory », l'idée que l'internet serait désormais peuplé en majorité de bots et de contenus synthétiques, que les humains y auraient perdu la parole au profit des algorithmes. La Dead Internet Theory suggère que l'internet n'est plus façonné principalement par l'activité humaine, mais par des systèmes automatisés, l'intelligence artificielle et des contenus générés algorithmiquement.

    Jusqu'ici cantonnée au rang de théorie complotiste, cette vision trouve désormais dans les données empiriques une résonance partielle, mais mesurable. Ce que cette étude ne confirme pas, c'est la version forte et conspirationniste du phénomène; l'idée d'une manipulation orchestrée. Ce qu'elle confirme, en revanche, c'est une transformation structurelle du web par accumulation de contenus standardisés, positifs et sémantiquement convergents.

    À mesure que l'internet se pollue de contenus générés par l'IA, les modèles commencent à s'entraîner sur leurs propres productions synthétiques, consommant en quelque sorte leurs propres déchets. Ce processus crée à terme une boucle de rétroaction dégénérative : les modèles apprennent à partir d'informations erronées ou biaisées, elles-mêmes produites par une IA, entraînant un déclin potentiellement irréversible de la qualité de leurs productions. C'est ce qu'on appelle parfois le « model collapse »... un risque systémique qui n'est plus théorique.

    Vers un outil de surveillance continue

    Les chercheurs ne comptent pas s'en tenir à cette photographie statique. Maty Bohacek a indiqué que l'équipe travaillait avec l'Internet Archive pour transformer cette recherche en un outil continu fournissant ce signal de manière permanente, plutôt qu'en une étude bornée dans le temps. L'équipe souhaite également affiner la granularité de l'analyse en étudiant quels types de sites sont les plus affectés, avec une décomposition par catégorie ou par langue.

    Doležal, pour sa part, pose la question qui structure peut-être tout l'avenir du web : « À mesure que les contenus générés par l'IA se répandent, le défi est de trouver un rôle pour ces modèles qui ne résulte pas simplement en un web aseptisé et répétitif. Plutôt que de forcer les modèles à être parfaitement conformes et agréables, leur permettre d'avoir une personnalité plus distincte ou une certaine 'friction' pourrait les aider à agir comme un partenaire créatif plutôt qu'un substitut à la voix humaine. »

    Ce que cette étude ne dit pas encore, c'est comment on arrête le mouvement. Mesurer la contamination est une chose ; décider de ce qu'on veut préserver (et pour qui) en est une autre.

    La double peine des éditeurs : des coûts qui explosent, des revenus qui s'effondrent

    Le tableau est particulièrement sombre pour les acteurs du web qui vivent de leur contenu. Les éditeurs subissent ce que l'on pourrait qualifier de double peine : d'un côté, une explosion des coûts d'infrastructure générée par le scraping intensif ; de l'autre, une chute vertigineuse des revenus liés au trafic référencé.

    Sur le plan des coûts d'abord, les bots IA ne se contentent pas de visiter discrètement les pages : ils déclenchent des pics de charge qui font s'emballer les serveurs en autoscale. Tristan Berguer, cofondateur de la start-up Senthor, rapporte avoir constaté des factures serveur mensuelles atteignant 60 000 à 120 000 euros pour certains éditeurs à cause de ce faux trafic. Entre janvier et août 2025, le trafic de requêtes IA et LLM a presque quadruplé chez les clients de DataDome, passant de 2,6 % à 10,1 % du trafic total de bots.

    Sur le plan des revenus ensuite, la situation est tout aussi préoccupante. Le taux de clics (CTR) depuis les interfaces IA vers les sites sources est tombé à 0,27 % au quatrième trimestre 2025, contre 0,8 % au deuxième trimestre, soit une division par trois en seulement six mois. Les éditeurs qui ont conclu des accords de licence avec des entreprises IA en espérant s'en sortir mieux ne sont pas épargnés non plus : leur CTR n'atteignait que 1,33 % au quatrième trimestre 2025, soit une division par 6,5 par rapport au début de la même année. En clair, il faut environ 135 scrapes IA pour générer un seul visiteur humain redirigé vers le site source, et ce ratio empire de mois en mois.

    La dépendance à Google, longtemps décriée, apparaît rétrospectivement comme un moindre mal. Malgré son érosion, Google générait encore 84,1 % des recommandations externes aux éditeurs au deuxième trimestre 2025. L'ensemble des applications IA ne représentait, lui, que 0,102 % du trafic « referral ». Autrement dit, Google délivrait encore 831 fois plus de visiteurs que tous les systèmes d'IA réunis — tout en aspirant le contenu via ses propres bots pour alimenter ses AI Overviews, sans guère plus de contrepartie.

    Source : étude

    Et vous ?

    La détection est-elle fiable ? Pangram v3 est aujourd'hui le meilleur outil disponible selon les chercheurs, mais les modèles de génération évoluent beaucoup plus vite que les détecteurs. Dans six mois, ces chiffres seront-ils encore valides, ou sous-estiment-ils déjà massivement la réalité ?

    Le « positivisme IA » est-il vraiment un problème ? Un internet plus poli, moins agressif, moins haineux est-ce nécessairement une dégradation ? Ou l'aspérité et la conflictualité humaines sont-elles elles aussi une valeur à préserver ?

    Qui est responsable ? Le phénomène est-il le fait de spammeurs SEO utilisant l'IA pour produire des contenus en masse, d'entreprises légitimes automatisant leur production éditoriale, ou d'utilisateurs individuels mal outillés ? La réponse change radicalement le regard que l'on porte sur la situation.

    Le « model collapse » est-il inévitable ? Si les modèles futurs s'entraînent de plus en plus sur du contenu IA, la qualité des LLM va-t-elle se dégrader structurellement et à quelle échéance ?

    Faut-il certifier l'humanité en ligne ? Certains, comme le cofondateur de Reddit Alexis Ohanian, militent pour un internet « dont l'authenticité humaine serait vérifiable ». Est-ce techniquement réalisable sans sacrifier l'anonymat ? Et qui contrôlerait cette certification ?

    Voir aussi :

    L'IA est en train de tuer le Web. Elle ruine le trafic et le modèle économique des sites Web, tout en transformant la toile en une immense base de contenus recyclés par des machines sans originalité

    Les bots envahissent Internet et les utilisateurs d'IA en sont responsables : RAG, scraping, robots.txt ignoré à 99,5 % pendant que les éditeurs regardent leur trafic s'effondrer sans pouvoir riposter

    Le patron de ChatGPT, Sam Altman, suggère que la « théorie de l'Internet mort » pourrait contenir une part de vérité, car les plateformes telles que X d'Elon Musk sont aujourd'hui envahies par les robots
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

Discussions similaires

  1. Réponses: 6
    Dernier message: 03/11/2022, 10h29
  2. Réponses: 0
    Dernier message: 22/08/2016, 05h14
  3. Android 5.0 : Dalvik pourrait être remplacé par ART
    Par Hinault Romaric dans le forum Android
    Réponses: 4
    Dernier message: 20/06/2014, 14h29
  4. Réponses: 5
    Dernier message: 01/02/2013, 09h26

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo