IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Wordfreq : « l'IA générative a pollué les données », le projet d'analyse du langage s'arrête


Sujet :

Intelligence artificielle

  1. #1
    Chroniqueur Actualités
    Avatar de Anthony
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Novembre 2022
    Messages
    1 266
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Rédacteur technique

    Informations forums :
    Inscription : Novembre 2022
    Messages : 1 266
    Points : 20 795
    Points
    20 795
    Par défaut Wordfreq : « l'IA générative a pollué les données », le projet d'analyse du langage s'arrête
    Les modèles d'IA s'effondrent lorsqu'ils sont formés sur des données générées récursivement, si bien qu'il sera plus difficile de former les futurs LLM, car ils seront empoisonnés par le contenu créé par l'IA

    Dans une étude publiée dans Nature, des chercheurs de l'Université d'Oxford et de Cambridge mettent en garde contre le risque d'effondrement des modèles d'IA tels que GPT-4 lorsqu'ils sont formés sur des données générées par d'autres IA. Ils soulignent que l'utilisation sans discernement de contenus générés par l'IA entraîne des défauts irréversibles, qui ont une incidence sur les performances et l'équité de la prédiction des modèles. Alors que les textes générés par l'IA prolifèrent en ligne, les chercheurs estiment qu'il est essentiel de garantir l'accès à des données humaines authentiques pour l'entraînement des futurs modèles d'IA et le maintien de l'intégrité des contenus en ligne.

    Stable diffusion a révolutionné la création d'images à partir d'un texte descriptif. Les modèles GPT-2, GPT-3(.5) et GPT-4 ont démontré des performances élevées dans toute une série de tâches linguistiques. ChatGPT a présenté de tels modèles de langage au grand public. Il est désormais clair que l'intelligence artificielle générative (IA) telle que les grands modèles de langage (LLM) est là pour durer et qu'elle modifiera considérablement l'écosystème du texte et des images en ligne.

    Dans cette étude de l'Université d'Oxford, en partenariat avec d'autres établissements de recherche britanniques et canadiens, les auteurs examinent ce qui pourrait arriver à GPT-{n} une fois que les LLMs contribueront à une grande partie du texte trouvé en ligne. Ils constatent que l'utilisation sans discernement du contenu généré par les modèles d'IA dans la formation entraîne des défauts irréversibles dans les modèles résultants, dans lesquels les queues de la distribution du contenu d'origine disparaissent. Les chercheurs appellent cet effet « effondrement du modèle » et montrent qu'il peut se produire dans les LLM ainsi que dans les auto-encodeurs variationnels (VAE) et les modèles de mélange gaussien (GMM).

    Nom : ai model collapse fig1a.png
Affichages : 83077
Taille : 64,6 Ko

    Les auteurs ont développé une intuition théorique derrière le phénomène et décrivent son omniprésence parmi tous les modèles génératifs appris. Ils démontrent que ce phénomène doit être pris au sérieux si l'on veut conserver les avantages de la formation à partir de données à grande échelle extraites du web. En effet, la valeur des données collectées sur les interactions humaines authentiques avec les systèmes sera de plus en plus précieuse en présence de contenu généré par les LLM dans les données extraites de l'Internet.

    En ce qui concerne les implications de l'effondrement du modèle sur la dynamique d'apprentissage sous-jacente des LLM, les attaques d'empoisonnement à long terme sur les modèles de langage ne sont pas nouvelles. Par exemple, il est possible de constater la création de fermes à clics, à contenu et à trolls, une forme de « modèles de langage » humains, dont le rôle est d'induire en erreur les réseaux sociaux et les algorithmes de recherche. L'effet négatif de ces attaques d'empoisonnement sur les résultats de recherche a conduit à des changements dans les algorithmes de recherche. Par exemple, Google a rétrogradé les articles issus d'exploitations agricoles, en mettant davantage l'accent sur le contenu produit par des sources dignes de confiance, telles que les domaines éducatifs, tandis que DuckDuckGo les a complètement supprimés.

    Ce qui est différent avec l'arrivée des LLM, c'est l'échelle à laquelle un tel empoisonnement peut se produire une fois qu'il est automatisé. Préserver la capacité des LLM à modéliser des événements à faible probabilité est essentiel pour l'équité de leurs prédictions : ces événements sont souvent pertinents pour les groupes marginalisés. Les événements à faible probabilité sont également essentiels pour comprendre les systèmes complexes.

    Nom : ai model collapse fig1bcl.png
Affichages : 14527
Taille : 191,7 Ko

    L'évaluation des chercheurs suggère un « avantage du premier arrivé » lorsqu'il s'agit de former des modèles tels que les LLM. Dans leurs travaux, les scientifiques démontrent que la formation sur des échantillons provenant d'un autre modèle génératif peut induire un changement de distribution qui, avec le temps, provoque l'effondrement du modèle. Cela entraîne à son tour une mauvaise perception par le modèle de la tâche d'apprentissage sous-jacente.

    Pour soutenir l'apprentissage sur une longue période, il faudra donc s'assurer que l'accès à la source de données d'origine est préservé et que d'autres données non générées par les LLM restent disponibles au fil du temps.

    La nécessité de distinguer les données générées par les LLM des autres données soulève des questions sur la provenance du contenu qui est extrait de l'Internet : la manière dont le contenu généré par les LLM peut être suivi à l'échelle n'est pas claire. Une option est la coordination à l'échelle de la communauté pour s'assurer que les différentes parties impliquées dans la création et le déploiement des LLM partagent les informations nécessaires pour résoudre les questions de provenance. Dans le cas contraire, il pourrait devenir de plus en plus difficile de former les nouvelles versions des LLM sans accès aux données qui ont été extraites de l'internet avant l'adoption massive de la technologie ou sans accès direct aux données générées par les humains à l'échelle.

    Source : "AI models collapse when trained on recursively generated data" (étude de l'université d'Oxford)

    Et vous ?

    Quel est votre avis sur le sujet ?
    Trouvez-vous les conclusions de cette étude de l'université d'Oxford crédibles ou pertinentes ?

    Voir aussi :

    Des chercheurs mettent en garde contre un "effondrement du modèle" lorsque l'IA s'entraîne sur du contenu généré par l'IA, ils affirment que cela pourrait à terme éloigner l'IA de la réalité

    Les entreprises d'IA sont-elles à court de données pour entraîner leurs modèles après avoir englouti l'ensemble de l'Internet ? Un rapport alerte sur une potentielle pénurie de données

    L'IA semble s'approcher rapidement d'un mur où elle ne peut pas devenir plus intelligente : l'IA sera-t-elle à court de données ? Limites de la mise à l'échelle des LLM sur les données générées par l'homme

  2. #2
    Membre émérite
    Homme Profil pro
    Chargé de projets
    Inscrit en
    Décembre 2019
    Messages
    737
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Chargé de projets
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Décembre 2019
    Messages : 737
    Points : 2 709
    Points
    2 709
    Par défaut
    On s'en serait douté, nous sommes nous même devenus tous un peu plus débile depuis qu'on fait nos vie en regardant celle des autres récursivement sur les réseaux sociaux

    On sait tout ça depuis la vache folle.

  3. #3
    Membre du Club
    Profil pro
    Inscrit en
    Mars 2012
    Messages
    22
    Détails du profil
    Informations personnelles :
    Localisation : Belgique

    Informations forums :
    Inscription : Mars 2012
    Messages : 22
    Points : 69
    Points
    69
    Par défaut
    Tout cela est tellement évident et prévisible.
    Sachant que les LLM ne comprennent pas ce qu'elles écrivent et qu'elles font, ce que les chercheurs appellent pudiquement, des hallucinations, on ne pouvait s'attendre à autre chose. Comment un savoir peut-il progresser quand on le dégrade à chaque itération? Intelligence artificielle ou pas !

  4. #4
    Membre régulier
    Homme Profil pro
    Inscrit en
    Janvier 2013
    Messages
    30
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations forums :
    Inscription : Janvier 2013
    Messages : 30
    Points : 104
    Points
    104
    Par défaut Moins de contenu humain aussi
    C'est aussi actuellement l'âge d'or de la disponibilité des connaissances humaines sur le web et le déclin sera aussi rapide que l'utilisation des IA se généralisera.

    Pourquoi demain écrire un long article sur un sujet important et le mettre à disposition sur le web ? Aujourd'hui il est référencé, vu et cela génère des revenus, de la visibilité, de la réputation alors que demain, il sera intégré par des IA qui ne renverront rien à l'auteur. Au contraire, mettre des contenus utiles sur le web ne feront que permettre à l'IA de remplacer ceux qui produisent ce contenu.

    Demain, le web sera bien moins instructif qu'aujourd'hui et c'est normal. La logique de cette évolution sera peut-être la mise en ligne de l'intelligence humaine à un niveau plus bas: aujourd'hui pour les tâches complexes, on embauche un consultant pendant quelques jours. Peut-être demain, avec la raréfaction de l'information en ligne, paiera t-on des services d'assistances simples sur les sujets complexes. Une forme d'adaptation des gens du commun aux IA en quelque sorte. Ça nous promet un web beaucoup plus pauvre, c'est dommage.

    Le modèle de l'IA se base sur la disponibilité infinie et permanente de toutes les connaissances utiles pour les digérer sans les rémunérer et se mettre en interface devant les producteurs du savoir. Ce modèle est visiblement sa propre faiblesse puisqu'il s'empoisonne de ses propres créations et va créer une diminution notable de mise à disposition du savoir qui va miner aussi sûrement les bases de construction de l'IA. Enfin, ce sont mes deux cents, parce que si l'AGI arrive dans moins de 5 ans, tout ceci sera du blabla.

  5. #5
    Membre averti
    Profil pro
    Inscrit en
    Février 2010
    Messages
    276
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Février 2010
    Messages : 276
    Points : 376
    Points
    376
    Par défaut sérialisation
    Etonnant que l'IA n'utilise pas les algos de sérialisation comme pour les PID pour les poids des tokens

  6. #6
    Membre averti
    Profil pro
    Inscrit en
    Septembre 2012
    Messages
    199
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Septembre 2012
    Messages : 199
    Points : 316
    Points
    316
    Par défaut
    Trouvez-vous les conclusions de cette étude de l'université d'Oxford crédibles ou pertinentes ?
    Non. Ces chercheurs ne tiennent compte que la multiplication des textes générés par les IA. Meta a déjà prouvé que la qualité des données d'entrainement prévaut sur la quantité.
    Donc il faudrait vraiment que OpenAI, Google, Meta, Mistral... soient devenus complètement cinglés pour faire ingurgiter à leur modèle un corpus brut, sans curation.

    De plus le contenu évolu. Le savoir n'est pas immuable et la nouveauté est quotidien. Découvertes archéologiques, nouvelles théories scientifiques, nouveaux concepts... vont à l'encontre des conclusions des chercheurs de l'Université d'Oxford et de Cambridge.

    Je pourrai même ajouter qu'ils ne font pas état du corpus mondial. En effet, les data d'entrainement représentent essentiellement la culture américaine, hors l'histoire culturel mondial dépasse de loin le jour de la Déclaration d'indépendance américaine. Par exemple les textes du moyen âge croupissent dans des armoires dont la plupart n'ont pas étés traduits.

  7. #7
    Nouveau Candidat au Club
    Homme Profil pro
    Webmaster
    Inscrit en
    Août 2024
    Messages
    1
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Bas Rhin (Alsace)

    Informations professionnelles :
    Activité : Webmaster

    Informations forums :
    Inscription : Août 2024
    Messages : 1
    Points : 1
    Points
    1
    Par défaut
    "Par exemple, Google a rétrogradé les articles issus d'exploitations agricoles, en mettant davantage l'accent sur le contenu produit par des sources dignes de confiance"
    Je me riz à l'interprétation de cette traduction automatique dans une requête future concernant le monde agricole et les sources d'eaux potables.
    J'en profite pour faire un petit empoisonnement (des sources) pour cultiver nos Intelligences Artificielles paysannes.

  8. #8
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    8 996
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 8 996
    Points : 208 048
    Points
    208 048
    Par défaut Wordfreq : « l'IA générative a pollué les données », le projet d'analyse du langage s'arrête
    Wordfreq : « l'IA générative a pollué les données ». Le projet qui analyse l'évolution de l'utilisation des mots dans plus de 40 langues s'arrête,
    à cause de la prolifération des textes générés par IA

    Le projet open-source Wordfreq, qui analysait l’évolution de l’utilisation des mots dans plus de 40 langues, a récemment été arrêté. La raison ? La prolifération des textes générés par l’intelligence artificielle (IA) a rendu les données inutilisables. Robyn Speer, la créatrice du projet, a annoncé cette décision en soulignant que l’IA générative a « pollué les données » à un point tel que l’analyse linguistique fiable est devenue impossible.

    Dans une étude publiée dans Nature, des chercheurs de l'Université d'Oxford et de Cambridge mettent en garde contre le risque d'effondrement des modèles d'IA tels que GPT-4 lorsqu'ils sont formés sur des données générées par d'autres IA. Ils soulignent que l'utilisation sans discernement de contenus générés par l'IA entraîne des défauts irréversibles, qui ont une incidence sur les performances et l'équité de la prédiction des modèles.

    En janvier, certains médias ont remarqué que Google Actualités favorisait les sites qui piratent d'autres médias en utilisant l'IA pour produire rapidement du contenu. Google a expliqué que, bien qu'elle tente de lutter contre le spam sur Google Actualités, la société ne se préoccupe pas de savoir si un article a été rédigé par une IA ou par un humain, ce qui ouvre la voie à l'apparition d'un plus grand nombre de contenus générés par l'IA sur Google Actualités.

    La présence de contenus générés par l'IA dans Google Actualités est révélatrice de deux choses : tout d'abord, la nature « boîte noire » de Google Actualités, l'entrée dans les classements de Google Actualités étant un système opaque, mais apparemment jouable. Deuxièmement, Google n'est peut-être pas prêt à modérer son service d'actualités à l'ère de l'IA accessible au grand public, où n'importe qui peut produire une masse de contenu sans se soucier de sa qualité ou de son originalité.

    Tandis que les textes générés par l'IA prolifèrent en ligne, le spam généré par l'IA pollue l'internet et est difficile à filtrer, ce qui rend la découverte, la recherche et l'internet humain beaucoup plus difficiles à trouver.

    Nom : ia.png
Affichages : 46209
Taille : 598,5 Ko

    La fin de Wordfreq

    Le créateur d'un projet open source qui analysait l'internet pour déterminer la popularité en constante évolution de différents mots dans l'usage du langage humain a annoncé qu'il mettait fin au projet parce que le spam de l'IA générative a empoisonné l'internet à un point tel que le projet n'a plus d'utilité.

    Wordfreq est un programme qui suit l'évolution de l'utilisation de plus de 40 langues différentes en analysant des millions de sources telles que Wikipédia, les sous-titres de films et d'émissions télévisées, les articles de presse, les livres, les sites web, Twitter et Reddit. Le système peut être utilisé pour analyser l'évolution des habitudes linguistiques au fur et à mesure que l'argot et la culture populaire changent et que la langue évolue, et constitue une ressource pour les universitaires qui étudient ce genre de choses. Dans une note sur GitHub, la créatrice Robyn Speer a écrit que le projet « ne sera plus mis à jour ».

    « L'IA générative a pollué les données », écrit-elle. « Je ne pense pas que quiconque dispose d'informations fiables sur l'utilisation des langues par les humains après 2021 ».

    Elle a ajouté que le scraping de sites web ouverts constituait une part importante des sources de données du projet et que « maintenant, le web dans son ensemble est plein de déchets générés par de grands modèles de langage, écrits par personne pour ne rien communiquer. L'inclusion de ces erreurs dans les données fausse la fréquence des mots ».

    Bien qu'il y ait toujours eu du spam sur l'internet et dans les ensembles de données utilisés par Wordfreq, « il était gérable et souvent identifiable. Les grands modèles de langage génèrent des textes qui se font passer pour du vrai langage avec une intention derrière, même s'il n'y en a pas, et leurs résultats apparaissent partout », écrit-elle. Elle donne l'exemple du ChatGPT qui utilise le mot « delve » (creuser, fouiller, plonger, suivant le contexte) à outrance, ce que les gens ne font pas, ce qui a perturbé la fréquence de ce mot spécifique.

    Elle a également indiqué que le projet Wordfreq porte fondamentalement sur le traitement du langage naturel, qui est devenu inextricablement lié au développement de grands modèles de langage et à l'IA générative :

    « Le domaine que je connais sous le nom de "traitement du langage naturel" est difficile à trouver de nos jours. Il est en train d'être dévoré par l'IA générative. D'autres techniques existent encore, mais l'IA générative aspire tout l'air de la pièce et reçoit tout l'argent. Il est rare de voir des recherches sur le NLP qui ne dépendent pas de données fermées contrôlées par OpenAI et Google, deux entreprises que je méprise déjà.

    « Wordfreq a été construit en collectant un grand nombre de textes dans un grand nombre de langues. Auparavant, il s'agissait d'une pratique assez raisonnable, à laquelle personne ne s'opposerait. Aujourd'hui, les outils de collecte de texte sont principalement utilisés pour former l'IA générative, et les gens sont à juste titre sur la défensive. Si quelqu'un collecte tous les textes de vos livres, articles, sites web ou messages publics, c'est très probablement parce qu'il est en train de créer une machine à plagier qui revendiquera vos mots comme étant les siens ».

    Speer souligne également le fait que les données relatives au web scraping sont plus difficiles à obtenir depuis que Twitter et Reddit, qui sont des sites inclus dans Wordfreq, ont commencé à faire payer l'accès à leurs API.

    Nom : chatgpt.png
Affichages : 11336
Taille : 516,1 Ko

    Conséquences pour la recherche

    La fermeture de Wordfreq est un coup dur pour les chercheurs et les universitaires qui s’appuyaient sur ces données pour étudier les évolutions linguistiques. Speer a également mentionné que les changements dans l’accès aux données en ligne, notamment les restrictions imposées par Twitter et Reddit, ont contribué à cette décision. Ces plateformes, autrefois sources de données gratuites, sont désormais payantes, compliquant encore plus la collecte de données pour des projets open-source.

    « L'information qui était gratuite est devenue chère », a écrit Speer. Elle a terminé sa note en disant qu'elle ne voulait plus faire partie de l'industrie.

    « Je ne veux pas travailler sur quoi que ce soit qui puisse être confondu avec l'IA générative, ou qui puisse bénéficier à l'IA générative », a-t-elle écrit. « OpenAI et Google peuvent collecter leurs propres données. J'espère qu'ils devront payer un prix très élevé pour cela, et j'espère qu'ils maudissent constamment le gâchis qu'ils ont eux-mêmes créé. »

    Les réactions de la communauté scientifique

    La communauté scientifique a réagi avec inquiétude à cette nouvelle. De nombreux chercheurs soulignent que la fermeture de Wordfreq pourrait ralentir les progrès dans le domaine de la linguistique computationnelle. Certains proposent des solutions potentielles, comme le développement de nouveaux algorithmes capables de détecter et de filtrer les contenus générés par l’IA. D’autres appellent à une régulation plus stricte de l’utilisation de l’IA dans la création de contenus textuels.

    Les implications éthiques

    L’impact de l’IA générative sur les projets d’analyse linguistique soulève également des questions éthiques. La capacité de ces modèles à produire des textes indiscernables de ceux écrits par des humains pose des défis en termes de transparence et d’authenticité. Les chercheurs et les développeurs de technologies doivent trouver un équilibre entre l’innovation et la préservation de l’intégrité des données.

    Un impact plus large

    À une époque où l'intelligence artificielle est devenue un mot à la mode dans divers secteurs, son incursion dans le domaine de la littérature a suscité un mélange d'intrigue et d'inquiétude. Une enquête récente, axée sur le contenu de Google Books, a mis en lumière la présence potentielle de livres générés par des technologies d'IA.

    L'enquête du journaliste s'est appuyée sur une approche permettant d'identifier les éventuels contenus générés par l'IA dans Google Books. En recherchant l'expression « Depuis la dernière mise à jour de mes connaissances » - une expression communément associée à des programmes d'IA tels que ChatGPT - le journaliste a découvert un nombre surprenant de livres contenant cette expression et d'autres phrases similaires. Si certains de ces livres évoquent explicitement l'IA, notamment ChatGPT et les technologies connexes, ce qui indique qu'ils ont été écrits par des humains, une grande partie d'entre eux suscite des soupçons quant à leur origine.

    Un exemple notable est « Bears, Bulls, and Wolves : Stock Trading for the Twenty-Year-Old » de Tristan MacIver, publié en janvier 2024. Le langage et les explications de ce livre, en particulier en ce qui concerne les événements financiers complexes, semblent rappeler le contenu généralement généré par l'IA, à l'instar des niveaux de synthèse que l'on trouve dans les entrées de Wikipédia. Cette découverte et d'autres similaires suggèrent une tendance florissante à l'implication de l'IA dans la création littéraire, ce qui soulève des questions sur la nature de la paternité et l'authenticité du contenu dans les bibliothèques numériques.

    L'inclusion par Google de livres générés par l'IA dans Google Books polluerait les données utilisées dans Google Ngram viewer, un outil important utilisé par les chercheurs pour suivre l'utilisation de la langue à travers l'histoire. Ngram Viewer est une application linguistique proposée par Google, permettant d’observer l’évolution de la fréquence d’un ou de plusieurs mots ou groupes de mots à travers le temps dans les sources imprimées. L’outil est entré en service en 2010.

    Par ailleurs, le comportement terrible des entreprises d'IA générative, qui récupèrent le contenu disponible sur internet à des fins lucratives pour créer des machines à plagier, a naturellement incité les propriétaires de sites web à tenter de bloquer les robots d'exploration qui lisent leur site pour quelque raison que ce soit. Cela a eu pour effet de rendre beaucoup plus difficile le fonctionnement de projets de recherche et d'outils tels que Wordfreq, car les propriétaires de domaines modifient leurs règles robots.txt pour interdire le scraping.

    Conclusion

    La fin de Wordfreq illustre un défi majeur posé par l’IA générative : la pollution des données. Alors que ces technologies continuent de se développer, il devient crucial de trouver des moyens de distinguer les contenus générés des contenus authentiques pour préserver la qualité des analyses linguistiques. La communauté scientifique doit collaborer pour développer des solutions innovantes et garantir que les progrès technologiques ne compromettent pas la recherche académique.

    Source : note du projet

    Et vous ?

    Pensez-vous que l’IA générative devrait être davantage régulée pour éviter la pollution des données linguistiques ? Pourquoi ou pourquoi pas ?
    Quelles solutions proposez-vous pour distinguer les contenus générés par l’IA des contenus authentiques dans les bases de données linguistiques ?
    Croyez-vous que la fermeture de projets comme Wordfreq est une perte significative pour la recherche linguistique ?
    Comment les chercheurs peuvent-ils s’adapter à l’augmentation des contenus générés par l’IA dans leurs études ?
    Voyez-vous des avantages à l’utilisation de l’IA générative dans l’analyse linguistique, malgré les défis qu’elle pose ?
    Pensez-vous que les plateformes en ligne devraient offrir un accès gratuit aux données pour les projets de recherche open-source ?
    Selon vous, quelles sont les implications éthiques de l’utilisation de l’IA générative dans la création de contenus textuels ?
    Comment les institutions académiques et les chercheurs peuvent-ils collaborer pour surmonter les obstacles posés par l’IA générative ?
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  9. #9
    Membre éprouvé
    Homme Profil pro
    Développeur en systèmes embarqués
    Inscrit en
    Mai 2015
    Messages
    260
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 53
    Localisation : Belgique

    Informations professionnelles :
    Activité : Développeur en systèmes embarqués

    Informations forums :
    Inscription : Mai 2015
    Messages : 260
    Points : 1 027
    Points
    1 027
    Par défaut Ce n'est que mon opinion...
    Citation Envoyé par Stéphane le calme Voir le message
    Wordfreq : « l'IA générative a pollué les données ». Le projet qui analyse l'évolution de l'utilisation des mots dans plus de 40 langues s'arrête,
    à cause de la prolifération des textes générés par IA

    Le projet open-source Wordfreq, qui analysait l’évolution de l’utilisation des mots dans plus de 40 langues, a récemment été arrêté. La raison ? La prolifération des textes générés par l’intelligence artificielle (IA) a rendu les données inutilisables. Robyn Speer, la créatrice du projet, a annoncé cette décision en soulignant que l’IA générative a « pollué les données » à un point tel que l’analyse linguistique fiable est devenue impossible.

    Dans une étude publiée dans Nature, des chercheurs de l'Université d'Oxford et de Cambridge mettent en garde contre le risque d'effondrement des modèles d'IA tels que GPT-4 lorsqu'ils sont formés sur des données générées par d'autres IA. Ils soulignent que l'utilisation sans discernement de contenus générés par l'IA entraîne des défauts irréversibles, qui ont une incidence sur les performances et l'équité de la prédiction des modèles.

    En janvier, certains médias ont remarqué que Google Actualités favorisait les sites qui piratent d'autres médias en utilisant l'IA pour produire rapidement du contenu. Google a expliqué que, bien qu'elle tente de lutter contre le spam sur Google Actualités, la société ne se préoccupe pas de savoir si un article a été rédigé par une IA ou par un humain, ce qui ouvre la voie à l'apparition d'un plus grand nombre de contenus générés par l'IA sur Google Actualités.

    La présence de contenus générés par l'IA dans Google Actualités est révélatrice de deux choses : tout d'abord, la nature « boîte noire » de Google Actualités, l'entrée dans les classements de Google Actualités étant un système opaque, mais apparemment jouable. Deuxièmement, Google n'est peut-être pas prêt à modérer son service d'actualités à l'ère de l'IA accessible au grand public, où n'importe qui peut produire une masse de contenu sans se soucier de sa qualité ou de son originalité.

    Tandis que les textes générés par l'IA prolifèrent en ligne, le spam généré par l'IA pollue l'internet et est difficile à filtrer, ce qui rend la découverte, la recherche et l'internet humain beaucoup plus difficiles à trouver.

    Nom : ia.png
Affichages : 46209
Taille : 598,5 Ko

    La fin de Wordfreq

    Le créateur d'un projet open source qui analysait l'internet pour déterminer la popularité en constante évolution de différents mots dans l'usage du langage humain a annoncé qu'il mettait fin au projet parce que le spam de l'IA générative a empoisonné l'internet à un point tel que le projet n'a plus d'utilité.

    Wordfreq est un programme qui suit l'évolution de l'utilisation de plus de 40 langues différentes en analysant des millions de sources telles que Wikipédia, les sous-titres de films et d'émissions télévisées, les articles de presse, les livres, les sites web, Twitter et Reddit. Le système peut être utilisé pour analyser l'évolution des habitudes linguistiques au fur et à mesure que l'argot et la culture populaire changent et que la langue évolue, et constitue une ressource pour les universitaires qui étudient ce genre de choses. Dans une note sur GitHub, la créatrice Robyn Speer a écrit que le projet « ne sera plus mis à jour ».

    « L'IA générative a pollué les données », écrit-elle. « Je ne pense pas que quiconque dispose d'informations fiables sur l'utilisation des langues par les humains après 2021 ».

    Elle a ajouté que le scraping de sites web ouverts constituait une part importante des sources de données du projet et que « maintenant, le web dans son ensemble est plein de déchets générés par de grands modèles de langage, écrits par personne pour ne rien communiquer. L'inclusion de ces erreurs dans les données fausse la fréquence des mots ».

    Bien qu'il y ait toujours eu du spam sur l'internet et dans les ensembles de données utilisés par Wordfreq, « il était gérable et souvent identifiable. Les grands modèles de langage génèrent des textes qui se font passer pour du vrai langage avec une intention derrière, même s'il n'y en a pas, et leurs résultats apparaissent partout », écrit-elle. Elle donne l'exemple du ChatGPT qui utilise le mot « delve » (creuser, fouiller, plonger, suivant le contexte) à outrance, ce que les gens ne font pas, ce qui a perturbé la fréquence de ce mot spécifique.

    Elle a également indiqué que le projet Wordfreq porte fondamentalement sur le traitement du langage naturel, qui est devenu inextricablement lié au développement de grands modèles de langage et à l'IA générative :

    « Le domaine que je connais sous le nom de "traitement du langage naturel" est difficile à trouver de nos jours. Il est en train d'être dévoré par l'IA générative. D'autres techniques existent encore, mais l'IA générative aspire tout l'air de la pièce et reçoit tout l'argent. Il est rare de voir des recherches sur le NLP qui ne dépendent pas de données fermées contrôlées par OpenAI et Google, deux entreprises que je méprise déjà.

    « Wordfreq a été construit en collectant un grand nombre de textes dans un grand nombre de langues. Auparavant, il s'agissait d'une pratique assez raisonnable, à laquelle personne ne s'opposerait. Aujourd'hui, les outils de collecte de texte sont principalement utilisés pour former l'IA générative, et les gens sont à juste titre sur la défensive. Si quelqu'un collecte tous les textes de vos livres, articles, sites web ou messages publics, c'est très probablement parce qu'il est en train de créer une machine à plagier qui revendiquera vos mots comme étant les siens ».

    Speer souligne également le fait que les données relatives au web scraping sont plus difficiles à obtenir depuis que Twitter et Reddit, qui sont des sites inclus dans Wordfreq, ont commencé à faire payer l'accès à leurs API.

    Nom : chatgpt.png
Affichages : 11336
Taille : 516,1 Ko

    Conséquences pour la recherche

    La fermeture de Wordfreq est un coup dur pour les chercheurs et les universitaires qui s’appuyaient sur ces données pour étudier les évolutions linguistiques. Speer a également mentionné que les changements dans l’accès aux données en ligne, notamment les restrictions imposées par Twitter et Reddit, ont contribué à cette décision. Ces plateformes, autrefois sources de données gratuites, sont désormais payantes, compliquant encore plus la collecte de données pour des projets open-source.

    « L'information qui était gratuite est devenue chère », a écrit Speer. Elle a terminé sa note en disant qu'elle ne voulait plus faire partie de l'industrie.

    « Je ne veux pas travailler sur quoi que ce soit qui puisse être confondu avec l'IA générative, ou qui puisse bénéficier à l'IA générative », a-t-elle écrit. « OpenAI et Google peuvent collecter leurs propres données. J'espère qu'ils devront payer un prix très élevé pour cela, et j'espère qu'ils maudissent constamment le gâchis qu'ils ont eux-mêmes créé. »

    Les réactions de la communauté scientifique

    La communauté scientifique a réagi avec inquiétude à cette nouvelle. De nombreux chercheurs soulignent que la fermeture de Wordfreq pourrait ralentir les progrès dans le domaine de la linguistique computationnelle. Certains proposent des solutions potentielles, comme le développement de nouveaux algorithmes capables de détecter et de filtrer les contenus générés par l’IA. D’autres appellent à une régulation plus stricte de l’utilisation de l’IA dans la création de contenus textuels.

    Les implications éthiques

    L’impact de l’IA générative sur les projets d’analyse linguistique soulève également des questions éthiques. La capacité de ces modèles à produire des textes indiscernables de ceux écrits par des humains pose des défis en termes de transparence et d’authenticité. Les chercheurs et les développeurs de technologies doivent trouver un équilibre entre l’innovation et la préservation de l’intégrité des données.

    Un impact plus large

    À une époque où l'intelligence artificielle est devenue un mot à la mode dans divers secteurs, son incursion dans le domaine de la littérature a suscité un mélange d'intrigue et d'inquiétude. Une enquête récente, axée sur le contenu de Google Books, a mis en lumière la présence potentielle de livres générés par des technologies d'IA.

    L'enquête du journaliste s'est appuyée sur une approche permettant d'identifier les éventuels contenus générés par l'IA dans Google Books. En recherchant l'expression « Depuis la dernière mise à jour de mes connaissances » - une expression communément associée à des programmes d'IA tels que ChatGPT - le journaliste a découvert un nombre surprenant de livres contenant cette expression et d'autres phrases similaires. Si certains de ces livres évoquent explicitement l'IA, notamment ChatGPT et les technologies connexes, ce qui indique qu'ils ont été écrits par des humains, une grande partie d'entre eux suscite des soupçons quant à leur origine.

    Un exemple notable est « Bears, Bulls, and Wolves : Stock Trading for the Twenty-Year-Old » de Tristan MacIver, publié en janvier 2024. Le langage et les explications de ce livre, en particulier en ce qui concerne les événements financiers complexes, semblent rappeler le contenu généralement généré par l'IA, à l'instar des niveaux de synthèse que l'on trouve dans les entrées de Wikipédia. Cette découverte et d'autres similaires suggèrent une tendance florissante à l'implication de l'IA dans la création littéraire, ce qui soulève des questions sur la nature de la paternité et l'authenticité du contenu dans les bibliothèques numériques.

    L'inclusion par Google de livres générés par l'IA dans Google Books polluerait les données utilisées dans Google Ngram viewer, un outil important utilisé par les chercheurs pour suivre l'utilisation de la langue à travers l'histoire. Ngram Viewer est une application linguistique proposée par Google, permettant d’observer l’évolution de la fréquence d’un ou de plusieurs mots ou groupes de mots à travers le temps dans les sources imprimées. L’outil est entré en service en 2010.

    Par ailleurs, le comportement terrible des entreprises d'IA générative, qui récupèrent le contenu disponible sur internet à des fins lucratives pour créer des machines à plagier, a naturellement incité les propriétaires de sites web à tenter de bloquer les robots d'exploration qui lisent leur site pour quelque raison que ce soit. Cela a eu pour effet de rendre beaucoup plus difficile le fonctionnement de projets de recherche et d'outils tels que Wordfreq, car les propriétaires de domaines modifient leurs règles robots.txt pour interdire le scraping.

    Conclusion

    La fin de Wordfreq illustre un défi majeur posé par l’IA générative : la pollution des données. Alors que ces technologies continuent de se développer, il devient crucial de trouver des moyens de distinguer les contenus générés des contenus authentiques pour préserver la qualité des analyses linguistiques. La communauté scientifique doit collaborer pour développer des solutions innovantes et garantir que les progrès technologiques ne compromettent pas la recherche académique.

    Source : note du projet

    Et vous ?

    Pensez-vous que l’IA générative devrait être davantage régulée pour éviter la pollution des données linguistiques ? Pourquoi ou pourquoi pas ?
    Quelles solutions proposez-vous pour distinguer les contenus générés par l’IA des contenus authentiques dans les bases de données linguistiques ?
    Croyez-vous que la fermeture de projets comme Wordfreq est une perte significative pour la recherche linguistique ?
    Comment les chercheurs peuvent-ils s’adapter à l’augmentation des contenus générés par l’IA dans leurs études ?
    Voyez-vous des avantages à l’utilisation de l’IA générative dans l’analyse linguistique, malgré les défis qu’elle pose ?
    Pensez-vous que les plateformes en ligne devraient offrir un accès gratuit aux données pour les projets de recherche open-source ?
    Selon vous, quelles sont les implications éthiques de l’utilisation de l’IA générative dans la création de contenus textuels ?
    Comment les institutions académiques et les chercheurs peuvent-ils collaborer pour surmonter les obstacles posés par l’IA générative ?
    Je vais certainement être pris pour un vieux réactionnaire, mais il suffit de regarder en arrière sur ce qu'est devenu le Web. Au début du web grand public, Internet était un espace qui permettait de s'informer, de partager un savoir. C'était une sorte de gigantesque encyclopédie, avec des informations de qualités.

    Depuis, petit à petit, on est passé de cette encyclopédie, à un grand bazar où on trouve tout et n'importe quoi. L'usage du smartphone a été le dernier clou du cerceuil du Web. Le smartphone a été la porte d'entrée à une publicité de plus en plus présente et de plus en plus ciblée.

    Le web est passé d'une information gratuite et de qualité, en un espace payant pour de la mauvaise qualité. Il y a bien quelques ilots qui résistent mais il sont de plus en plus rare.

    Le mieux qui pourrait arriver au web, c'est de le scinder en 2 avec d'un côté un web "de la connaissance" (ce qu'il était à son origine) et de laisser tout le reste dans le web tel qu'il est aoujourd'hui. C'est malheureusement une utopie, mais dans d'autres domaines (l'alimentation par exemple), on a créé des "labels de qualité", des "AOC", etc. Ce serait un travail de fourmis immense, car on part de loin, mais c'est la seule issue.

    Et l'IA, comme dit dans l'article, ne fait qu'aggraver le problème.

    BàV et Peace & Love.

Discussions similaires

  1. Réponses: 22
    Dernier message: 08/08/2022, 05h19
  2. Réponses: 1
    Dernier message: 31/01/2020, 13h36
  3. Réponses: 1
    Dernier message: 06/07/2019, 08h21
  4. Réponses: 2
    Dernier message: 04/03/2009, 12h00
  5. Réponses: 7
    Dernier message: 22/03/2008, 03h32

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo