Wordfreq : « l'IA générative a pollué les données ». Le projet qui analyse l'évolution de l'utilisation des mots dans plus de 40 langues s'arrête,
à cause de la prolifération des textes générés par IA
Le projet open-source Wordfreq, qui analysait l’évolution de l’utilisation des mots dans plus de 40 langues, a récemment été arrêté. La raison ? La prolifération des textes générés par l’intelligence artificielle (IA) a rendu les données inutilisables. Robyn Speer, la créatrice du projet, a annoncé cette décision en soulignant que l’IA générative a « pollué les données » à un point tel que l’analyse linguistique fiable est devenue impossible.
Dans une étude publiée dans Nature, des chercheurs de l'Université d'Oxford et de Cambridge mettent en garde contre le risque d'effondrement des modèles d'IA tels que GPT-4 lorsqu'ils sont formés sur des données générées par d'autres IA. Ils soulignent que l'utilisation sans discernement de contenus générés par l'IA entraîne des défauts irréversibles, qui ont une incidence sur les performances et l'équité de la prédiction des modèles.
En janvier, certains médias ont remarqué que Google Actualités favorisait les sites qui piratent d'autres médias en utilisant l'IA pour produire rapidement du contenu. Google a expliqué que, bien qu'elle tente de lutter contre le spam sur Google Actualités, la société ne se préoccupe pas de savoir si un article a été rédigé par une IA ou par un humain, ce qui ouvre la voie à l'apparition d'un plus grand nombre de contenus générés par l'IA sur Google Actualités.
La présence de contenus générés par l'IA dans Google Actualités est révélatrice de deux choses : tout d'abord, la nature « boîte noire » de Google Actualités, l'entrée dans les classements de Google Actualités étant un système opaque, mais apparemment jouable. Deuxièmement, Google n'est peut-être pas prêt à modérer son service d'actualités à l'ère de l'IA accessible au grand public, où n'importe qui peut produire une masse de contenu sans se soucier de sa qualité ou de son originalité.
Tandis que les textes générés par l'IA prolifèrent en ligne, le spam généré par l'IA pollue l'internet et est difficile à filtrer, ce qui rend la découverte, la recherche et l'internet humain beaucoup plus difficiles à trouver.
La fin de Wordfreq
Le créateur d'un projet open source qui analysait l'internet pour déterminer la popularité en constante évolution de différents mots dans l'usage du langage humain a annoncé qu'il mettait fin au projet parce que le spam de l'IA générative a empoisonné l'internet à un point tel que le projet n'a plus d'utilité.
Wordfreq est un programme qui suit l'évolution de l'utilisation de plus de 40 langues différentes en analysant des millions de sources telles que Wikipédia, les sous-titres de films et d'émissions télévisées, les articles de presse, les livres, les sites web, Twitter et Reddit. Le système peut être utilisé pour analyser l'évolution des habitudes linguistiques au fur et à mesure que l'argot et la culture populaire changent et que la langue évolue, et constitue une ressource pour les universitaires qui étudient ce genre de choses. Dans une note sur GitHub, la créatrice Robyn Speer a écrit que le projet « ne sera plus mis à jour ».
« L'IA générative a pollué les données », écrit-elle. « Je ne pense pas que quiconque dispose d'informations fiables sur l'utilisation des langues par les humains après 2021 ».
Elle a ajouté que le scraping de sites web ouverts constituait une part importante des sources de données du projet et que « maintenant, le web dans son ensemble est plein de déchets générés par de grands modèles de langage, écrits par personne pour ne rien communiquer. L'inclusion de ces erreurs dans les données fausse la fréquence des mots ».
Bien qu'il y ait toujours eu du spam sur l'internet et dans les ensembles de données utilisés par Wordfreq, « il était gérable et souvent identifiable. Les grands modèles de langage génèrent des textes qui se font passer pour du vrai langage avec une intention derrière, même s'il n'y en a pas, et leurs résultats apparaissent partout », écrit-elle. Elle donne l'exemple du ChatGPT qui utilise le mot « delve » (creuser, fouiller, plonger, suivant le contexte) à outrance, ce que les gens ne font pas, ce qui a perturbé la fréquence de ce mot spécifique.
Elle a également indiqué que le projet Wordfreq porte fondamentalement sur le traitement du langage naturel, qui est devenu inextricablement lié au développement de grands modèles de langage et à l'IA générative :
« Le domaine que je connais sous le nom de "traitement du langage naturel" est difficile à trouver de nos jours. Il est en train d'être dévoré par l'IA générative. D'autres techniques existent encore, mais l'IA générative aspire tout l'air de la pièce et reçoit tout l'argent. Il est rare de voir des recherches sur le NLP qui ne dépendent pas de données fermées contrôlées par OpenAI et Google, deux entreprises que je méprise déjà.
« Wordfreq a été construit en collectant un grand nombre de textes dans un grand nombre de langues. Auparavant, il s'agissait d'une pratique assez raisonnable, à laquelle personne ne s'opposerait. Aujourd'hui, les outils de collecte de texte sont principalement utilisés pour former l'IA générative, et les gens sont à juste titre sur la défensive. Si quelqu'un collecte tous les textes de vos livres, articles, sites web ou messages publics, c'est très probablement parce qu'il est en train de créer une machine à plagier qui revendiquera vos mots comme étant les siens ».
Speer souligne également le fait que les données relatives au web scraping sont plus difficiles à obtenir depuis que Twitter et Reddit, qui sont des sites inclus dans Wordfreq, ont commencé à faire payer l'accès à leurs API.
Conséquences pour la recherche
La fermeture de Wordfreq est un coup dur pour les chercheurs et les universitaires qui s’appuyaient sur ces données pour étudier les évolutions linguistiques. Speer a également mentionné que les changements dans l’accès aux données en ligne, notamment les restrictions imposées par Twitter et Reddit, ont contribué à cette décision. Ces plateformes, autrefois sources de données gratuites, sont désormais payantes, compliquant encore plus la collecte de données pour des projets open-source.
« L'information qui était gratuite est devenue chère », a écrit Speer. Elle a terminé sa note en disant qu'elle ne voulait plus faire partie de l'industrie.
« Je ne veux pas travailler sur quoi que ce soit qui puisse être confondu avec l'IA générative, ou qui puisse bénéficier à l'IA générative », a-t-elle écrit. « OpenAI et Google peuvent collecter leurs propres données. J'espère qu'ils devront payer un prix très élevé pour cela, et j'espère qu'ils maudissent constamment le gâchis qu'ils ont eux-mêmes créé. »
Les réactions de la communauté scientifique
La communauté scientifique a réagi avec inquiétude à cette nouvelle. De nombreux chercheurs soulignent que la fermeture de Wordfreq pourrait ralentir les progrès dans le domaine de la linguistique computationnelle. Certains proposent des solutions potentielles, comme le développement de nouveaux algorithmes capables de détecter et de filtrer les contenus générés par l’IA. D’autres appellent à une régulation plus stricte de l’utilisation de l’IA dans la création de contenus textuels.
Les implications éthiques
L’impact de l’IA générative sur les projets d’analyse linguistique soulève également des questions éthiques. La capacité de ces modèles à produire des textes indiscernables de ceux écrits par des humains pose des défis en termes de transparence et d’authenticité. Les chercheurs et les développeurs de technologies doivent trouver un équilibre entre l’innovation et la préservation de l’intégrité des données.
Un impact plus large
À une époque où l'intelligence artificielle est devenue un mot à la mode dans divers secteurs, son incursion dans le domaine de la littérature a suscité un mélange d'intrigue et d'inquiétude. Une enquête récente, axée sur le contenu de Google Books, a mis en lumière la présence potentielle de livres générés par des technologies d'IA.
L'enquête du journaliste s'est appuyée sur une approche permettant d'identifier les éventuels contenus générés par l'IA dans Google Books. En recherchant l'expression « Depuis la dernière mise à jour de mes connaissances » - une expression communément associée à des programmes d'IA tels que ChatGPT - le journaliste a découvert un nombre surprenant de livres contenant cette expression et d'autres phrases similaires. Si certains de ces livres évoquent explicitement l'IA, notamment ChatGPT et les technologies connexes, ce qui indique qu'ils ont été écrits par des humains, une grande partie d'entre eux suscite des soupçons quant à leur origine.
Un exemple notable est « Bears, Bulls, and Wolves : Stock Trading for the Twenty-Year-Old » de Tristan MacIver, publié en janvier 2024. Le langage et les explications de ce livre, en particulier en ce qui concerne les événements financiers complexes, semblent rappeler le contenu généralement généré par l'IA, à l'instar des niveaux de synthèse que l'on trouve dans les entrées de Wikipédia. Cette découverte et d'autres similaires suggèrent une tendance florissante à l'implication de l'IA dans la création littéraire, ce qui soulève des questions sur la nature de la paternité et l'authenticité du contenu dans les bibliothèques numériques.
L'inclusion par Google de livres générés par l'IA dans Google Books polluerait les données utilisées dans Google Ngram viewer, un outil important utilisé par les chercheurs pour suivre l'utilisation de la langue à travers l'histoire. Ngram Viewer est une application linguistique proposée par Google, permettant d’observer l’évolution de la fréquence d’un ou de plusieurs mots ou groupes de mots à travers le temps dans les sources imprimées. L’outil est entré en service en 2010.
Par ailleurs, le comportement terrible des entreprises d'IA générative, qui récupèrent le contenu disponible sur internet à des fins lucratives pour créer des machines à plagier, a naturellement incité les propriétaires de sites web à tenter de bloquer les robots d'exploration qui lisent leur site pour quelque raison que ce soit. Cela a eu pour effet de rendre beaucoup plus difficile le fonctionnement de projets de recherche et d'outils tels que Wordfreq, car les propriétaires de domaines modifient leurs règles robots.txt pour interdire le scraping.
Conclusion
La fin de Wordfreq illustre un défi majeur posé par l’IA générative : la pollution des données. Alors que ces technologies continuent de se développer, il devient crucial de trouver des moyens de distinguer les contenus générés des contenus authentiques pour préserver la qualité des analyses linguistiques. La communauté scientifique doit collaborer pour développer des solutions innovantes et garantir que les progrès technologiques ne compromettent pas la recherche académique.
Source :
note du projet
Et vous ?
Pensez-vous que l’IA générative devrait être davantage régulée pour éviter la pollution des données linguistiques ? Pourquoi ou pourquoi pas ?
Quelles solutions proposez-vous pour distinguer les contenus générés par l’IA des contenus authentiques dans les bases de données linguistiques ?
Croyez-vous que la fermeture de projets comme Wordfreq est une perte significative pour la recherche linguistique ?
Comment les chercheurs peuvent-ils s’adapter à l’augmentation des contenus générés par l’IA dans leurs études ?
Voyez-vous des avantages à l’utilisation de l’IA générative dans l’analyse linguistique, malgré les défis qu’elle pose ?
Pensez-vous que les plateformes en ligne devraient offrir un accès gratuit aux données pour les projets de recherche open-source ?
Selon vous, quelles sont les implications éthiques de l’utilisation de l’IA générative dans la création de contenus textuels ?
Comment les institutions académiques et les chercheurs peuvent-ils collaborer pour surmonter les obstacles posés par l’IA générative ?
Partager