IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Wikimedia Enterprise signe des accords payants avec Microsoft, Meta, Amazon, Perplexity et Mistral AI


Sujet :

Intelligence artificielle

  1. #21
    Membre actif
    Homme Profil pro
    Multi casquettes
    Inscrit en
    Avril 2018
    Messages
    22
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Multi casquettes
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Avril 2018
    Messages : 22
    Par défaut
    Article que tu met en lien :
    Le Point applique les méthodes de l'extrême droite pour faire taire un contributeur
    Non, intimider ses contradicteur est bien une méthode éprouvée de la gauche, qui peut aller jusqu'à faire virer untel de son boulot ou lancer une campagne de dénigrement (la base étant de commencer par accuser tout contradicteur d'être "d'extrêm'droite" pour le disqualifier).
    C'est même le fond de commerce de l'entité "Sleeping Giants", et de tout gauchiste qui se définit ainsi, avec le fameux "Je ne peux pas vous laisser dire ça (je dois donc vous faire taire)" qui transforme en acte moral le fait de faire taire quelqu'un. (vous écouterez les chroniqueurs ou journalistes qui utilisent cette fameux sentence à la moindre occasion, comme Jean Michel Aphatie qui en est la caricature, comme n'importe quel député socialise (curieusement, les LFI n'ont pas ce réflexe, ils semblent accepter le débat, eux; fruit d'avoir été longtemps dans l'opposition sans doute)


    Ou alors cela traduit il le fait que les "gauchistes" soient davantage enclins à vouloir partager (ou mettre en avant) leur connaissance (ou leurs convictions) sur Wikipédia que les "droitistes" ?
    Tu sais très bien que tu dis n'importe quoi, mais tu le dis quand même.
    La question n'est pas "les gens de gauche donnent partagent-ils plus leur connaissance que les gens de droite ? (en admettant que cette bipolarité existe encore, je pense qu'il faut la requalifier)
    Mais les gens qui ont un récit à imposer ont plus d'énergie que ceux qui veulent se contenter d'exposer des faits. Toujours les mêmes en fait, puisque ce sont des faits. Le récit, lui,peut changer, évoluer, s'améliorer... les faits sont stupidement les mêmes qu'on ne peut pas répéter à l'infini sans lasser.

    Comme le dit ton article :"Derrière cette offensive, il y a une réalité simple : Le Point ne cherche pas tant à corriger une erreur qu’à imposer son propre récit"

    Et j'ajouterai, avec autant de mauvaise foi que toi : "les gens de gauche ont plus de temps libre pour inonder Wikipedia de leur narratif, quand les gens de droite, eux, travaillent pour payer allocations des gens de gauche".

    Je n'ai pas le temps de modifier 200 fois un article dans ma journée. Les auteurs qui déclarent que Wikipedia doit être calquée sur l'Encyclopédie de Diderot et dénoncer ceci ou cela ont manifestement tout le temps qu'ils veulent pour inonder le média. Les auteurs dont je parle ont en effet plus de 1 000 articles à leur compteurs, quand j'en ai seulement, 4 ou 5.

    Et s'ils trustent le média pour empêcher toute contradiction, oui effectivement Wikipedia est vérolé et s'il disparait, ce ne sera qu'un organe de propagande de la gauche de plus qui s'efface.

    Et je suis plutôt heureux que les IA n'aillent pas y chercher de nourriture
    Je ne me battrais pas pour qu'il survive.

  2. #22
    Responsable Systèmes


    Homme Profil pro
    Gestion de parcs informatique
    Inscrit en
    Août 2011
    Messages
    18 532
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Gestion de parcs informatique
    Secteur : High Tech - Matériel informatique

    Informations forums :
    Inscription : Août 2011
    Messages : 18 532
    Par défaut
    La question n'est pas la fiabilité de Wikipedia mais le fait que le nombre de visites de visiteurs humains diminuent au profil de l'IA.

    En cas de source contradictoire, l'IA n'a aucun moyen de dire qu'elle est la source fiable, à moins de lui dire dans le prompt (sous réserve qu'il en soit tenu compte) ou de prendre en compte une majorité. La quantité n'est pas la qualité.
    Ma page sur developpez.com : http://chrtophe.developpez.com/ (avec mes articles)
    Mon article sur le P2V, mon article sur le cloud
    Consultez nos FAQ : Windows, Linux, Virtualisation

  3. #23
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 973
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 973
    Par défaut Wikimedia Enterprise signe des accords payants avec Microsoft, Meta, Amazon, Perplexity et Mistral AI
    Wikimedia Enterprise signe des accords payants avec Microsoft, Meta, Amazon, Perplexity et Mistral AI pour former leurs IA
    Wikipédia peut-elle rester libre quand l’IA transforme le savoir en avantage concurrentiel ?

    Pendant des années, Wikipédia a prospéré comme un symbole rare de l’Internet d’avant la captation généralisée de la valeur : un savoir produit collectivement, accessible gratuitement, protégé par des licences ouvertes. L’irruption de l’intelligence artificielle générative bouleverse cet équilibre. En acceptant de négocier des accords de licence avec des entreprises de l’IA, l’encyclopédie libre ne trahit pas frontalement ses principes, mais elle admet une réalité plus dérangeante : le web ouvert ne survit plus dans un écosystème où l’IA industrielle consomme sans rendre.

    Le problème n’est pas nouveau, mais il a changé d’échelle. Depuis que les modèles de langage se sont imposés comme produits commerciaux, Wikipédia est devenue une cible privilégiée pour l’aspiration automatisée de contenus. Là où le trafic humain progressait lentement, les requêtes machine explosent. Ce sont des grappes de serveurs, des pipelines d’entraînement et des processus d’indexation qui frappent à la porte, jour et nuit.

    Pour la fondation Wikimedia, cette pression n’est pas théorique. Elle se traduit par des coûts opérationnels bien réels, supportés par des dons individuels et par une organisation à but non lucratif. Autrement dit, des millions de contributeurs et de donateurs financent indirectement la matière première de produits d’IA propriétaires, parfois valorisés en dizaines de milliards de dollars. Le déséquilibre économique est devenu trop visible pour être ignoré.

    En fait, les internautes adoptent de plus en plus l'IA pour la recherche en ligne. Bien que les hallucinations des modèles d'IA restent un problème majeur, davantage d'internautes préfèrent passer par les chatbots pour obtenir une réponse immédiate et simplifiée à leurs questions. En raison de ce phénomène, les clics sur les liens contenus dans la page de résultats d'un moteur de recherche (SERP) diminuent, ce qui se traduit par la baisse du trafic des sites.

    La Fondation Wikimédia a tiré la sonnette d'alarme : Wikipédia constate une baisse significative du trafic humain vers l'encyclopédie en ligne. Dans un billet de blog, Marshall Miller, directeur principal des produits de la Fondation Wikimédia, a abordé cette question. « Avec moins de visites sur Wikipédia, moins de bénévoles pourraient développer et enrichir le contenu, et moins de donateurs individuels pourraient soutenir ce travail », a-t-il déclaré.

    Citation Envoyé par Marshall Miller
    Nous saluons les nouvelles façons dont les gens acquièrent des connaissances. Cependant, les chatbots d'IA, les moteurs de recherche et les plateformes sociales qui utilisent le contenu de Wikipédia doivent encourager davantage de visiteurs à se rendre sur Wikipédia, afin que les connaissances libres dont dépendent tant de personnes et de plateformes puissent continuer à circuler de manière durable.
    Marshall Miller a déclaré qu'en mai 2025, Wikipédia avait remarqué un trafic humain anormalement élevé provenant principalement du Brésil. Il n'est pas entré dans les détails, mais a expliqué que cela avait conduit la Fondation Wikimédia à mettre à jour ses systèmes de détection des robots. Après avoir procédé à cette révision, Wikipédia a constaté une baisse du nombre de pages vues par les utilisateurs sur Wikipédia au cours des derniers mois.

    Cela représente une diminution d'environ 8 % par rapport aux mêmes mois en 2024. « Nous pensons que cette baisse reflète l'impact de l'IA générative et des réseaux sociaux sur la manière dont les gens recherchent des informations, en particulier avec les moteurs de recherche qui fournissent des réponses directes aux utilisateurs, souvent basées sur le contenu de Wikipédia », a déclaré Marshall Miller. Les choses pourraient rapidement s'aggraver.

    Nom : pageview.png
Affichages : 6955
Taille : 30,2 Ko

    La licence comme aveu d’impuissance structurelle

    Jeudi, la Fondation Wikimedia a annoncé la conclusion d'accords de licence avec Microsoft, Meta, Amazon, Perplexity et Mistral AI, élargissant ainsi ses efforts visant à faire payer les grandes entreprises technologiques pour l'utilisation du contenu de Wikipédia afin de former les modèles d'IA qui alimentent les assistants IA tels que Microsoft Copilot et ChatGPT d'OpenAI.

    Alors que ces mêmes entreprises récupéraient auparavant le contenu de Wikipédia sans autorisation, ces accords signifient que la plupart des grands développeurs d'IA ont désormais adhéré au programme Wikimedia Enterprise de la fondation, une filiale commerciale qui vend un accès API aux 65 millions d'articles de Wikipédia à des vitesses et des volumes supérieurs à ceux offerts par les API publiques gratuites. La fondation n'a pas divulgué les conditions financières de ces accords.

    Les nouveaux partenaires rejoignent Google, qui a signé un accord avec Wikimedia Enterprise en 2022, ainsi que des entreprises plus petites telles qu'Ecosia, Nomic, Pleias, ProRata et Reef Media. Les revenus contribuent à compenser les coûts d'infrastructure de l'organisation à but non lucratif, qui dépend autrement de petits dons publics tout en voyant son contenu devenir un élément essentiel des données d'entraînement pour les modèles d'IA.

    « Wikipédia est un élément essentiel du travail de ces entreprises technologiques, qui doivent trouver le moyen de le soutenir financièrement », a déclaré Lane Becker, président de Wikimedia Enterprise, à Reuters. « Il nous a fallu un certain temps pour comprendre quelles étaient les fonctionnalités et les caractéristiques à proposer si nous voulions faire passer ces entreprises de notre plateforme gratuite à une plateforme commerciale... mais tous nos partenaires Big Tech comprennent vraiment la nécessité de s'engager à soutenir le travail de Wikipédia. »

    Citation Envoyé par Wikimedia
    Les progrès réalisés par Wikipédia au cours des 25 dernières années soulignent son importance croissante dans le monde en ligne d'aujourd'hui. Voici quelques-unes des façons dont elle s'est développée et a évolué au fil des ans :
    • De nouveaux partenariats avec des entreprises technologiques soutiennent la pérennité de Wikipédia : les entreprises technologiques qui s'appuient sur le contenu de Wikipédia doivent l'utiliser de manière responsable et contribuer à la pérennité de Wikipédia pour l'avenir. La plateforme Wikimedia Enterprise est un moyen essentiel d'y parvenir. Développée par la Fondation Wikimedia, Wikimedia Enterprise est un produit commercial destiné aux grands réutilisateurs et distributeurs de contenu provenant des projets Wikimedia. Au cours de l'année écoulée, plusieurs entreprises, dont Ecosia, Microsoft, Mistral AI, Perplexity, Pleias et ProRata, sont devenues de nouveaux partenaires de Wikimedia Enterprise, rejoignant ainsi des partenaires existants tels qu'Amazon, Google et Meta. Ils peuvent accéder au contenu des projets Wikimedia à un volume et à une vitesse spécialement adaptés à leurs besoins, tout en soutenant directement notre mission à but non lucratif.
    • Mettre en œuvre une stratégie d'IA qui donne la priorité à l'humain : la récente stratégie d'IA de la Fondation oriente les investissements et les développements futurs dans le domaine de l'IA afin de soutenir les contributeurs humains qui sont au cœur de Wikipédia, afin qu'ils puissent consacrer leur temps précieux à ce qu'ils veulent accomplir et non à la manière d'y parvenir techniquement.
    Présentés comme un simple ajustement pragmatique, les accords de licence constituent en réalité un aveu plus profond : les licences ouvertes ne suffisent plus à protéger les communs numériques face à l’industrialisation de l’IA. En théorie, tout le monde peut réutiliser Wikipédia. En pratique, seuls les acteurs disposant d’une puissance de calcul massive peuvent transformer ce savoir en avantage concurrentiel durable.

    La fondation ne ferme pas l’accès aux contenus. Elle tente de distinguer l’usage individuel et éducatif de l’exploitation industrielle à grande échelle. Cette nuance est juridiquement défendable, mais politiquement fragile. Elle entérine l’idée que le web ouvert a besoin de péages sélectifs pour survivre face à des acteurs capables d’absorber des volumes colossaux de données sans friction.

    Nom : wiki.png
Affichages : 943
Taille : 441,7 Ko

    Le coût de la connaissance « gratuite »

    La pression en faveur des licences payantes fait suite à des années d'augmentation des coûts d'infrastructure, les entreprises d'IA ayant récupéré le contenu de Wikipédia à une échelle industrielle. En avril 2025, la fondation a signalé que la bande passante utilisée pour télécharger du contenu multimédia avait augmenté de 50 % depuis janvier 2024, les robots représentant 65 % des requêtes les plus coûteuses pour l'infrastructure centrale, alors qu'ils ne représentaient que 35 % du nombre total de pages vues.

    En octobre, la Fondation Wikimedia a révélé que le trafic humain vers Wikipédia avait chuté d'environ 8 % d'une année sur l'autre après que l'organisation ait mis à jour ses systèmes de détection des robots et découvert qu'une grande partie de ce qui semblait être des visiteurs humains était en fait des scrapers automatisés conçus pour échapper à la détection.

    La baisse du trafic menace la boucle de rétroaction qui soutient Wikipédia depuis un quart de siècle : les lecteurs visitent le site, certains deviennent éditeurs ou donateurs, et le contenu s'améliore ostensiblement. Mais aujourd'hui, de nombreux chatbots IA et résumés de moteurs de recherche répondent aux questions en utilisant le contenu de Wikipédia sans renvoyer les utilisateurs vers le site lui-même.

    Jimmy Wales et la défense d’un idéal sous contrainte

    Jimmy Wales continue de marteler que l’indépendance éditoriale et communautaire de Wikipédia n’est pas négociable. Aucun accord de licence, affirme-t-il, ne donnera un droit de regard aux entreprises de l’IA sur le contenu ou la gouvernance. Cette ligne est essentielle, mais elle révèle aussi la tension centrale du moment : l’idéal est intact, le contexte ne l’est plus.

    Car même sans contrôle éditorial, l’influence économique existe. Lorsque des acteurs commerciaux deviennent des partenaires financiers, même indirects, la tentation d’adapter les priorités techniques ou l’accès aux données est réelle. Wikipédia marche ici sur une ligne de crête où chaque décision sera scrutée par une communauté historiquement méfiante envers toute forme de marchandisation.

    Une communauté face au risque de dépossession symbolique

    Du point de vue des contributeurs, le malaise est palpable. Beaucoup acceptent l’idée que les entreprises d’IA doivent payer pour un usage intensif et automatisé. D’autres redoutent un glissement progressif : aujourd’hui la licence, demain des API privilégiées, après-demain une hiérarchisation implicite des usages.

    Le cœur du problème est symbolique autant que financier. Wikipédia n’est pas seulement un site web, c’est une promesse : celle qu’un savoir produit par des bénévoles reste au service du public. Voir ce savoir devenir une ligne comptable dans des négociations avec des entreprises d’IA fragilise cette promesse, même si les intentions affichées restent vertueuses.

    L’IA comme prédatrice des communs numériques

    Ce qui se joue ici dépasse largement Wikipédia. Le cas de l’encyclopédie met en lumière un modèle économique de l’IA fondamentalement extractif. Les systèmes génératifs prospèrent en absorbant des décennies de travail collectif, souvent sans compensation, puis en enfermant les résultats dans des services payants ou fermés.

    Si Wikipédia, symbole mondial du savoir libre, estime nécessaire de facturer certains usages, c’est un signal d’alarme pour tout l’écosystème du web ouvert. Blogs, forums, projets open source et bases de données publiques sont confrontés au même dilemme : rester ouverts au risque d’être vidés de leur valeur, ou instaurer des barrières au risque de renier leur ADN.

    Un précédent qui dérange plus qu’il ne rassure

    La décision de Wikipédia n’est ni une trahison ni une solution miracle. Elle est le symptôme d’un Internet arrivé à un point de rupture. En tentant de monétiser partiellement l’usage industriel de ses contenus, l’encyclopédie cherche à survivre sans se renier. Mais elle révèle surtout une vérité inconfortable : l’IA contemporaine ne sait pas coexister naturellement avec les biens communs.

    La question n’est donc pas de savoir si Wikipédia a raison ou tort, mais ce que cette décision annonce. Si le web ouvert doit désormais se protéger contre ceux qui en tirent le plus de valeur, alors c’est tout le récit d’un Internet libre et collaboratif qui vacille. Et avec lui, l’idée que le progrès technologique peut encore s’appuyer durablement sur le bénévolat et la confiance collective.

    Source : Wikimedia Foundation

    Et vous ?

    La décision de Wikipédia de conclure des accords de licence avec des acteurs de l’IA marque-t-elle une adaptation lucide à un nouvel équilibre économique ou l’aveu que le modèle du web ouvert est devenu intenable face à l’industrialisation de l’intelligence artificielle ?

    Qu'en est-il des auteurs bénévoles à qui on n'a pas demandé l'avis ?

    Peut-on encore parler de « savoir libre » lorsque ce même savoir devient une ressource stratégique monétisée dans des négociations avec des entreprises privées, même si l’accès grand public reste officiellement gratuit ?

    Les licences payantes pour l’IA créent-elles une distinction légitime entre usages humains et usages industriels, ou ouvrent-elles la voie à une hiérarchisation implicite des utilisateurs du web ?

    En acceptant de faire payer les entreprises d’IA, Wikipédia ne risque-t-elle pas de déplacer le problème sans le résoudre, en légitimant un modèle d’IA fondamentalement extractif plutôt qu’en le remettant en cause ?

    Voir aussi :

    Wikipedia demande enfin aux grandes entreprises de payer : Wikimedia Enterprise offrira de nouvelles options aux entreprises qui utilisent son contenu, mais Wikipedia et son API resteront gratuits

    Abstract Wikipedia, le projet expérimental de l'encyclopédie en ligne, utilise un langage de description pour générer du contenu dans d'autres langues
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  4. #24
    Membre chevronné Avatar de der§en
    Homme Profil pro
    Chambord
    Inscrit en
    Septembre 2005
    Messages
    1 313
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Loir et Cher (Centre)

    Informations professionnelles :
    Activité : Chambord
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Septembre 2005
    Messages : 1 313
    Par défaut
    Peux-t-on vraiment affirmer être libre quand on est aussi orienté politiquement que Wikipédia ?

  5. #25
    Membre éprouvé
    Avatar de Matthieu Vergne
    Homme Profil pro
    Consultant IT, chercheur IA indépendant
    Inscrit en
    Novembre 2011
    Messages
    2 452
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Consultant IT, chercheur IA indépendant
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Novembre 2011
    Messages : 2 452
    Billets dans le blog
    3
    Par défaut
    Je me place en faux vis à vis de l'article. Le contenu de Wikipedia est un commun, accessible gratuitement, mais nombre de LLMs le sont tout autant : il suffit d'aller sur Hugging Face pour les récupérer gratuitement. On reste dans la même zone. Là où les entreprises interviennent avec leurs pratiques commerciales, c'est pour la création du modèle et son exécution. En tant qu'utilisateur, on peut récupérer le modèle gratuitement et le faire tourner soit-même.

    Qu'on me comprenne bien : je me place en faux vis à vis de l'article, pas de Wikimedia. Wikimedia a raison de les faire payer : ce n'est qu'un juste retour des choses puisque ça leur permet d'étendre leur business. Mais présenter ça comme le premier clou dans le cercueil des communs me semble fallacieux.

    On pourra me rétorquer que les modèles qui tournent chez les grandes firmes sont sans commune mesure avec ce qu'on peut faire tourner localement, mais je répondrai que "justement" sans ces firmes on serait de toutes façon incapable de faire tourner ces gigantesques modèles. Ce sont les utilisateurs qui courent après toujours plus gros qui sont bien obligés de compter sur d'autres pour l'obtenir. Mais en ont-ils seulement besoin ? Avec un modèle à 7B de paramètres qui tourne sur mon ordi à 6GB de VRAM, ça me suffit largement à faire du chat et de l'autocomplétion quand je code. Je peux même pousser à 30B mais sur CPU, car j'ai poussé ma RAM à 64GB, mais ça reste bien plus lent que le 7B sur GPU. C'est un choix. Avec ça je continue d'aller sur Wikipedia régulièrement. Et franchement, je n'ai pas besoin de plus. De toute façon, même énorme un modèle peut toujours déblatérer des sottises, et on ne sait jamais quand. Donc autant rester à un niveau raisonnable en sachant ça et continuer à aller voir les sources.

    Et l'agentique, pas pour moi tant qu'on restera sur la techno actuelle de LLM. Car faut forcément passer derrière pour vérifier et j'ai autre chose à faire de mon temps que de le passer sur un brouhaha plus verbeux que nécessaire. Quand on aura une techno fiable, là ça m'intéressera, et pas dit qu'il soit nécessaire d'être énorme non plus.
    Site perso
    Recommandations pour débattre sainement

    Références récurrentes :
    The Cambridge Handbook of Expertise and Expert Performance
    L’Art d’avoir toujours raison (ou ce qu'il faut éviter pour pas que je vous saute à la gorge {^_^})

  6. #26
    Responsable Systèmes


    Homme Profil pro
    Gestion de parcs informatique
    Inscrit en
    Août 2011
    Messages
    18 532
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Gestion de parcs informatique
    Secteur : High Tech - Matériel informatique

    Informations forums :
    Inscription : Août 2011
    Messages : 18 532
    Par défaut
    Il s'agit d'un prob de survie de Wikipedia à long terme.

    Je suis d'accord avec toi sur l'usage commercial-non commercial, bien que les géants de l'IA ont souvent une version gratuite d'appel et une version payante, et la version gratuite sert fort probablement pour entrainer et améliorer la version payante.

    Les gens risquent de perdre le réflexe d'aller sur Wikipedia pour prompter, on en est pas encore là mais bon.

    Il est normal que les géants de l'IA utilisant massivement Wikipedia y contribuent financièrement.

    Wikipedia permet de toute façon de télécharger offline tout leur contenu
    Ma page sur developpez.com : http://chrtophe.developpez.com/ (avec mes articles)
    Mon article sur le P2V, mon article sur le cloud
    Consultez nos FAQ : Windows, Linux, Virtualisation

  7. #27
    Communiqués de presse

    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Avril 2025
    Messages
    605
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Rédacteur technique

    Informations forums :
    Inscription : Avril 2025
    Messages : 605
    Par défaut Wikipédia a interdit les textes générés par l'IA, après avoir été confrontée à des faits erronés
    Wikipédia a interdit les textes générés par l'IA, après avoir été confrontée à des faits erronés, des citations invérifiables, des perturbations dans la collaboration et des exemples d'échecs liés à l'IA

    Wikipédia, l'encyclopédie en ligne tant appréciée, débat depuis un certain temps sur la manière de gérer l'utilisation des grands modèles de langage (LLM) dans ses articles. Désormais, cette pratique est officiellement interdite, à l'exception de quelques cas particuliers dans le cadre de la révision et de la traduction. Après de longs débats, la nouvelle politique est entrée en vigueur : les auteurs de Wikipédia ne sont pas autorisés à utiliser les LLM pour générer ou réécrire le contenu des articles. Il existe toutefois deux exceptions principales. Premièrement, les contributeurs peuvent utiliser les LLM pour suggérer des améliorations à leurs propres textes, à condition que l'exactitude des modifications soit vérifiée. La deuxième exception concernant les LLM concerne l’aide à la traduction.

    Wikipédia est une encyclopédie en ligne gratuite rédigée et mise à jour par une communauté de bénévoles grâce à une collaboration ouverte et au logiciel wiki MediaWiki. Fondée par Jimmy Wales et Larry Sanger en 2001, Wikipédia est hébergée depuis 2003 par la Fondation Wikimedia, une organisation américaine à but non lucratif financée principalement par les dons des lecteurs. Wikipédia est l'ouvrage de référence le plus volumineux et le plus lu de l'histoire.

    En mai 2025, la Fondation Wikimedia a annoncé utiliser l'IA pour rationaliser les opérations et améliorer l'expérience de l'utilisateur sur Wikipédia. « Nous utiliserons l'IA pour créer des fonctionnalités qui éliminent les obstacles techniques afin de permettre aux personnes qui sont au cœur de Wikipédia de consacrer leur temps précieux à ce qu'ils veulent accomplir, et non à la manière d'y parvenir techniquement. » La Fondation Wikimedia prévoyait d'utiliser l'IA pour automatiser les tâches fastidieuses, améliorer la recherche d'informations, faciliter les traductions et aider à l'intégration des nouveaux bénévoles.

    Cependant, dans une annonce récente, la Fondation Wikimedia semble changer d'avis. Wikipédia, l'encyclopédie en ligne tant appréciée, débat depuis un certain temps sur la manière de gérer l'utilisation des grands modèles de langage (LLM) dans ses articles. Désormais, cette pratique est officiellement interdite, à l'exception de quelques cas particuliers dans le cadre de la révision et de la traduction.

    L'administrateur de Wikipédia Chaotic Enby a expliqué dans la proposition initiale : « Les propositions antérieures visant à établir une ligne directrice communautaire immédiate et exhaustive sur les LLM ont échoué en raison des difficultés habituelles liées au traitement simultané de problèmes complexes et de grande envergure : les contributeurs, même ceux qui approuvaient globalement les objectifs de ces propositions, ont relevé des problèmes spécifiques dans certaines parties et ont critiqué le fait qu'elles étaient trop vagues ou trop précises. Un consensus existait sur l'idée du changement, mais pas sur sa mise en œuvre. »

    Nom : 1.jpg
Affichages : 4646
Taille : 41,3 Ko

    Après de longs débats, la nouvelle politique est entrée en vigueur : les auteurs de Wikipédia ne sont pas autorisés à utiliser les LLM pour générer ou réécrire le contenu des articles. Il existe toutefois deux exceptions principales.

    Premièrement, les contributeurs peuvent utiliser les LLM pour suggérer des améliorations à leurs propres textes, à condition que l'exactitude des modifications soit vérifiée. En d'autres termes, ces outils sont traités comme n'importe quel autre correcteur grammatical ou outil d'aide à la rédaction. La politique stipule : « Les LLM peuvent aller au-delà de ce que vous leur demandez et modifier le sens du texte de telle sorte qu’il ne soit plus étayé par les sources citées. »

    La deuxième exception concernant les LLM concerne l’aide à la traduction. Les contributeurs peuvent utiliser des outils d’IA pour une première traduction du texte, mais ils doivent tout de même maîtriser suffisamment les deux langues pour repérer les erreurs. Comme pour les améliorations rédactionnelles habituelles, toute personne utilisant des LLM doit également vérifier qu’aucune information erronée n’a été introduite.

    Il est important de noter que cette politique s'applique uniquement à Wikipédia en anglais (en.wikipedia.org). Chaque site Wikipédia dispose de ses propres règles et équipes de rédaction indépendantes, et d'autres sites peuvent décider d'adopter des règles différentes. Par exemple, Wikipédia en espagnol (es.wikipedia.org) interdit actuellement l'utilisation des LLM pour créer de nouveaux articles Wikipédia à partir de zéro ou pour développer des entrées existantes, sans exception spécifique pour la traduction ou l'aide à la rédaction.

    Malheureusement, l'identification des textes rédigés à l'aide de LLM reste une science imparfaite, de sorte que certains textes de mauvaise qualité générés par l'IA peuvent encore apparaître sur des pages moins fréquemment modérées. Wikipédia propose quelques conseils pour repérer les textes générés par des LLM, mais la page de la politique précise également que « certains contributeurs peuvent avoir des styles d'écriture similaires à ceux des LLM ».

    Ces problèmes représentent une partie des défis posés par l'IA. En avril 2025, la Fondation Wikimedia avait soulevé un autre problème. La fondation a annoncé que le scraping incessant de l'IA mettait à rude épreuve les serveurs de Wikipédia. Des robots automatisés à la recherche de données d'entraînement de modèles d'IA pour des LLM ont aspiré des téraoctets de données, augmentant de 50 % la bande passante utilisée par la fondation pour télécharger des contenus multimédias depuis janvier 2024. Cette croissance exponentielle du trafic non humain a imposé des coûts techniques et financiers considérables, souvent sans l'attribution qui aide à soutenir l'écosystème bénévole de Wikimedia.

    Puis en octobre 2025, Wikipédia a alerté sur l'impact de l'IA sur la plateforme : l'encyclopédie en ligne est confrontée à une baisse significative du trafic humain. De plus en plus d'internautes obtiennent les informations contenues dans Wikipédia via des chatbots d'IA générative tels que ChatGPT et Gemini. Les chatbots répondent directement, en s’appuyant sur les contenus existants, sans rediriger vers les créateurs. L'IA ruine le trafic et le modèle économique des sites Web, tout en transformant la toile en une immense base de contenus recyclés par des bots, sans originalité. La Fondation Wikimédia affirme que cela représente un risque pour la viabilité à long terme de Wikipédia.

    Source : Wikipedia:Writing articles with large language models

    Voici la traduction d'un essai humoristique qui montre la justesse de cette décision :

    Wikipédia : Arguments contre les articles générés par les grands modèles de langage (LLM)

    À l'ère des grands modèles de langage (LLM) tels que ChatGPT, il peut être tentant d'utiliser ces outils pour générer rapidement des articles Wikipédia. Leur style fluide et leur rapidité de production constituent un raccourci séduisant. Cependant, la communauté des contributeurs de Wikipédia s'oppose massivement à ce que les LLM rédigent notre contenu. La raison est simple : ces textes générés par l'IA menacent les principes fondamentaux qui font la fiabilité de Wikipédia. Nous avons constaté que demander à un LLM d’« écrire un article Wikipédia » peut aboutir à de pures inventions, accompagnées de références fictives. Des inexactitudes factuelles que les lecteurs pourraient ne jamais repérer aux citations qui ne mènent nulle part, le contenu créé par les LLM présente des risques que Wikipédia ne peut se permettre. Cet essai expose les préoccupations profondes de la communauté – inexactitudes factuelles et hallucinations, sources invérifiables et fausses citations, atteinte au modèle d'édition collaborative et érosion à long terme de l'intégrité du contenu – et soutient que Wikipédia doit rester un projet mené par des humains et fondé sur une vérité vérifiable.

    Nom : 2.jpg
Affichages : 514
Taille : 63,8 Ko
    Confier la rédaction d'un article à une IA, c'est comme demander à ces robots de labourer ce champ, mais en pire. Vous ne feriez pas ça, n'est-ce pas ?

    Études de cas et défaillances hypothétiques

    Les risques abstraits liés au contenu généré par l'IA apparaissent clairement lorsqu'on examine des exemples concrets. Ces dernières années, les contributeurs de Wikipédia ont mis au jour de nombreux cas où du contenu rédigé par l'IA s'était glissé sur le site, avec des conséquences problématiques. Voici quelques exemples illustrant comment un texte généré par un modèle de langage (LLM) peut se révéler désastreux :

    - La forteresse imaginaire : un article de 2 000 mots sur une forteresse ottomane qui n’a jamais existé est apparu sur Wikipédia, accompagné de détails historiques et de citations élaborés. Ils étaient presque aussi détaillés que, peut-être, cet essai. Il s'est avéré qu'il s'agissait d'un canular généré par l'IA. Les références citées semblaient savantes mais étaient frauduleuses, étayant un récit entièrement inventé par un modèle linguistique. Il a fallu des contributeurs expérimentés pour se rendre compte que tout le sujet était inventé. Cet article canular, resté en ligne sans être vérifié, aurait pu induire les lecteurs en erreur et même être cité ailleurs comme un fait avéré. Il n'a été repéré que lorsque l'équipe du WikiProject AI Cleanup a remarqué la cohérence artificielle du texte et l'absence de sources authentiques.

    - La confusion autour du coléoptère : dans un autre cas, un éditeur a ajouté un paragraphe en apparence anodin sur une espèce de coléoptère, Estola albosignata, accompagné de quelques citations en ligne – rien d’inhabituel à première vue. Pourtant, l’une de ces citations renvoyait à un article sans rapport, traitant d’un sujet totalement différent. Après enquête, il est apparu clairement que ce paragraphe était une fausse information générée par l'IA. L'IA avait probablement trouvé une source traitant d'un autre sujet et l'avait erronément associée à l'article sur le coléoptère. Ici, le contenu était subtilement erroné (les caractéristiques du coléoptère étaient incorrectes) et la source ne correspondait pas – une erreur plus subtile qu’un canular flagrant, mais potentiellement encore plus difficile à détecter. Cela nous rappelle que les résultats générés par l’IA peuvent s’écarter de la réalité de manière insidieuse, et sans une vérification minutieuse des faits par des humains, de telles erreurs pourraient persister pendant des mois.

    - Brouillons promotionnels et biaisés : Des études ont montré que certains articles générés par l'IA ont été utilisés pour promouvoir des agendas. Par exemple, une analyse réalisée en 2024 par l'université de Princeton a révélé qu'environ 5 % des nouveaux articles publiés au cours d'un mois donné présentaient des signes de création par l'IA, certains d'entre eux ayant été rédigés pour promouvoir des entreprises ou d'autres intérêts. Lors de discussions communautaires, les contributeurs ont noté que ces brouillons ressemblaient souvent à des publireportages ou à des discours partisans – des textes qui respectaient superficiellement les directives de Wikipédia dans la forme, mais pas dans l'esprit. Un scénario hypothétique que nous redoutons est celui d'un LLM produisant en masse des articles élogieux pour une entreprise ou une idéologie, chacun mélangeant des faits à un langage promotionnel subtil. Les réviseurs bénévoles doivent alors les identifier et les supprimer, un jeu fastidieux de « tape-la-tête » pour préserver la neutralité. La communauté a en effet constaté des cas d’utilisateurs bannis employant l’IA pour mener des guerres d’édition ou insérer des biais (par exemple, une tentative de fausser des articles sur l’histoire nationale). Avec l’IA, un seul acteur malveillant pourrait générer des centaines d’entrées biaisées de ce type en peu de temps, dépassant de loin la capacité humaine à réagir.

    - La fausse biographie : imaginez un scénario (tout à fait plausible) où un brouillon généré par l'IA est créé pour une personnalité publique relativement obscure – disons un politicien local ou un universitaire. L'article pourrait sembler bien structuré et même inclure des références pour étayer ses affirmations. Cependant, après un examen plus approfondi, il pourrait énumérer des récompenses que la personne n'a jamais reçues ou citer des déclarations qu'elle n'a jamais faites. Les citations fournies pourraient sembler fiables mais être totalement inexistantes – par exemple, une fausse « interview du Smithsonian Magazine, 2022 » et un « profil du Journal of Urban Politics, 2021 » inventé de toutes pièces. Dans un élan de bonne foi, un autre contributeur pourrait initialement accepter l'article, en supposant que les citations sont vérifiées. Cette biographie fictive pourrait rester en ligne pendant des jours, voire des semaines, diffusant de fausses informations sur une personne réelle, ce qui est absolument inacceptable. Ce n'est que plus tard, lorsque quelqu'un tenterait de vérifier une affirmation, que le château de cartes s'effondrerait. Cette hypothèse illustre le cauchemar que Wikipédia veut éviter à tout prix : un mélange des faits et de la fiction sous le vernis d'un article correctement référencé.

    Nom : 3.jpg
Affichages : 508
Taille : 29,6 Ko
    Une caricature du méchant typique, avec l'accent mis sur le « méchant ». Remarquez le sourire malicieux, la moustache et le sourcil arqué de méchant.

    Ces cas et ces expériences de pensée mettent en évidence les raisons pour lesquelles la communauté a réagi si vivement contre les contenus générés par l'IA. Le canular de la « forteresse » a été supprimé selon les critères de suppression rapide dès qu'il a été identifié, ce qui a suscité des appels à un renforcement des contrôles. En effet, en 2025, Wikipédia en anglais a mis à jour sa politique de suppression pour permettre la suppression immédiate des pages générées par des modèles de langage (LLM) n'ayant pas fait l'objet d'une révision humaine. De même, la détection d'articles biaisés rédigés par l'IA a conduit à des patrouilles plus rigoureuses des nouveaux articles et à un examen minutieux des sources. Lorsque la Fondation Wikimedia a testé un outil d'IA appelé « Simple Article Summaries » (Résumés d'articles simples), qui faisait exactement ce que son nom suggérait, la réaction de la communauté a été rapide et négative : les contributeurs ont qualifié cette initiative d'« idée épouvantable » susceptible d'éroder la confiance, compte tenu de la tendance de l'IA à se tromper et à produire des hallucinations. Un article d'Ars Technica a cité la réaction viscérale d'un contributeur : « Beurk », qui résumait bien le sentiment général. L'essai a été suspendu presque immédiatement face à cette levée de boucliers. Le message qui se dégage de ces exemples est on ne peut plus clair : en matière de création de contenu, les contributeurs bénévoles de Wikipédia ont appris à leurs dépens que l'automatisation peut échouer de manière spectaculaire. Chaque échec, qu'il soit réel ou hypothétique, renforce la leçon selon laquelle, sans une compréhension de niveau humain et une vérification rigoureuse des sources, les articles Wikipédia générés par l'IA sont des bombes à retardement pour notre réputation.

    Conclusion : préserver l'intégrité de Wikipédia

    Après avoir examiné les problèmes – faits inventés de toutes pièces, citations invérifiables, perturbation de la collaboration et exemples concrets d'échecs générés par l'IA –, la conclusion est claire : Wikipédia doit privilégier la collaboration humaine et la vérifiabilité plutôt que de céder aux tentations de l'automatisation. L'intégrité de ce projet, construit depuis plus de deux décennies, repose sur l'exactitude des informations et l'authenticité des sources. Cette intégrité ne peut être maintenue si nous ouvrons les vannes à des textes générés par des machines que personne n'a entièrement vérifiés. En fin de compte, la valeur d'un article sur Wikipédia ne réside pas dans la rapidité avec laquelle il a été produit, mais dans sa véracité et sa fiabilité. Les LLM offrent de la rapidité, pas du jugement ; du volume, pas du discernement. Ils n'ont pas de réputation à défendre – c'est à nous de le faire.

    La position de la communauté des contributeurs de Wikipédia ne découle pas d’une technophobie, mais de l’expérience et de notre dévouement à notre mission. Nous avons constaté les dangers de nos propres yeux. Nous savons qu’une fois la confiance brisée – si les lecteurs commencent à douter que le contenu de Wikipédia soit minutieusement vérifié et sourcé –, les dommages sont durables. Comme l’a fait remarquer un contributeur lors du débat sur les résumés générés par l’IA, le déploiement de contenu généré par l’IA non vérifié causerait « un préjudice immédiat et irréversible à nos lecteurs et à notre réputation de source sérieuse et digne de confiance ». Wikipédia est devenue synonyme d’un certain niveau de fiabilité (« une sobriété ennuyeuse », comme l’a ironiquement noté ce contributeur) et c’est une force que nous devons protéger.

    En toute sincérité

    En règle générale, vous ne devriez pas utiliser l'IA pour modifier Wikipédia. Cet essai, à l'exception de cette section, a été rédigé pour ressembler au résultat d'un chatbot IA (et pour être honnête, certaines parties ont été générées par l'IA). L'un des moyens les plus évidents de le repérer est le ton, ainsi que le fait que certains éléments sont en gras alors qu'ils ne devraient pas l'être. Les références qu'il contient ont été conçues pour donner l'impression, à première vue, qu'elles pourraient être réelles, mais en réalité, certaines d'entre elles sont manifestement fausses quand on y regarde de plus près. ChatGPT n'a aucune notion de ce qui constitue une source fiable, et il ne peut pas non plus distinguer facilement la vérité de la fiction. Cela vaut pour Bing, Gemini et tout autre chatbot IA qui pourrait être développé à l'avenir. Quant à moi, je ne l'ai personnellement utilisé que pour traduire en anglais certains articles rédigés dans une langue que je ne parle pas, ou peut-être pour m'aider à trouver des sources sur un sujet, et c'est en gros la seule utilisation vraiment acceptable. Si vous décidez malgré tout d'utiliser l'IA, vous le faites à vos propres risques. Il y a de fortes chances que les gens s'en rendent compte, et vous risquez même d'être bloqué. Vous finirez par nous donner beaucoup de travail, à nous les éditeurs humains, qui devrons passer tout cela au crible pour nettoyer derrière vous. Alors rendez-nous service à tous.

    Ce texte est disponible sous licence Creative Commons Attribution-ShareAlike 4.0

    Source de l'essai humoristique : Wikipedia:Case against LLM-generated articles

    Et vous ?

    Pensez-vous que cet essai est crédible ou pertinent ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    Les bénévoles de Wikipédia ont passé des années à répertorier les indices révélateurs de l'écriture générée par IA, un plugin se sert de ce guide comme manuel pour les dissimuler

    Wikipedia suspend les résumés générés par IA suite à une série de réactions négatives des rédacteurs et une étude selon laquelle l'intelligence artificielle est pire que l'humain pour résumer l'information

    La Fondation Wikimedia a officiellement demandé aux grandes entreprises d'IA de cesser de récupérer les données de Wikipédia et d'accéder plutôt à son contenu via l'API payante Wikimedia Enterprise
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  8. #28
    Membre émérite
    Avatar de Daïmanu
    Homme Profil pro
    Développeur touche à tout
    Inscrit en
    Janvier 2011
    Messages
    746
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Alpes Maritimes (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Développeur touche à tout

    Informations forums :
    Inscription : Janvier 2011
    Messages : 746
    Par défaut
    Sur ce point, je note la transparence du Wikipedia anglais, avec tout un historique de point de vue sur l'IAg : https://en.wikipedia.org/wiki/Wikipe...ssion_timeline, qui a évolué de pas de promotion, à interdiction.

    En version francophone, l'usage actuel est vivement déconseillé avec tout de même quelques tolérances (résumer un source, reformuler du texte, corrections orthographiques, typographiques et syntaxiques, et vérifier le sens d'un mot étranger).
    :hola: Je fais appel aux esprits de Ritchie, Kernighan, Stroustrup et Alexandrescu :hola:
    Donnez moi la force, donnez moi le courage de coder proprement !

  9. #29
    Invité de passage
    Homme Profil pro
    Noir carcan poilu d'un scintillant morpion
    Inscrit en
    Février 2026
    Messages
    8
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Calvados (Basse Normandie)

    Informations professionnelles :
    Activité : Noir carcan poilu d'un scintillant morpion

    Informations forums :
    Inscription : Février 2026
    Messages : 8
    Par défaut
    Je trouve ça assez étrange : pour moi, les règles de Wikipédia (transparence, clarté...) suffisent, sans qu'il n'y ait besoin d'une règle restrictive anti-IA, qui interdirait aussi un usage rasionné.

  10. #30
    Membre éprouvé
    Avatar de calvaire
    Homme Profil pro
    .
    Inscrit en
    Octobre 2019
    Messages
    2 397
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 43
    Localisation : Singapour

    Informations professionnelles :
    Activité : .
    Secteur : Conseil

    Informations forums :
    Inscription : Octobre 2019
    Messages : 2 397
    Par défaut
    comment ils vont savoir si c'est du texte généré par ia ou par un humain ?
    sachant que les modèles d'aujourd'hui sont capable d’imiter un humain et à l'inverse les humains parlent/écrivent de plus en plus comme chatgpt (voir Contamination linguistique).
    La France est un pays qui redistribue tout sauf de l'espoir.

  11. #31
    Membre chevronné Avatar de der§en
    Homme Profil pro
    Chambord
    Inscrit en
    Septembre 2005
    Messages
    1 313
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Loir et Cher (Centre)

    Informations professionnelles :
    Activité : Chambord
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Septembre 2005
    Messages : 1 313
    Par défaut
    Si les IA sont logique et pas malmenés par le wokisme, et autre crétinerie du même acabit ,l’orientation idéologique de Wikipedia va bien changer dans les prochains mois

  12. #32
    Membre confirmé
    Homme Profil pro
    autre
    Inscrit en
    Juin 2014
    Messages
    443
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Aveyron (Midi Pyrénées)

    Informations professionnelles :
    Activité : autre

    Informations forums :
    Inscription : Juin 2014
    Messages : 443
    Par défaut
    Citation Envoyé par der§en Voir le message
    Si les IA sont logique et pas malmenés par le wokisme, et autre crétinerie du même acabit ,l’orientation idéologique de Wikipedia va bien changer dans les prochains mois
    Qu'est-ce qu'il faut pas lire comme connerie.
    Pour rappel, Woke ça veut dire "éveillé", ce qui veut dire que t'es fier d'avoir choisi un camp qui se revendique lui-même comme étant attardé (on se croirait dans une cours de récré où les gens insultent un mec d'intello).
    J'imagine que ce que tu appelles woke c'est un "excès" de tolérance envers les gens qui ne sont pas comme toi (couleur de peau, orientation sexuelle et compagnie). Tu peux me donner un exemple d'article qui justifie une telle réaction de ta part stp ?

    Sinon, je comprends pas la logique de ta phrase (t'es sûr que t'étais réveillé quand t'as posté ?) :
    D'après cet article, Wikipedia veut arrêter d'utiliser des générateurs de contenus artificiels, pas se mettre à les utiliser plein pot.

Discussions similaires

  1. La dématérialisation des supports a-t-elle de l'avenir pour les Jeux-vidéos ?
    Par raptor70 dans le forum Développement 2D, 3D et Jeux
    Réponses: 45
    Dernier message: 12/04/2011, 11h01
  2. Réponses: 3
    Dernier message: 30/09/2009, 10h26
  3. Réponses: 0
    Dernier message: 01/09/2009, 11h00
  4. Réponses: 6
    Dernier message: 26/08/2009, 21h31
  5. Réponses: 4
    Dernier message: 15/04/2008, 11h59

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo