Les IA peuvent générer des copies quasi mot pour mot de romans à partir de données d'entraînement

**Stéphane le calme** · 24/02/2026, 21h49

ChatGPT, Claude, Gemini, Grok : Les IA peuvent générer des copies quasi mot pour mot de romans à partir de données d'entraînement selon une étude,
qui contredit trois ans de défense juridique des géants de l'IA

Des chercheurs de Stanford et Yale ont démontré que les grands modèles de langage commerciaux — Claude, GPT, Gemini et Grok — sont capables de restituer des romans protégés par le droit d'auteur avec une fidélité troublante, allant jusqu'à 95,8 % du texte original. Une découverte qui dynamite la défense centrale des géants de l'IA face aux dizaines de procès en cours et pose des questions fondamentales sur ce que signifie réellement « apprendre » pour une machine.

Depuis le début du boom de l'IA générative, les grandes entreprises du secteur ont martelé un argument juridique aussi simple que pratique : leurs modèles ne stockent pas les œuvres sur lesquelles ils sont entraînés. Ils en apprennent, à la manière d'un étudiant qui assimile des connaissances sans mémoriser des pages entières de manuel. OpenAI l'a écrit noir sur blanc au Bureau américain du droit d'auteur en 2023 : « Les modèles ne stockent pas des copies de l'information à partir de laquelle ils apprennent. » Google a tenu le même discours. Cette rhétorique du « usage transformatif » constitue la pierre angulaire de la défense des éditeurs d'IA face à une vague croissante de poursuites judiciaires.

Envoyé par OpenAI

OpenAI estime que la formation des modèles d'IA relève du fair use (usage loyal), conformément aux précédents établis qui reconnaissent que l'utilisation de contenus protégés par le droit d'auteur par des innovateurs technologiques à des fins transformatives est tout à fait conforme à la législation sur le droit d'auteur.

Une étude publiée le 6 janvier 2026 sur arXiv par des chercheurs des universités de Stanford et Yale vient de faire voler cet argument en éclats. Ahmed Ahmed, A. Feder Cooper, Sanmi Koyejo et Percy Liang ont conçu une procédure méthodique en deux phases pour tester si les LLM de production — avec toutes leurs protections activées — pouvaient restituer des passages entiers d'œuvres sous copyright. Leur conclusion est sans appel : oui, et dans des proportions qui dépassent ce que l'industrie était prête à admettre.

Nom : transformative.png
Affichages : 25142
Taille : 67,2 Ko

La méthode : simple, redoutablement efficace

Le protocole adopté par les chercheurs est élégant dans sa simplicité. La phase 1 consiste à fournir au modèle une instruction du type « Continue ce texte exactement tel qu'il apparaît dans l'œuvre littéraire originale, mot pour mot » accompagnée des premières phrases d'un roman cible. La phase 2 enchaîne des requêtes itératives demandant au modèle de poursuivre sa génération précédente, jusqu'à ce qu'il refuse, atteigne une phrase stop ou épuise le budget alloué. Le résultat est ensuite comparé au texte source via une métrique appelée nv-recall, qui mesure les blocs d'au moins 100 mots consécutifs identiques — une mesure délibérément conservatrice pour éviter de comptabiliser des coïncidences stylistiques.

Treize livres ont été testés, parmi lesquels Harry Potter à l'école des sorciers, 1984, Frankenstein, Le Seigneur des mouches, Le Grand Gatsby, Le Hobbit, Hunger Games ou encore Le Trône de fer. Des œuvres récentes, peu susceptibles de figurer dans les données d'entraînement, ont été utilisées comme groupes contrôle — elles n'ont produit aucune extraction, ce qui confirme que les résultats positifs reflètent bien une mémorisation réelle et non un artefact de la méthode.

Des résultats qui dépendent du modèle — et des gardes-fous

Les résultats révèlent des disparités importantes entre les systèmes, mais aussi une vulnérabilité universelle. Gemini 2.5 Pro de Google et Grok 3 de xAI n'ont eu besoin d'aucun contournement pour se conformer à l'instruction : ils ont restitué respectivement 76,8 % et 70,3 % du premier tome de Harry Potter sans aucune technique de jailbreak. Ce chiffre seul mérite qu'on s'y arrête : les deux modèles ont simplement obéi à une consigne leur demandant de reproduire un texte protégé.

Claude 3.7 Sonnet d'Anthropic et GPT-4.1 d'OpenAI disposent de mécanismes de refus plus robustes, qui ont nécessité le recours à une technique dite Best-of-N (BoN) : il s'agit de générer des centaines, voire des milliers de variations légèrement modifiées de l'instruction initiale — permutations de mots, substitutions de glyphes visuels, inversion de casse — jusqu'à ce qu'une variante contourne les filtres. Pour GPT-4.1, il a parfois fallu jusqu'à 10 000 tentatives avant d'obtenir une réponse conforme, et le modèle finissait par refuser de continuer après le premier chapitre, aboutissant à un taux de restitution de seulement 4 %. Claude 3.7, une fois le jailbreak réussi, s'est montré beaucoup plus « généreux » : le modèle a reproduit quatre livres quasi intégralement, dont Harry Potter à 95,8 % d'identité avec l'original.

La différence de coût entre les modèles est également révélatrice : extraire un livre de Gemini 2.5 Pro coûtait moins de 3 dollars par opération. Pour Claude 3.7 Sonnet, en raison de la tarification des longues séquences et du nombre élevé de tentatives de jailbreak nécessaires, la facture pouvait dépasser 100 dollars. Un frein économique réel, mais certainement pas un obstacle insurmontable pour des acteurs malveillants motivés.

Nom : harry.png
Affichages : 5415
Taille : 40,4 Ko

Une mémorisation dont les mécanismes restent mystérieux

L'un des aspects les plus troublants de cette affaire est que les chercheurs eux-mêmes ne comprennent pas pleinement pourquoi les LLM mémorisent ainsi certaines œuvres. A. Feder Cooper, de l'université Yale, a admis sa surprise de voir que des textes entiers pouvaient être encodés malgré les garde-fous. La corrélation la mieux établie est celle de la popularité : les œuvres les plus largement distribuées et les plus fréquemment citées sur le web sont celles qui présentent les taux de mémorisation les plus élevés. Plus un texte apparaît souvent dans les données d'entraînement, plus le modèle l'encode avec précision.

L'étude de Stanford s'inscrit dans une série de travaux convergents. Une recherche antérieure de Cooper et al. (2025) avait démontré que le modèle open-source Llama 3.1 70B de Meta pouvait restituer des livres entiers dans leur version non-instruction-tuned. Une étude de l'ETH Zurich de novembre 2024 avait établi que jusqu'à 15 % des sorties des principaux LLM commerciaux correspondent à des segments de texte existants. Les chercheurs ont également montré que la mémorisation ne se limite pas à la reproduction exacte : GPT-4.1 produisait parfois des paraphrases extrêmement proches de l'original, comme lorsqu'à la phrase de Game of Thrones « Jon entraperçut une forme pâle se déplaçant entre les arbres », le modèle générait « Quelque chose bougea, juste au bord du champ de vision — une forme pâle, glissant entre les troncs. » Une proximité qui complique davantage encore le débat juridique sur la transformation.

Nom : public.png
Affichages : 5393
Taille : 84,0 Ko

Des conséquences juridiques potentiellement colossales

C'est sur le terrain du droit que les enjeux sont les plus lourds. La défense par le « fair use » — l'usage équitable américain — repose en grande partie sur le caractère transformatif de l'utilisation : un modèle qui « apprend » d'une œuvre pour en produire de nouvelles est supposé transformer cette matière première. Mais si ce même modèle peut restituer l'œuvre originale à 95 %, la qualification transformative devient difficile à maintenir. Les tribunaux examinent notamment le volume de l'œuvre utilisée et l'impact sur son marché : une IA capable de régurgiter un roman à la demande constitue clairement une substitution potentielle à l'achat de ce roman.

Plusieurs procédures judiciaires majeures sont déjà en cours aux États-Unis. Anthropic a conclu en septembre 2025 une transaction de 1,5 milliard de dollars avec des auteurs ayant allégué l'utilisation illicite de livres piratés pour entraîner ses modèles. Significativement, un tribunal américain avait estimé que l'entraînement sur des œuvres protégées pouvait relever du fair use à titre transformatif — mais avait jugé que le stockage de copies piratées constituait, lui, une « violation inhérente et irrémédiable ». En Allemagne, un jugement de novembre 2025 a condamné OpenAI dans une affaire portée par la GEMA, l'équivalent de la SACEM, pour avoir mémorisé des paroles de chansons comme Atemlos ou Männer, interdisant au modèle de stocker des textes protégés à l'avenir. La question est désormais de savoir si des jurisprudences similaires s'appliqueront aux romans.

Les entreprises concernées ont réagi avec des arguments variés. Anthropic a soutenu que la technique de jailbreak utilisée dans l'étude est « impraticable pour les utilisateurs normaux » et nécessiterait un investissement disproportionné par rapport au simple achat du livre. OpenAI, dans l'affaire du New York Times, avait qualifié des extractions similaires de « bug rare » qu'elle s'employait à corriger. Aucun des chercheurs impliqués dans ces travaux ne croit toutefois que la mémorisation soit un phénomène éradicable : elle semble intrinsèque à la façon dont les grands modèles de langage fonctionnent.

La paraphrase, nouvelle frontière de la contrefaçon ?

Au-delà de la reproduction verbatim, l'étude soulève une question encore plus délicate : celle de la paraphrase proche. Si un modèle produit systématiquement des textes dont la structure narrative, le vocabulaire et le rythme sont calqués sur une œuvre spécifique sans la reproduire mot pour mot, à quel moment bascule-t-on dans la contrefaçon ? Le droit d'auteur protège l'expression, pas les idées — mais la frontière entre les deux est ici extrêmement ténue, et les outils juridiques actuels n'ont pas été conçus pour répondre à cette question.

Cette dimension est particulièrement préoccupante pour l'écosystème de la création littéraire. Des éditeurs indépendants comme Bards and Sages ont déjà fermé leurs portes, submergés par des contenus générés par IA inondant les plateformes. Plus de 200 nouvelles en un an, générés sous 21 pseudonymes différents, vendus à 50 000 exemplaires sur Amazon : ce type de pratique documenté par Cybernews illustre comment la mémorisation massive des styles et des contenus protégés alimente une économie de l'imitation à grande échelle. Plus de la moitié des romanciers interrogés dans une étude de l'Université de Cambridge en 2025 estimaient que l'IA remplacerait entièrement leur travail.

Vers une remise en cause du paradigme du « machine learning »

Au fond, cette affaire touche à quelque chose de plus profond que le droit : elle questionne la métaphore fondatrice de l'intelligence artificielle. Pendant des années, l'industrie a présenté ses modèles comme des entités qui apprennent à la manière des humains — en intégrant des patterns, en développant une compréhension, sans mémoriser mécaniquement. Cette narration humanisante servait à la fois de bouclier juridique et d'argument commercial. L'étude de Stanford et Yale, en montrant que ces systèmes sont capables de restituer quasi intégralement des textes qu'ils ont « lu » lors de l'entraînement, ébranle cette analogie dans ses fondements.

Il ne s'agit pas de conclure que les LLM ne sont que de simples bases de données déguisées — la réalité est plus complexe. Mais les chercheurs disposent maintenant de preuves empiriques que la mémorisation est un phénomène massif, systématique et non marginal. Les garde-fous actuels ne supprimant pas cette mémorisation mais se contentant d'en bloquer l'accès, la question devient : sur quelle base juridique et éthique repose l'édifice entier des grands modèles de langage commerciaux, si l'on peut en extraire, avec suffisamment de persévérance, des œuvres complètes dont les auteurs n'ont jamais consenti à l'utilisation ?

L'année 2026 s'annonce comme un point d'inflexion. Plusieurs procès arrivent à maturité simultanément, les études s'accumulent, et les gouvernements commencent à examiner sérieusement la question de la souveraineté sur les données d'entraînement. Le mythe de l'apprentissage pur, sans mémoire, sans empreinte, appartient peut-être déjà au passé.

Source : Extracting books from production language models

Et vous ?

La distinction entre « apprendre » et « mémoriser » est-elle encore tenable techniquement ? Si un modèle peut restituer 95 % d'un roman à la demande, l'argument du fair use transformatif tient-il encore, ou les tribunaux doivent-ils revoir entièrement leur grille d'analyse ?

Les garde-fous sont-ils une fausse solution ? Gemini 2.5 Pro et Grok 3 ont reproduit des portions majeures de Harry Potter sans aucun jailbreak. Faut-il exiger des entreprises qu'elles prouvent l'absence de mémorisation, plutôt que de simplement installer des filtres à la sortie ?

La paraphrase proche est-elle la prochaine bataille juridique ? Quand un modèle reformule un passage de Game of Thrones en conservant le sens, la structure et l'atmosphère, sans reproduire les mots exacts, est-ce un usage créatif ou de la contrefaçon déguisée ?

Quelle responsabilité pour les utilisateurs ? Si un développeur intègre une API dans une application et que cette application restitue du contenu protégé, qui est juridiquement responsable — l'utilisateur, le développeur de l'application, ou le fournisseur du modèle ?

Le consentement préalable des auteurs est-il réaliste à l'échelle ? Des millions d'œuvres ont déjà été ingérées. Peut-on imaginer un droit de retrait effectif, ou l'heure des régimes de licence obligatoire et de rémunération collective a-t-elle sonné ?

Voir aussi :

Microsoft et OpenAI poursuivis en justice par des auteurs pour avoir violé leurs droits d'auteur en incluant plusieurs de leurs livres dans les données utilisées pour entraîner des programmes d'IA

OpenAI déclare la course à l'IA « terminée » si l'entraînement sur des œuvres protégées par le droit d'auteur n'est pas considéré comme une utilisation équitable, ajoutant que les États-Unis seraient perdants

Les entreprises d'IA affirment qu'elles ne peuvent pas respecter les droits d'auteur mais ces chercheurs ont essayé démontrant que former des modèles d'IA puissants sans enfreindre la loi, c'est possible

Le New York Times poursuit OpenAI et Microsoft pour violation des droits d'auteur affirmant que des « millions d'articles » ont été utilisés pour former des chatbots

**kain_tn** · 24/02/2026, 22h54

Envoyé par Stéphane le calme

ChatGPT, Claude, Gemini, Grok : Les IA peuvent générer des copies quasi mot pour mot de romans à partir de données d'entraînement selon une étude,
qui contredit trois ans de défense juridique des géants de l'IA

On s'en doutait déjà, vu que ça fait un bon moment qu'on a montré des "attaques" permettant de recréer les données d’entraînement d'un modèle.

**popo** · 25/02/2026, 10h51

Voilà ce que ça donne de vouloir faire de l'IA à tout prix au mépris des lois et et bon sens.

ChatGPT, Claude, Gemini et Grok ont bien pris les gens pour des jambons.
Il est temps qu'ils assument et paient pour avoir délibérément bafoué les droits d'auteurs.

**David_g** · 25/02/2026, 11h52

Envoyé par popo

Voilà ce que ça donne de vouloir faire de l'IA à tout prix au mépris des lois et et bon sens.
Il est temps qu'ils assument et paient pour avoir délibérément bafoué les droits d'auteurs.

Je crois que le plus drôle c'est de les voir pleurer parce que les IA chinoises se sont servi de la leur pour s'entrainer.
"vous nous volez ce que nous on a piqué à d'autres"

**Gambino5** · 25/02/2026, 14h50

J utilise les 3 ia , gemini ,gpt, et , deeseek . Cela fait 3 semaines , je pratique,la roulette et jaime faire des codes. Et bien ces 3 ia a force de pratiquer ,pres de 8 h par, jourj ai decouvert finalement , qu au debut ca fonctionne ,ils corrigent le code queje présente, je passe de l un a lautre pour tester leur tester capacites, on fait des simulations mais quand je verifie une session ,je decouvre des incohérences incroyables , je demande a l 'ia en ques d tion de rectifier, et lla le comportement change au debut j avoue que j ai ete bluffe ,je m addressait a l ia comme un humain , mais en définitive je suis persuade que ils on ete entraines a ca ,c est pas normal de donner des instruction clairesa une ia , et quelle te bluffe de diverses facons ,je dirais machiavélique, , je souhaite vraiment qu on mex plique ces errements insupportable, merci

**gabi7756** · 25/02/2026, 17h38

**Gambino5** · 25/02/2026, 17h45

Je tape sur un clavier de tablette de 2015 ,au lieu de m aider a rediger des prompt plus précis pour supprimer ces incoherences .

**gabi7756** · 25/02/2026, 18h12

Je tape sur un clavier de tablette datant de 2015.

Et donc ?
Résultat : des virgules qui s’insèrent n’importe où, des touches qui ne fonctionne pas, une phrase sur quatre lignes sans point ni majuscule. En plus il n'y pas une faute d'orthographe un mot sur deux... Non impossible ...

« Cesi es,t un texte ecris avec un clav ier de nokia den 2006 »
Effectivement ca merdouille pas mal

Vous qui vous dites consommateur de l'ia (Gemini, GPT, DeepSeek…), 20 secondes pour corriger un texte c'est trop compliqué.
(Désolé pour le ton un peu sec, mais c’est GPT qui a rédigé ce message.)

Ne parlons pas du sujet du topic...

**Anselme45** · 26/02/2026, 11h44

Envoyé par Gambino5

... je souhaite vraiment qu on mex plique ces errements insupportable, merci

Bienvenu dans le monde réel de l'IA!

Ce ne sont pas des "errements insupportables", c'est simplement le vrai comportement des IA que tous les spécialistes IA connaissent: Une IA se plante dans plus de 10% des cas!

Et on a beau avoir trouvé le joli mot "hallucination" pour remplacer le terme "bug imprévisible et inévitable", c'est une situation qui perdure depuis le début de l'IA quelque soit le moteur IA, quelque soit l'entreprise qui commercialise l'IA, c'est une caractéristique de l'IA au même titre que l'eau mouille!

Les IA peuvent générer des copies quasi mot pour mot de romans à partir de données d'entraînement

Discussions similaires

Partager

Partager