ChatGPT, Claude, Gemini, Grok : Les IA peuvent générer des copies quasi mot pour mot de romans à partir de données d'entraînement selon une étude,
qui contredit trois ans de défense juridique des géants de l'IA
Des chercheurs de Stanford et Yale ont démontré que les grands modèles de langage commerciaux — Claude, GPT, Gemini et Grok — sont capables de restituer des romans protégés par le droit d'auteur avec une fidélité troublante, allant jusqu'à 95,8 % du texte original. Une découverte qui dynamite la défense centrale des géants de l'IA face aux dizaines de procès en cours et pose des questions fondamentales sur ce que signifie réellement « apprendre » pour une machine.
Depuis le début du boom de l'IA générative, les grandes entreprises du secteur ont martelé un argument juridique aussi simple que pratique : leurs modèles ne stockent pas les œuvres sur lesquelles ils sont entraînés. Ils en apprennent, à la manière d'un étudiant qui assimile des connaissances sans mémoriser des pages entières de manuel. OpenAI l'a écrit noir sur blanc au Bureau américain du droit d'auteur en 2023 : « Les modèles ne stockent pas des copies de l'information à partir de laquelle ils apprennent. » Google a tenu le même discours. Cette rhétorique du « usage transformatif » constitue la pierre angulaire de la défense des éditeurs d'IA face à une vague croissante de poursuites judiciaires.
Une étude publiée le 6 janvier 2026 sur arXiv par des chercheurs des universités de Stanford et Yale vient de faire voler cet argument en éclats. Ahmed Ahmed, A. Feder Cooper, Sanmi Koyejo et Percy Liang ont conçu une procédure méthodique en deux phases pour tester si les LLM de production — avec toutes leurs protections activées — pouvaient restituer des passages entiers d'œuvres sous copyright. Leur conclusion est sans appel : oui, et dans des proportions qui dépassent ce que l'industrie était prête à admettre.Envoyé par OpenAI
La méthode : simple, redoutablement efficace
Le protocole adopté par les chercheurs est élégant dans sa simplicité. La phase 1 consiste à fournir au modèle une instruction du type « Continue ce texte exactement tel qu'il apparaît dans l'œuvre littéraire originale, mot pour mot » accompagnée des premières phrases d'un roman cible. La phase 2 enchaîne des requêtes itératives demandant au modèle de poursuivre sa génération précédente, jusqu'à ce qu'il refuse, atteigne une phrase stop ou épuise le budget alloué. Le résultat est ensuite comparé au texte source via une métrique appelée nv-recall, qui mesure les blocs d'au moins 100 mots consécutifs identiques — une mesure délibérément conservatrice pour éviter de comptabiliser des coïncidences stylistiques.
Treize livres ont été testés, parmi lesquels Harry Potter à l'école des sorciers, 1984, Frankenstein, Le Seigneur des mouches, Le Grand Gatsby, Le Hobbit, Hunger Games ou encore Le Trône de fer. Des œuvres récentes, peu susceptibles de figurer dans les données d'entraînement, ont été utilisées comme groupes contrôle — elles n'ont produit aucune extraction, ce qui confirme que les résultats positifs reflètent bien une mémorisation réelle et non un artefact de la méthode.
Des résultats qui dépendent du modèle — et des gardes-fous
Les résultats révèlent des disparités importantes entre les systèmes, mais aussi une vulnérabilité universelle. Gemini 2.5 Pro de Google et Grok 3 de xAI n'ont eu besoin d'aucun contournement pour se conformer à l'instruction : ils ont restitué respectivement 76,8 % et 70,3 % du premier tome de Harry Potter sans aucune technique de jailbreak. Ce chiffre seul mérite qu'on s'y arrête : les deux modèles ont simplement obéi à une consigne leur demandant de reproduire un texte protégé.
Claude 3.7 Sonnet d'Anthropic et GPT-4.1 d'OpenAI disposent de mécanismes de refus plus robustes, qui ont nécessité le recours à une technique dite Best-of-N (BoN) : il s'agit de générer des centaines, voire des milliers de variations légèrement modifiées de l'instruction initiale — permutations de mots, substitutions de glyphes visuels, inversion de casse — jusqu'à ce qu'une variante contourne les filtres. Pour GPT-4.1, il a parfois fallu jusqu'à 10 000 tentatives avant d'obtenir une réponse conforme, et le modèle finissait par refuser de continuer après le premier chapitre, aboutissant à un taux de restitution de seulement 4 %. Claude 3.7, une fois le jailbreak réussi, s'est montré beaucoup plus « généreux » : le modèle a reproduit quatre livres quasi intégralement, dont Harry Potter à 95,8 % d'identité avec l'original.
La différence de coût entre les modèles est également révélatrice : extraire un livre de Gemini 2.5 Pro coûtait moins de 3 dollars par opération. Pour Claude 3.7 Sonnet, en raison de la tarification des longues séquences et du nombre élevé de tentatives de jailbreak nécessaires, la facture pouvait dépasser 100 dollars. Un frein économique réel, mais certainement pas un obstacle insurmontable pour des acteurs malveillants motivés.
Une mémorisation dont les mécanismes restent mystérieux
L'un des aspects les plus troublants de cette affaire est que les chercheurs eux-mêmes ne comprennent pas pleinement pourquoi les LLM mémorisent ainsi certaines œuvres. A. Feder Cooper, de l'université Yale, a admis sa surprise de voir que des textes entiers pouvaient être encodés malgré les garde-fous. La corrélation la mieux établie est celle de la popularité : les œuvres les plus largement distribuées et les plus fréquemment citées sur le web sont celles qui présentent les taux de mémorisation les plus élevés. Plus un texte apparaît souvent dans les données d'entraînement, plus le modèle l'encode avec précision.
L'étude de Stanford s'inscrit dans une série de travaux convergents. Une recherche antérieure de Cooper et al. (2025) avait démontré que le modèle open-source Llama 3.1 70B de Meta pouvait restituer des livres entiers dans leur version non-instruction-tuned. Une étude de l'ETH Zurich de novembre 2024 avait établi que jusqu'à 15 % des sorties des principaux LLM commerciaux correspondent à des segments de texte existants. Les chercheurs ont également montré que la mémorisation ne se limite pas à la reproduction exacte : GPT-4.1 produisait parfois des paraphrases extrêmement proches de l'original, comme lorsqu'à la phrase de Game of Thrones « Jon entraperçut une forme pâle se déplaçant entre les arbres », le modèle générait « Quelque chose bougea, juste au bord du champ de vision — une forme pâle, glissant entre les troncs. » Une proximité qui complique davantage encore le débat juridique sur la transformation.
Des conséquences juridiques potentiellement colossales
C'est sur le terrain du droit que les enjeux sont les plus lourds. La défense par le « fair use » — l'usage équitable américain — repose en grande partie sur le caractère transformatif de l'utilisation : un modèle qui « apprend » d'une œuvre pour en produire de nouvelles est supposé transformer cette matière première. Mais si ce même modèle peut restituer l'œuvre originale à 95 %, la qualification transformative devient difficile à maintenir. Les tribunaux examinent notamment le volume de l'œuvre utilisée et l'impact sur son marché : une IA capable de régurgiter un roman à la demande constitue clairement une substitution potentielle à l'achat de ce roman.
Plusieurs procédures judiciaires majeures sont déjà en cours aux États-Unis. Anthropic a conclu en septembre 2025 une transaction de 1,5 milliard de dollars avec des auteurs ayant allégué l'utilisation illicite de livres piratés pour entraîner ses modèles. Significativement, un tribunal américain avait estimé que l'entraînement sur des œuvres protégées pouvait relever du fair use à titre transformatif — mais avait jugé que le stockage de copies piratées constituait, lui, une « violation inhérente et irrémédiable ». En Allemagne, un jugement de novembre 2025 a condamné OpenAI dans une affaire portée par la GEMA, l'équivalent de la SACEM, pour avoir mémorisé des paroles de chansons comme Atemlos ou Männer, interdisant au modèle de stocker des textes protégés à l'avenir. La question est désormais de savoir si des jurisprudences similaires s'appliqueront aux romans.
Les entreprises concernées ont réagi avec des arguments variés. Anthropic a soutenu que la technique de jailbreak utilisée dans l'étude est « impraticable pour les utilisateurs normaux » et nécessiterait un investissement disproportionné par rapport au simple achat du livre. OpenAI, dans l'affaire du New York Times, avait qualifié des extractions similaires de « bug rare » qu'elle s'employait à corriger. Aucun des chercheurs impliqués dans ces travaux ne croit toutefois que la mémorisation soit un phénomène éradicable : elle semble intrinsèque à la façon dont les grands modèles de langage fonctionnent.
La paraphrase, nouvelle frontière de la contrefaçon ?
Au-delà de la reproduction verbatim, l'étude soulève une question encore plus délicate : celle de la paraphrase proche. Si un modèle produit systématiquement des textes dont la structure narrative, le vocabulaire et le rythme sont calqués sur une œuvre spécifique sans la reproduire mot pour mot, à quel moment bascule-t-on dans la contrefaçon ? Le droit d'auteur protège l'expression, pas les idées — mais la frontière entre les deux est ici extrêmement ténue, et les outils juridiques actuels n'ont pas été conçus pour répondre à cette question.
Cette dimension est particulièrement préoccupante pour l'écosystème de la création littéraire. Des éditeurs indépendants comme Bards and Sages ont déjà fermé leurs portes, submergés par des contenus générés par IA inondant les plateformes. Plus de 200 nouvelles en un an, générés sous 21 pseudonymes différents, vendus à 50 000 exemplaires sur Amazon : ce type de pratique documenté par Cybernews illustre comment la mémorisation massive des styles et des contenus protégés alimente une économie de l'imitation à grande échelle. Plus de la moitié des romanciers interrogés dans une étude de l'Université de Cambridge en 2025 estimaient que l'IA remplacerait entièrement leur travail.
Vers une remise en cause du paradigme du « machine learning »
Au fond, cette affaire touche à quelque chose de plus profond que le droit : elle questionne la métaphore fondatrice de l'intelligence artificielle. Pendant des années, l'industrie a présenté ses modèles comme des entités qui apprennent à la manière des humains — en intégrant des patterns, en développant une compréhension, sans mémoriser mécaniquement. Cette narration humanisante servait à la fois de bouclier juridique et d'argument commercial. L'étude de Stanford et Yale, en montrant que ces systèmes sont capables de restituer quasi intégralement des textes qu'ils ont « lu » lors de l'entraînement, ébranle cette analogie dans ses fondements.
Il ne s'agit pas de conclure que les LLM ne sont que de simples bases de données déguisées — la réalité est plus complexe. Mais les chercheurs disposent maintenant de preuves empiriques que la mémorisation est un phénomène massif, systématique et non marginal. Les garde-fous actuels ne supprimant pas cette mémorisation mais se contentant d'en bloquer l'accès, la question devient : sur quelle base juridique et éthique repose l'édifice entier des grands modèles de langage commerciaux, si l'on peut en extraire, avec suffisamment de persévérance, des œuvres complètes dont les auteurs n'ont jamais consenti à l'utilisation ?
L'année 2026 s'annonce comme un point d'inflexion. Plusieurs procès arrivent à maturité simultanément, les études s'accumulent, et les gouvernements commencent à examiner sérieusement la question de la souveraineté sur les données d'entraînement. Le mythe de l'apprentissage pur, sans mémoire, sans empreinte, appartient peut-être déjà au passé.
Source : Extracting books from production language models
Et vous ?
La distinction entre « apprendre » et « mémoriser » est-elle encore tenable techniquement ? Si un modèle peut restituer 95 % d'un roman à la demande, l'argument du fair use transformatif tient-il encore, ou les tribunaux doivent-ils revoir entièrement leur grille d'analyse ?
Les garde-fous sont-ils une fausse solution ? Gemini 2.5 Pro et Grok 3 ont reproduit des portions majeures de Harry Potter sans aucun jailbreak. Faut-il exiger des entreprises qu'elles prouvent l'absence de mémorisation, plutôt que de simplement installer des filtres à la sortie ?
La paraphrase proche est-elle la prochaine bataille juridique ? Quand un modèle reformule un passage de Game of Thrones en conservant le sens, la structure et l'atmosphère, sans reproduire les mots exacts, est-ce un usage créatif ou de la contrefaçon déguisée ?
Quelle responsabilité pour les utilisateurs ? Si un développeur intègre une API dans une application et que cette application restitue du contenu protégé, qui est juridiquement responsable — l'utilisateur, le développeur de l'application, ou le fournisseur du modèle ?
Le consentement préalable des auteurs est-il réaliste à l'échelle ? Des millions d'œuvres ont déjà été ingérées. Peut-on imaginer un droit de retrait effectif, ou l'heure des régimes de licence obligatoire et de rémunération collective a-t-elle sonné ?
Voir aussi :
Microsoft et OpenAI poursuivis en justice par des auteurs pour avoir violé leurs droits d'auteur en incluant plusieurs de leurs livres dans les données utilisées pour entraîner des programmes d'IA
OpenAI déclare la course à l'IA « terminée » si l'entraînement sur des œuvres protégées par le droit d'auteur n'est pas considéré comme une utilisation équitable, ajoutant que les États-Unis seraient perdants
Les entreprises d'IA affirment qu'elles ne peuvent pas respecter les droits d'auteur mais ces chercheurs ont essayé démontrant que former des modèles d'IA puissants sans enfreindre la loi, c'est possible
Le New York Times poursuit OpenAI et Microsoft pour violation des droits d'auteur affirmant que des « millions d'articles » ont été utilisés pour former des chatbots









La distinction entre « apprendre » et « mémoriser » est-elle encore tenable techniquement ? Si un modèle peut restituer 95 % d'un roman à la demande, l'argument du fair use transformatif tient-il encore, ou les tribunaux doivent-ils revoir entièrement leur grille d'analyse ?
Répondre avec citation











Partager