OpenAI perd une bataille dans les procès pour violation de droit d'auteur lors de l'entraînement de son IA

**SimonKenoby** · 05/07/2023, 18h23

Ben forcément, contrairement a ce qu'un certain Elon affirme, les livres ont beaucoup plus de valeur pour les modèles que des tweets, surtout ceux que l'on peut voir depuis qu'il a repris twitter.

**Stéphane le calme** · 10/07/2023, 19h08

OpenAI et Meta accusés d’avoir utilisé les œuvres de Sarah Silverman et de deux auteurs sans leur consentement,
comme données d'entraînements de leurs IA

La comédienne et auteure américaine Sarah Silverman a déposé une plainte contre les géants de la technologie Meta et OpenAI, les accusant d’avoir utilisé son œuvre sans son autorisation pour entraîner leurs modèles d’intelligence artificielle (IA) à générer du texte. Elle est rejointe par deux autres auteurs, Christopher Golden et Richard Kadrey, qui affirment que leurs livres ont également été exploités par les deux entreprises sans leur consentement.

Meta et OpenAI sont des acteurs majeurs du domaine de l’IA, notamment avec leurs modèles de langage de grande taille, comme LLaMA pour Meta et ChatGPT pour OpenAI. Ces modèles sont capables de produire des réponses convaincantes à des requêtes textuelles des utilisateurs, en se basant sur d’énormes quantités de données provenant d’Internet. Ces données incluent des livres, des articles, des blogs, des tweets et d’autres contenus textuels.

La comédienne et auteure Sarah Silverman, ainsi que les auteurs Christopher Golden et Richard Kadrey, poursuivent OpenAI et Meta chacun devant un tribunal de district américain pour double plainte pour violation du droit d'auteur.

Selon les plaintes déposées vendredi devant le tribunal fédéral de San Francisco, Meta et OpenAI ont obtenu les œuvres des plaignants à partir de sites illégaux de « bibliothèques fantômes », qui proposent des livres numérisés sans respecter les droits d’auteur. Les plaignants affirment que leurs œuvres ont été utilisées comme matériel d’entraînement pour les modèles d’IA, sans qu’ils n’en aient été informés ni rémunérés.

Les plaignants citent comme preuve le fait que les modèles d’IA sont capables de résumer leurs livres lorsqu’ils sont sollicités. Par exemple, ChatGPT peut fournir un résumé du livre The Bedwetter de Sarah Silverman, publié en 2010, qui raconte son enfance marquée par l’énurésie. De même, LLaMA peut résumer les livres Ararat de Christopher Golden et Sandman Slim de Richard Kadrey, qui sont des romans fantastiques.

Quant à la plainte séparée contre Meta, il allègue que les livres des auteurs étaient accessibles dans les ensembles de données que Meta a utilisés pour former ses modèles LLaMA, un quatuor de modèles d'IA open source que la société a introduit en février.

La plainte explique par étapes pourquoi les plaignants pensent que les ensembles de données ont des origines illicites – dans un document Meta détaillant LLaMA, la société indique les sources de ses ensembles de données de formation, dont l'un s'appelle ThePile, qui a été assemblé par une société appelée EleutherAI. ThePile, souligne la plainte, a été décrit dans un article d'EleutherAI comme étant constitué à partir « d'une copie du contenu du traceur privé Bibliotik ». Bibliotik et les autres «*bibliothèques fantômes*» répertoriées, selon la plainte, sont «*incontestablement illégales*».

Dans les deux plaintes, les auteurs disent qu'ils « n'ont pas consenti à l'utilisation de leurs livres protégés par le droit d'auteur comme matériel de formation » pour les modèles d'IA des entreprises. Leurs plaintes contiennent chacune six chefs d'accusation de divers types de violations du droit d'auteur, de négligence, d'enrichissement sans cause et de concurrence déloyale. Les auteurs demandent des dommages-intérêts légaux, la restitution des bénéfices, etc.

Les avocats Joseph Saveri et Matthew Butterick, qui représentent les trois auteurs, écrivent sur leur site Web LLMlitigation qu'ils ont entendu parler « d'écrivains, d'auteurs et d'éditeurs qui s'inquiètent de la capacité étonnante de [ChatGPT] à générer du texte similaire à celui trouvé dans les matériaux textuels protégés par les droits d'auteur, y compris des milliers de livres ».

Saveri a également engagé des poursuites contre des sociétés d'IA au nom de développeurs et d'artistes. Getty Images a également déposé une plainte contre une entreprise IA, alléguant que Stability AI, qui a créé l'outil de génération d'images IA Stable Diffusion, a formé son modèle sur « des millions d'images protégées par le droit d'auteur ». Saveri et Butterick représentent également les auteurs Mona Awad et Paul Tremblay dans une affaire similaire concernant le chatbot de l'entreprise.

D'autres auteurs avaient déjà porté plainte quelques jours plut tôt contre OpenAI

Deux auteurs américains, Paul Tremblay et Mona Awad, affirment qu'OpenAI a utilisé leurs œuvres sans autorisation pour entraîner son système d’intelligence artificielle générative ChatGPT.

ChatGPT et d’autres systèmes d’IA générative créent du contenu en utilisant de grandes quantités de données collectées sur internet. La plainte des auteurs affirme que les livres sont un « ingrédient clé » car ils offrent les « meilleurs exemples d’écriture longue de haute qualité ». La plainte estime qu’OpenAI a incorporé dans ses données d’entraînement plus de 300 000 livres, dont certains provenant de « bibliothèques fantômes » illégales qui proposent des livres protégés par le droit d’auteur sans autorisation.

Awad est connue pour ses romans comme « 13 Ways of Looking at a Fat Girl » et « Bunny ». Tremblay est l’auteur de romans comme « The Cabin at the End of the World », qui a été adapté dans le film de Night Shyamalan « Knock at the Cabin » sorti en février. Tremblay et Awad affirment que ChatGPT peut générer des résumés « très précis » de leurs livres, ce qui indique qu’ils figurent dans sa base de données.

La plainte demande une somme indéterminée de dommages-intérêts au nom d’une classe nationale de titulaires de droits d’auteur dont les œuvres auraient été utilisées abusivement par OpenAI.

Des poursuites comme celle-ci ne sont pas seulement un casse-tête pour OpenAI et d'autres sociétés d'IA; elles défient les limites mêmes du droit d'auteur. Il n'est pas exclu de voir des poursuites centrées sur le droit d'auteur dans les modèles de formation d'IA se multiplier dans les années à venir.

Nom : chatgpt.png
Affichages : 5811
Taille : 388,6 Ko

D'autres plaintes relatives au droit d'auteur évoquent du code source

Fin juin 2022, Copilot était proposé dans le cadre d'une Preview technique sur invitation uniquement, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.

GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.

Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.

Peu après le lancement de la Preview de Copilot en 2021, certains développeurs ont commencé à s'alarmer de l'utilisation d'un code public pour entraîner l'IA de l'outil. L'une des préoccupations est que si Copilot reproduit des parties suffisamment importantes du code existant, il puisse violer les droits d'auteur ou blanchir le code open source dans des utilisations commerciales sans licence appropriée. L'outil peut également reproduire des informations personnelles que les développeurs ont publiées, et dans un cas, il a reproduit le code largement cité du jeu PC Quake III Arena de 1999, y compris le commentaire du développeur John Carmack.

L’utilisateur Hogan a aussi ajouté dans son fil de discussion : « Ce qui serait vraiment drôle, c'est que les gens qui maintiennent des dépôts populaires commençaient à mettre du mauvais code exprès ».

GitHub affirme que les dérapages de Copilot sont rares. Mais un autre utilisateur de Twitter, répondant au post de Ronacher, a écrit : « Et ici nous avons la preuve directe que GitHub reproduit directement un morceau de code sous GPL, ce qui prouve que c'est un outil vraiment dangereux à utiliser dans des environnements commerciaux ». Dans une autre réponse, on peut lire : « Lol, c'est du blanchiment de code… »

Selon Matthieu Butterick, qui porte les casquettes d'écrivain, designer, développeur et avocat, Copilot soulève des questions juridiques relatives à la fois à la formation du système et à l'utilisation du système. Aussi, il s'est associé à des avocats plaideurs en recours collectif. Ensemble, ils ont enquêté sur une poursuite potentielle contre GitHub Copilot pour violation de ses obligations légales envers les auteurs open source et les utilisateurs finaux. Au terme de cette enquête lancée en octobre, ils ont déposé une plainte contre GitHub Copilot en novembre.

La plainte, déposée au nom de quatre plaignants non identifiés ("X"), affirme que Copilot a été formé sur du code publié publiquement d'une manière qui viole la loi sur le droit d'auteur et les exigences de licence de logiciel et qu'il présente le code d'autres personnes comme le sien.

Microsoft, GitHub et OpenAI ont tenté de faire rejeter l'affaire, mais n'ont réussi qu'à se débarrasser de certaines des revendications. Le juge a laissé intacts les principaux problèmes de droit d'auteur et de licence, et a permis aux plaignants de déposer à nouveau plusieurs autres réclamations avec plus de détails.

La plainte modifiée (couvrant désormais huit chefs d'accusation au lieu de douze) retient les accusations de violation du Digital Millennium Copyright Act, de rupture de contrat (violations de licence open source), d'enrichissement déloyal et de concurrence déloyale.

Conclusion

Les plaignants estiment que l’utilisation de leurs œuvres par Meta et OpenAI constitue une violation de leurs droits d’auteur et une concurrence déloyale. Ils demandent des dommages-intérêts non spécifiés au nom d’une classe nationale de titulaires de droits d’auteur dont les œuvres auraient été utilisées sans autorisation.

Meta et OpenAI n’ont pas encore réagi aux plaintes. Les deux entreprises affirment que leurs modèles d’IA ont pour but de faire avancer la recherche et l’innovation dans le domaine du langage naturel, et qu’ils respectent les normes éthiques et juridiques.

Les plaintes de Sarah Silverman et des deux auteurs s’inscrivent dans un contexte de controverse croissante autour de l’utilisation des modèles d’IA basés sur le langage, qui soulèvent des questions sur le respect de la propriété intellectuelle, la fiabilité des informations générées et les risques potentiels pour la vie privée et la sécurité.

Source : plainte

Et vous ?

Que pensez-vous de la démarche de Sarah Silverman et des deux auteurs ?

Croyez-vous que Meta et OpenAI ont violé les droits d’auteur des plaignants ?

Quels sont les avantages et les inconvénients des modèles d’IA basés sur le langage ?

Quelles sont les mesures que Meta et OpenAI devraient prendre pour respecter la propriété intellectuelle des auteurs ?

**Stéphane le calme** · 18/07/2023, 10h54

Des milliers d’auteurs s’opposent à l’exploitation de leur travail sans permission ni rémunération par l’IA générative,
certains ont déjà intenté des actions en justice contre OpenAI, l'entreprise derrière ChatGPT

Des milliers d’auteurs, dont Nora Roberts, Viet Thanh Nguyen, Michael Chabon et Margaret Atwood, ont signé une lettre demandant aux entreprises d’intelligence artificielle comme OpenAI et Meta de cesser d’utiliser leur travail sans autorisation ni rémunération. C’est la dernière d’une série de contre-offensives que le monde littéraire a lancées ces dernières semaines contre l’IA. Mais protéger les écrivains des impacts négatifs de ces technologies n’est pas une proposition facile.

Selon un rapport de The Authors Guild, le revenu médian d'un écrivain à temps plein l'année dernière aux États-Unis était de 23 000 $. Et les revenus des écrivains ont baissé de 42 % entre 2009 et 2019.

L'avènement d'applications d'IA génératives basées sur du texte comme GPT-4 et Bard, qui fouillent le Web à la recherche de contenu d'auteurs sans autorisation ni compensation, puis l'utilisent pour produire de nouveaux contenus en réponse aux invites des utilisateurs, donne aux écrivains de tout le pays plus de raison de s'inquiéter.

« Il n'y a pas de besoin urgent pour l'IA d'écrire un roman », a déclaré Alexander Chee, l'auteur à succès de romans comme Edimbourg et La Reine de la nuit. « Les seules personnes qui pourraient en avoir besoin sont les personnes qui s'opposent à payer les écrivains ce qu'ils valent ».

Chee fait partie des près de 8 000 auteurs qui viennent de signer une lettre adressée aux dirigeants de six sociétés d'IA, dont OpenAI, Alphabet et Meta.

« Elle [la lettre] dit qu'il n'est pas juste d'utiliser nos trucs dans votre IA sans autorisation ni paiement », a déclaré Mary Rasenberger, PDG de The Author's Guild. L'organisation de défense des écrivains à but non lucratif a créé la lettre et l'a envoyée aux sociétés d'IA lundi. « Alors, s'il vous plaît, commencez à nous indemniser et à nous parler ».

Rasenberger a déclaré que la guilde essaie d'amener ces entreprises à trouver un arrangement à l'amiable sans avoir à les poursuivre.

« Les procès représentent une énorme somme d'argent », a déclaré Rasenberger. « Ils prennent vraiment beaucoup de temps ».

Nom : ia.png
Affichages : 4156
Taille : 674,3 Ko

Mais certaines personnalités littéraires sont prêtes à combattre les entreprises technologiques devant les tribunaux

La comédienne et auteure Sarah Silverman, ainsi que les auteurs Christopher Golden et Richard Kadrey, poursuivent OpenAI et Meta chacun devant un tribunal de district américain pour double plainte pour violation du droit d'auteur.

Selon les plaintes déposées devant le tribunal fédéral de San Francisco, Meta et OpenAI ont obtenu les œuvres des plaignants à partir de sites illégaux de « bibliothèques fantômes », qui proposent des livres numérisés sans respecter les droits d’auteur. Les plaignants affirment que leurs œuvres ont été utilisées comme matériel d’entraînement pour les modèles d’IA, sans qu’ils n’en aient été informés ni rémunérés.

Les plaignants citent comme preuve le fait que les modèles d’IA sont capables de résumer leurs livres lorsqu’ils sont sollicités. Par exemple, ChatGPT peut fournir un résumé du livre The Bedwetter de Sarah Silverman, publié en 2010, qui raconte son enfance marquée par l’énurésie. De même, LLaMA peut résumer les livres Ararat de Christopher Golden et Sandman Slim de Richard Kadrey, qui sont des romans fantastiques.

Quant à la plainte séparée contre Meta, il allègue que les livres des auteurs étaient accessibles dans les ensembles de données que Meta a utilisés pour former ses modèles LLaMA, un quatuor de modèles d'IA open source que la société a introduit en février.

De même, OpenAI fait l’objet d’une plainte en nom collectif déposée par deux autres auteurs américains, Paul Tremblay et Mona Awad, qui affirment que la société a utilisé leurs œuvres sans autorisation pour entraîner son système d’intelligence artificielle générative ChatGPT.

Une étape nécessaire

Gina Maccoby est agent littéraire à New York. Elle dit que les actions en justice sont une étape nécessaire pour que les écrivains soient équitablement secoués.

« Cela doit arriver », a déclaré Maccoby. « C'est la seule façon pour que ces choses soient réglées ».

Maccoby a déclaré que les agents, y compris elle-même, commençaient à parler aux éditeurs de l'inclusion d'un langage dans les contrats des écrivains qui interdit les utilisations non autorisées de l'IA comme un autre moyen de protéger leurs moyens de subsistance et ceux de leurs clients. (Selon une récente enquête de la Guilde des auteurs sur l'IA, alors que 90 % des écrivains qui ont répondu ont déclaré « qu'ils devraient être rémunérés pour l'utilisation de leur travail dans la formation à l'IA », 67 % ont déclaré qu'ils « n'étaient pas sûrs de savoir si leurs contrats d'édition ou les conditions d'utilisation de la plate-forme incluent des autorisations ou l'octroi de droits pour utiliser leur travail à des fins liées à l'IA ».)

« Ce que j'entends de mes collègues, c'est que la plupart des éditeurs sont disposés à restreindre certains types d'utilisation de l'IA », a déclaré Maccoby, ajoutant qu'elle n'avait pas encore ajouté de telles clauses aux contrats de ses propres écrivains. La Guilde des auteurs a mis à jour son contrat type en mars pour inclure un langage traitant de l'utilisation de l'IA.

Maccoby a déclaré que même si les contrats des auteurs interdisent explicitement aux sociétés d'IA de faire du scrapping et de tirer profit des œuvres littéraires, les règles sont difficiles à appliquer : « Comment sait-on même si un livre se trouve dans un ensemble de données qui a été ingéré par un programme d'IA ? » se demande Maccoby.

En plus des lettres, des poursuites et du langage contractuel, le secteur de l'édition cherche en outre à protéger l'avenir des auteurs en plaidant pour une législation sur la manière dont l'IA générative peut et ne peut pas être utilisée.

Rasenberger de la Guilde des auteurs a déclaré que son organisation faisait activement pression pour de tels projets de loi. Entre-temps, de nombreuses audiences ont eu lieu récemment à divers niveaux de gouvernement sur des sujets liés à l'IA, comme l'audience de la semaine dernière du sous-comité judiciaire du Sénat sur l'IA et le droit d'auteur.

« En ce moment, on en parle beaucoup », a déclaré Rumman Chowdhury, un responsable de l'IA à l'Université de Harvard, qui a témoigné lors d'une de ces audiences en juin. « Mais nous ne voyons pas encore de législation ou de réglementation concrète sortir ».

Chowdhury a déclaré que la voie à suivre serait forcément compliquée.

« Certains seront litigieux, certains seront réglementés, et certains d'entre eux n'auront littéralement qu'à crier jusqu'à ce que nous soyons entendus », a-t-elle déclaré.

Lettre ouverte adressée aux leaders de l'intelligence artificielle générative

Nous, soussignés, attirons votre attention sur l'injustice inhérente à l'exploitation de nos œuvres dans le cadre de vos systèmes d'IA sans notre consentement, crédit ou compensation.

Les technologies d'IA génératives construites sur de grands modèles de langage doivent leur existence à nos écrits. Ces technologies imitent et régurgitent notre langage, nos histoires, notre style et nos idées. Des millions de livres, d'articles, d'essais et de poésie protégés par le droit d'auteur fournissent la «nourriture» des systèmes d'IA, des repas sans fin pour lesquels il n'y a pas eu de facture. Vous dépensez des milliards de dollars pour développer la technologie de l'IA. Il n'est que juste que vous nous rémunériez pour l'utilisation de nos écrits, sans lesquels l'IA serait banale et extrêmement limitée.

Nous comprenons que de nombreux livres utilisés pour développer des systèmes d'IA proviennent de sites Web de piratage notoires. Non seulement la récente décision de la Cour suprême dans l'affaire Warhol c. Goldsmith indique clairement que la forte commercialité de votre utilisation va à l'encontre de l'utilisation équitable, mais aucun tribunal n'excuserait la copie d'œuvres d'origine illégale comme une utilisation équitable. En raison de l'intégration de nos écrits dans vos systèmes, l'IA générative menace de nuire à notre profession en inondant le marché de livres médiocres écrits à la machine, d'histoires et de journalisme basés sur notre travail. Au cours de la dernière décennie, les auteurs ont connu une baisse de quarante pour cent de leurs revenus, et le revenu médian actuel des écrivains à temps plein en 2022 n'était que de 23 000 $. L'introduction de l'IA menace de faire pencher la balance et de rendre encore plus difficile, voire impossible, pour les écrivains, en particulier les jeunes écrivains et les voix des communautés sous-représentées, de gagner leur vie de leur profession.

Nous vous demandons, vous, dirigeants de l'IA, d'atténuer les dommages causés à notre profession en prenant les mesures suivantes :

Obtenez l'autorisation d'utiliser notre matériel protégé par le droit d'auteur dans vos programmes d'IA générative.
Rémunérez équitablement les auteurs pour l'utilisation passée et actuelle de nos travaux dans vos programmes d'IA générative.
Rémunérez équitablement les écrivains pour l'utilisation de nos œuvres dans la sortie de l'IA, que les sorties enfreignent ou non la loi en vigueur.

Nous espérons que vous apprécierez la gravité de nos préoccupations et que vous travaillerez avec nous pour assurer, dans les années à venir, un écosystème sain pour les auteurs et les journalistes.

Sincèrement,

La Guilde des auteurs et les écrivains soussignés

Source : lettre ouverte

Et vous ?

Que pensez-vous de l’utilisation de l’IA pour générer du contenu à partir du travail des auteurs sans leur consentement ni leur rétribution ?

Pensez-vous que les écrivains devraient avoir le droit de contrôler la façon dont leur travail est utilisé par les entreprises d’IA ?

Quels sont les avantages et les inconvénients de l’IA générative pour la création littéraire ?

Avez-vous déjà utilisé ou essayé une application d’IA générative basée sur le texte ? Si oui, quelle a été votre expérience ?

Quels sont les défis et les opportunités que l’IA représente pour l’avenir de l’écriture et de la lecture ?

**Stéphane le calme** · 09/08/2023, 10h32

Une auteure découvre des livres contrefaits générés par l'IA et écrits à son nom sur Amazon.
Amazon a refusé de les retirer, évoquant un manque de « numéros d'enregistrement de marque »

Jane Friedman, journaliste, auteure et professeure, a récemment découvert sur Amazon et Goodreads une demi-douzaine de livres frauduleux portant son nom, probablement remplis de contenu généré par l’intelligence artificielle (IA). Ces livres traitaient de sujets similaires à ceux qu’elle aborde dans ses ouvrages, comme l’écriture, la publication et la promotion de livres électroniques. Elle a demandé à Amazon et à Goodreads de retirer ces faux titres de leurs sites, mais elle s’est heurtée à des difficultés et à des résistances. Ce n'est que quand la plainte de Jane Friedman est devenue virale sur internet que les deux plateformes ont décidé de retirer lesdits livres.

Friedman, qui rapporte sur l’industrie du livre et qui a écrit 10 livres, dont “The Business of Being a Writer”, “What Editors Do” et “Publishing 101”, s’inquiète de l’impact que ces livres contrefaits peuvent avoir sur sa réputation. « Une personne raisonnable pourrait penser que je contrôle les livres qui sont affichés sur mon profil Goodreads, ou que je les approuve, ou qu’à tout le moins je pourrais les faire retirer facilement. Ce n’est pas le cas », a-t-elle écrit dans un billet de blog intitulé "I Would Rather See My Books Get Pirated Than This (Or : why Goodreads and Amazon Are Becoming Dumpster Fires)".

Il n’est pas facile de faire retirer les livres faussement attribués. Sur Goodreads, le processus nécessite que les auteurs contactent des “bibliothécaires” bénévoles et rejoignent des groupes spécifiques et publient des commentaires pour demander la suppression des livres illégitimes. Même ainsi, il n’y a aucune garantie que les titres offensants seront retirés rapidement. Friedman rapporte que Goodreads a retiré les titres offensants de son profil officiel d’auteur quelques heures après la publication de son billet de blog.

Lorsqu’elle a contacté Amazon pour lui demander de retirer les titres de son profil d’auteur, Amazon lui a demandé des « numéros d’enregistrement de marque » relatifs à sa réclamation et, en apprenant qu’elle ne détenait pas de marque pour son nom, a clos le dossier sans retirer les livres de la vente. Bien que les titres frauduleux aient finalement été retirés d’Amazon après que l’histoire ait fait le tour du web, l’expérience de Friedman met en lumière le processus complexe auquel les auteurs doivent se soumettre pour protéger leur nom et leur travail en ligne.

La partie émergée de l'iceberg

Ce problème fait partie d’un problème plus large auquel Amazon est confronté en relation avec les publications générées par l’IA, alors qu’il essaie de faire face à une vague de faux guides de voyage potentiellement dangereux. En février, Reuters a fait un portrait d’auteurs utilisant ChatGPT pour écrire des livres électroniques, les vendant via Amazon. En juin, Vice a rapporté une affluence de dizaines de livres générés par l’IA et remplis de non-sens qui ont envahi les listes des meilleures ventes de Kindle.

Friedman n’est pas la seule dans cette lutte. Sur le réseau social X (anciennement Twitter), l’auteure Jane Ward a déclaré avoir récemment découvert 29 titres sur Goodreads qui lui attribuaient faussement son nom d’auteur. Elle a également demandé à Goodreads de retirer ces livres, mais elle n’a pas reçu de réponse satisfaisante.

Ugh. It’s the worst. The silver lining is, once the request gets to an actual librarian, they’re quick to remove titles. I had 29 - 29[nbsp][/nbsp]! - incorrect titles removed last week.
— Jane #VaccinesSaveLives Ward (@authorjane) August 6, 2023

De nombreuses autres réponses aux publications de Friedman sur le sujet suggèrent que l'usurpation d'identité par des vendeurs frauduleux est devenue un phénomène courant sur Goodreads et Amazon, frustrant de nombreux auteurs. Par exemple, une autre auteure, Sarah Rose, a tweeté : « Les gens n'arrêtent pas de me dire qu'ils ont acheté mon dernier livre - qui porte mon nom, mais je n'ai pas écrit - un escroc utilisant l'algorithme "trouver plus par cet auteur". Mon éditeur n'a pas pu faire que ça s'arrête et j'ai en quelque sorte abandonné ».

Nom : sarah.png
Affichages : 5004
Taille : 13,5 Ko

Indépendamment de ce que contiennent les faux livres, la grande question est de savoir comment Amazon et Goodreads, deux sites majeurs qui atteignent des centaines de millions de clients, prévoient de protéger à la fois les auteurs et les clients contre la fraude et la mauvaise attribution.

Ces cas soulèvent des questions sur la vérification des auteurs et la responsabilité des plateformes en ligne face à la prolifération des contenus générés par l’IA. Comment les lecteurs peuvent-ils distinguer les vrais auteurs des imposteurs ? Comment les auteurs peuvent-ils protéger leur identité et leur propriété intellectuelle ? Comment les plateformes peuvent-elles empêcher ou détecter les publications frauduleuses ? Ce sont autant de défis auxquels le monde du livre devra faire face à l’ère de l’IA.

La parole est à Jane Friedman

Il n'y a pas grand-chose qui me met en colère ces jours-ci à propos de l'écriture et de la publication. J'ai tout vu. Je sais à quoi m'attendre d'Amazon et de Goodreads. Signification : Je n'attends pas grand-chose et je suppose que je serai continuellement déçu. Je n'ai pas non plus le pouvoir de changer leur fonctionnement. Ma stratégie d'économie d'énergie : passez à autre chose et concentrez-vous sur ce que vous pouvez contrôler.

Cela va devenir beaucoup plus difficile à faire si Amazon et Goodreads ne commencent pas à se défendre contre les déchets absolus qui se répandent actuellement sur leurs sites.

Je sais que mon travail est piraté et franchement, je m'en fiche. (Je ne dis pas que les autres auteurs ne devraient pas s'en soucier, mais ce n'est pas une bataille qui vaut mon temps aujourd'hui.)

Mais voici ce qui me dérange : des livres poubelles sont téléchargés sur Amazon où mon nom est crédité en tant qu'auteur, tels que :

un guide étape par étape pour créer des livres électroniques convaincants, créer une plateforme d'auteur florissante et maximiser la rentabilité
comment écrire et publier un eBook rapidement et gagner de l'argent
promouvoir pour prospérer : stratégies pour faire monter en flèche vos ventes de livres électroniques sur Amazon
puissance d'édition : naviguer dans la publication directe Kindle d'Amazon
Igniting Ideas : votre guide pour écrire un eBook best-seller sur Amazon

Nom : fake.png
Affichages : 2928
Taille : 170,1 Ko

Faux livres de Jane Friedman sur Goodreads (maintenant supprimés)

Celui qui fait cela s'en prend manifestement aux écrivains qui font confiance à mon nom et pensent que j'ai réellement écrit ces livres. Je n'ai pas. Très probablement, ils ont été générés par l'IA. (Pourquoi est-ce que je pense cela ? J'ai beaucoup utilisé ces outils d'IA pour tester dans quelle mesure ils peuvent reproduire mes connaissances. Je blogue depuis 2009 : une grande partie de mon contenu est accessible au public pour la formation de modèles d'IA. Dès que j'ai lu les premières pages de ces faux livres, j'ai eu l'impression de lire les réponses ChatGPT que j'avais générées moi-même.)

Il est peut-être possible d'ignorer ce non-sens à un certain niveau, car ces livres ne reçoivent pas d'avis de clients (jusqu'à présent), et la plupart du temps, ils tombent au bas des résultats de recherche (mais pas toujours). À tout le moins, si vous regardez mon profil d'auteur sur Amazon, ces livres de pacotille n'apparaissent pas. Un lecteur qui applique une pensée critique pourrait réfléchir à deux fois avant d'accepter ces livres comme les miens.

Pourtant, ce n'est pas génial. Et c'est à moi, l'auteur - celui qui a une réputation en jeu - de faire retirer ces livres trompeurs d'Amazon. Je ne suis même pas sûr que ce soit possible. Je ne possède pas les droits d'auteur sur ces livres de pacotille. Je ne "possède" pas exactement mon nom non plus - beaucoup d'autres personnes qui sont aussi des auteurs légitimes partagent mon nom, après tout. Alors, pour quelles raisons puis-je réussir à exiger cet arrêt, du moins aux yeux d'Amazon ? Je ne suis pas sûr.

Pour ajouter l'insulte à l'injure, ces faux livres sont ajoutés à mon profil officiel Goodreads. Une personne raisonnable pourrait penser que je contrôle les livres affichés sur mon profil Goodreads, ou que je les approuve, ou à tout le moins que je pourrais les faire supprimer facilement. Pas si.

Si vous avez besoin de faire corriger votre profil Goodreads – en ce qui concerne les livres qui vous sont crédités – vous devez contacter des « bibliothécaires » bénévoles sur Goodreads, ce qui nécessite de rejoindre un groupe, puis de publier dans un fil de commentaires que vous souhaitez que les livres illégitimes soient supprimés. depuis votre profil.

Lorsque je me suis plaint à ce sujet sur Twitter/X, une auteure a répondu qu'elle devait signaler 29 livres illégitimes rien que la semaine dernière. 29 !

Avec le flot de contenus d'IA désormais publiés sur Amazon, parfois attribués aux auteurs de manière trompeuse ou frauduleuse, comment peut-on raisonnablement s'attendre à ce que les auteurs actifs passent chaque semaine pour le reste de leur vie à surveiller cela ? Et si les auteurs ne le contrôlent pas, ils en entendront certainement parler, de la part de lecteurs préoccupés par ces livres d'ordures, et de lecteurs qui ont crédulement acheté cette merde et se sont plaints. Ou les auteurs pourraient ne rien entendre du tout et perdre à jamais un lecteur potentiel.

Nous avons désespérément besoin de garde-fous sur ce glissement de terrain de mauvaise attribution et de désinformation. Amazon et Goodreads, je vous prie de créer un moyen de vérifier la paternité, ou pour les auteurs de bloquer facilement les livres frauduleux qui leur sont crédités. Faites-le maintenant, faites-le vite.

Malheureusement, même si et quand vous obtenez ces livres insensés supprimés de vos profils officiels, ils flotteront toujours là-bas, avec votre nom, sur deux sites majeurs qui attirent des millions de visiteurs, attendant juste d'être "découverts". Et vous ne pouvez absolument rien y faire.

Sources : Jane Friedman, Sarah Rose

Et vous ?

Êtes-vous surpris de voir le phénomène prendre de l'ampleur à l'ère de la vulgarisation de l'IA générative ?

Quelle est votre réaction face à la découverte de Jane Friedman sur les livres contrefaits générés par l’IA ?

Pensez-vous qu’Amazon et Goodreads devraient être plus vigilants et plus réactifs face à ce problème ?

Avez-vous déjà rencontré des livres générés par l’IA sur ces plateformes ou ailleurs ? Si oui, comment les avez-vous reconnus ?

Quelles sont les conséquences potentielles de la diffusion de ces livres frauduleux sur les auteurs, les lecteurs et l’industrie du livre ?

Que pensez-vous des auteurs qui utilisent l’IA pour écrire des livres électroniques et les vendre en ligne ?

**Stéphane le calme** · 10/08/2023, 22h54

Amazon fait marche arrière face aux « livres poubelles » écrits par l’IA après la colère du public,
l'entreprise supprime plusieurs livres de ce type répertoriés sous le nom d'un véritable auteur

Amazon, la grande enseigne du commerce électronique, a retiré plusieurs livres soupçonnés d’avoir été écrits par une intelligence artificielle et attribués à un véritable auteur. Cette décision fait suite à la plainte de la professeure Jane Friedman, qui a dénoncé sur Twitter la présence de livres qu’elle n’avait pas écrits sous son nom. Elle a reçu le soutien de la Guilde des auteurs, une organisation qui défend les droits des écrivains.

Jane Friedman, journaliste, auteure et professeure, a récemment découvert sur Amazon et Goodreads une demi-douzaine de « livres poubelles » portant son nom, probablement remplis de contenu généré par l’intelligence artificielle. Elle s'est inquiétée de l'impact que ces livres contrefaits peuvent avoir sur sa réputation. Ces livres portaient les titres Your Guide to Writing a Bestseller eBook on Amazon, Publishing Power : Navigating Amazon’s Kindle Direct Publishing et Promote to Prosper : Strategies to Skyrocket Your eBook Sales on Amazon. Ces livres utilisaient son nom et sa réputation pour attirer les acheteurs potentiels.

Friedman a contacté Amazon pour demander le retrait de ces livres, mais elle s’est heurtée à un refus initial. Amazon lui a dit qu’elle devait prouver qu’elle possédait la marque déposée sur son propre nom, ce qu’elle n’a pas pu faire. Amazon a donc décidé de laisser les livres en vente.

Friedman n’a pas baissé les bras et a exposé son cas sur Twitter, où elle a reçu le soutien de nombreux autres auteurs et de la Guilde des auteurs. Cette dernière s’est proposée d’intervenir en sa faveur auprès d’Amazon.

Envoyé par Guilde des auteurs

Jane Friedman, en tant que membre de la Guilde des auteurs, nous pouvons plaider en votre nom et contacter immédiatement la haute direction pour leur faire savoir que ces travaux sont une tentative de compromission de votre marque et doivent être supprimés en tant qu'infractions à la loi Lanham.

Nom : guilde.png
Affichages : 8139
Taille : 15,5 Ko

D'autres auteurs répondant au tweet de Friedman ont déclaré que la même chose leur était arrivée, et dans certains cas, l'éditeur des livres frauduleux a fait plus que simplement utiliser leurs noms.

« Désolé que vous ayez eu affaire à ça », a écrit l'auteur et poète Hattie Jean Hayes. « J'ai quelqu'un qui utilise mon nom pour publier de l'érotisme sur Amazon [Kindle Direct Publishing] depuis ces trois dernières années. C'est assez clairement une attaque ciblée puisqu'ils ont utilisé les noms des membres (mineurs !) de ma famille dans les histoires », a déclaré Hayes. « Amazon/Kindle m'a donné exactement la même réponse ».

Sorry you’re dealing with this. I have had someone using my name to publish erotica on Amazon/KDP for the last three years. It’s pretty clearly a targeted attack since they’ve used names of my (minor!) family members in the stories. Amazon/Kindle gave me the exact same answer.
— Hattie! (@QueenHattieJean) August 8, 2023

Une autre auteure, Sarah Rose, a tweeté : « Les gens n'arrêtent pas de me dire qu'ils ont acheté mon dernier livre - qui porte mon nom, mais je n'ai pas écrit - un escroc utilisant l'algorithme "trouver plus par cet auteur". Mon éditeur n'a pas pu faire que ça s'arrête et j'ai en quelque sorte abandonné ».

Amazon cède face à la pression

Face à la pression publique, Amazon a finalement changé de cap et a commencé à retirer les livres frauduleux de son site web.

« Nous avons des directives claires sur le contenu qui peut être mis en vente et nous enquêtons rapidement sur tout livre lorsque nous recevons une alerte », a déclaré Ashley Vanicek, porte-parole d’Amazon. « Nous accueillons les commentaires des auteurs et nous travaillons directement avec eux pour résoudre tout problème qu’ils soulèvent et lorsque nous avons commis une erreur, nous la corrigeons ».

Friedman a confirmé sur Twitter que les livres avaient été retirés d’Amazon. Elle s’est toutefois inquiétée du sort des autres auteurs qui n’ont pas la même audience qu’elle et qui ne peuvent pas faire autant de bruit.

La Guilde des auteurs a déclaré que ses membres pouvaient demander l'aide de l'organisation pour contacter la haute direction d'Amazon au sujet d'œuvres frauduleuses.

« Nous avons travaillé avec Amazon sur ce problème dans le passé, et nous poursuivrons nos conversations avec eux sur l'avancement de leurs efforts pour suivre le rythme de la technologie », a déclaré la Guilde des auteurs dans un communiqué. « En attendant, nous encourageons tout le monde à signaler ces livres qui tentent de tirer profit de votre marque via le portail de réclamation d'Amazon ».

Alors que les industries de la technologie et du divertissement continuent de lutter contre l'IA générative, la Guilde des auteurs affirme que la première étape de l'application de garde-fous consiste à exiger le consentement de l'auteur et une compensation pour l'utilisation de son travail.

En juillet, 10 000 membres de la Guilde des auteurs ont cosigné une lettre rédigée par l'organisation appelant les leaders de l'industrie de l'IA, dont OpenAI, Alphabet, Meta, Stability AI, IBM et Microsoft, à obtenir le consentement des auteurs, à les créditer et à les rémunérer équitablement.

« Il peut parfois être difficile de résoudre des problèmes comme celui-ci via les canaux habituels d'Amazon s'il ne s'agit pas d'une violation flagrante du droit d'auteur (lorsqu'il existe des procédures de retrait en vertu du DMCA), en particulier si la base juridique n'est pas clairement articulée », a déclaré un porte-parole de la Guilde des auteurs. « Amazon doit permettre aux auteurs de résoudre plus facilement les problèmes ».

Les conséquences des « livres poubelles » écrits par l’IA

Les « livres poubelles » écrits par l’IA ont des conséquences négatives à plusieurs niveaux :

sur le plan économique, ils nuisent aux revenus et à la réputation des vrais auteurs, qui doivent faire face à une concurrence déloyale et à une confusion des lecteurs. Ils peuvent aussi entraîner des pertes financières pour les lecteurs, qui se font escroquer en achetant des livres de mauvaise qualité ou sans valeur ajoutée ;
sur le plan juridique, ils posent des problèmes de droit d’auteur, de propriété intellectuelle et de responsabilité. Il n’est pas toujours facile de déterminer qui est l’auteur réel d’un livre écrit par l’IA, qui détient les droits sur le contenu et qui est responsable en cas de litige ou de dommage. Les lois actuelles ne sont pas adaptées à ce genre de situation et nécessitent une mise à jour ;
sur le plan culturel, les « livres poubelles » écrits par l’IA appauvrissent la diversité et la qualité du paysage littéraire. Ils peuvent aussi véhiculer des informations erronées, biaisées ou manipulatrices, qui influencent négativement l’opinion et la connaissance des lecteurs.

Conclusion

Ce n’est pas la première fois qu’Amazon est confronté au problème des « livres poubelles » écrits par l’IA. En 2021, la presse américaine avait révélé l’existence d’une entreprise nommée KDP Rocket, qui proposait de créer des livres électroniques personnalisés à partir de modèles générés par l’IA. Ces livres étaient ensuite publiés sur la plateforme Kindle Direct Publishing d’Amazon, sans mentionner qu’ils étaient le produit d’une machine.

L’utilisation de l’IA pour créer du contenu pose des questions éthiques et juridiques, notamment sur le respect du droit d’auteur, la qualité de l’information et la responsabilité des plateformes. Amazon devra sans doute renforcer ses mesures de contrôle pour éviter que son catalogue ne soit envahi par des « livres poubelles » qui nuisent aux véritables auteurs.

Indépendamment de ce que contiennent ces « livres poubelles », la grande question est de savoir comment Amazon, un site majeur qui atteint des centaines de millions de clients, prévoit de protéger à la fois les auteurs et les clients contre la fraude et la mauvaise attribution.

Ces cas soulèvent des questions sur la vérification des auteurs et la responsabilité des plateformes en ligne face à la prolifération des contenus générés par l’IA. Comment les lecteurs peuvent-ils distinguer les vrais auteurs des imposteurs ? Comment les auteurs peuvent-ils protéger leur identité et leur propriété intellectuelle ? Comment les plateformes peuvent-elles empêcher ou détecter les publications frauduleuses ? Ce sont autant de défis auxquels le monde du livre devra faire face à l’ère de l’IA.

Sources : Guilde des auteurs, Amazon

Et vous ?

Quelle est votre opinion sur les “livres poubelles” écrits par l’IA ? Les considérez-vous comme de la littérature ou comme de la fraude ?

Avez-vous déjà acheté ou lu un “livre poubelle” écrit par l’IA ? Si oui, comment avez-vous découvert qu’il s’agissait d’un faux livre ? Sinon, comment faites-vous pour les éviter ?

Que pensez-vous de la réaction d’Amazon face au problème des “livres poubelles” écrits par l’IA ? Trouvez-vous qu’elle a été suffisante et rapide ? Que devrait faire Amazon pour mieux protéger les auteurs et les lecteurs ?

Quelles sont les conséquences des “livres poubelles” écrits par l’IA sur le monde littéraire ? Pensez-vous qu’ils nuisent à la qualité, à la diversité et à la crédibilité de la littérature ? Ou pensez-vous qu’ils stimulent la créativité, la concurrence et l’innovation ?

Comment voyez-vous l’avenir de la création littéraire avec l’intelligence artificielle ? Pensez-vous que l’IA peut être un outil utile et positif pour les auteurs ? Ou pensez-vous qu’elle représente une menace pour leur métier et leur identité ?

**TotoParis** · 13/08/2023, 15h39

Amazon était déjà peu ou prou une "poubelle" mais là; ça dépasse l'entendement.
Bientôt, ils vendront des embryons humains congelés...

**TotoParis** · 13/08/2023, 15h40

Moi je boycotte cette plate-forme depuis longtemps.

**Stéphane le calme** · 15/08/2023, 20h49

Le New York Times dit non à l’utilisation de son contenu comme données d'entraînement pour une IA sans son accord
et menace de poursuites judiciaires

Le New York Times (NYT), l’un des plus grands journaux américains, a récemment mis à jour ses conditions d’utilisation pour empêcher que son contenu soit utilisé pour entraîner des modèles d’intelligence artificielle (IA) sans son autorisation écrite. Cette décision intervient alors que de nombreuses entreprises technologiques exploitent des applications d’IA basées sur le langage, telles que ChatGPT et Google Bard, qui ont acquis leurs capacités grâce à des collectes massives et non autorisées de données sur Internet.

Début août, le New York Times a mis à jour ses conditions d'utilisation pour interdire le scrapping de ses articles et images pour la formation à l'IA. Cette décision intervient à un moment où les entreprises technologiques ont continué à monétiser les applications de langage d'IA telles que ChatGPT et Google Bard, qui ont acquis leurs capacités grâce à des collectes massives non autorisées de données Internet.

Le NYT interdit l’utilisation de son contenu, qui comprend les articles, les vidéos, les images, le design, les métadonnées ou les compilations, pour le développement de tout logiciel, notamment pour l’entraînement d’un système d’apprentissage automatique ou d’IA. Il interdit également l’utilisation d’outils automatisés, comme les robots d’indexation, qui visent à utiliser, accéder ou collecter ce contenu sans son consentement écrit. Le NYT précise que le non-respect de ces restrictions peut entraîner des amendes ou des sanctions civiles, pénales ou administratives.

Dans la section 2.1 de ses conditions d'utilisation, il est écrit :

Envoyé par New York Times

Le contenu des Services, y compris le Site, est destiné à votre usage personnel et non commercial. Tous les documents publiés ou disponibles sur les Services (y compris, mais sans s'y limiter, les textes, photographies, images, illustrations, conceptions, clips audio, clips vidéo, "look and feel", métadonnées, données ou compilations, tous également connus sous le nom de " Contenu") sont protégés par le droit d'auteur et détenus ou contrôlés par The New York Times Company ou la partie créditée comme fournisseur du Contenu. La New York Times Company détient également le droit d'auteur sur la sélection, la coordination, la compilation et l'amélioration de ce Contenu (« Arrangement »). Vous devez respecter tous les avis, informations ou restrictions de droits d'auteur supplémentaires contenus dans tout Contenu accessible via le Service. L'utilisation non commerciale n'inclut pas l'utilisation du Contenu sans le consentement écrit préalable de The New York Times Company en relation avec : (1) le développement de tout programme logiciel, y compris, mais sans s'y limiter, la formation d'un machine learning ou d'un système d'intelligence artificielle ( IA) ; ou (2) fournir des ensembles de données archivés ou mis en cache contenant du Contenu à une autre personne ou entité.

Plus bas, dans la section 4.1, les conditions stipulent que sans le consentement écrit préalable du NYT, personne ne peut « utiliser le contenu pour le développement de tout programme logiciel, y compris, mais sans s'y limiter, la formation d'un système d'apprentissage automatique ou d'intelligence artificielle (IA) » :

Envoyé par New York Times

4. UTILISATION INTERDITE DES SERVICES

4.1 Vous ne pouvez pas accéder ou utiliser, ou tenter d'accéder ou d'utiliser, les Services pour prendre des mesures qui pourraient nous nuire ou nuire à un tiers. Vous ne pouvez pas utiliser les Services en violation des lois applicables, y compris les contrôles et les sanctions à l'exportation, ou en violation de notre propriété intellectuelle ou de celle d'un tiers ou d'autres droits de propriété ou légaux. Vous acceptez en outre de ne pas tenter (ni d'encourager ou de soutenir la tentative de quiconque) de contourner, d'effectuer une ingénierie inverse, de décrypter ou de modifier ou d'interférer avec les Services, ou tout contenu des Services, ou de faire une utilisation non autorisée des Services. Sans le consentement écrit préalable de NYT, vous ne devez pas :

(1) accéder à toute partie des Services, du Contenu, des données ou des informations auxquelles vous n'avez pas la permission ou l'autorisation d'accéder ou pour lesquelles NYT a révoqué votre accès ;

(2) utiliser des robots, des scripts, des services, des logiciels ou tout dispositif, outil ou processus manuel ou automatique conçu pour extraire des données ou récupérer le contenu, les données ou les informations des services, ou utiliser, accéder ou collecter le contenu des données ou informations des Services utilisant des moyens automatisés ;

(3) utiliser le Contenu pour le développement de tout programme logiciel, y compris, mais sans s'y limiter, la formation d'un système d'apprentissage automatique ou d'intelligence artificielle (IA).

(4) utiliser des services, des logiciels ou tout dispositif, outil ou processus manuel ou automatique conçu pour contourner toute restriction, condition ou mesure technologique qui contrôle l'accès aux Services de quelque manière que ce soit, y compris le remplacement de toute fonction de sécurité ou le contournement ou le contournement de tout accès contrôler ou utiliser les limites des Services ;

(5) mettre en cache ou archiver le Contenu (à l'exception de l'utilisation par un moteur de recherche public pour créer des index de recherche) ;

(6) prendre des mesures qui imposent une charge déraisonnable ou disproportionnée sur notre réseau ou notre infrastructure ; et

(7) faire tout ce qui pourrait désactiver, endommager ou modifier le fonctionnement ou l'apparence des Services, y compris la présentation de publicités.

4.2 S'engager dans une utilisation interdite des Services peut entraîner des sanctions civiles, pénales et/ou administratives, des amendes ou des sanctions à l'encontre de l'utilisateur et de ceux qui l'assistent.

Google va utiliser tout ce que vous allez publier en ligne comme données d'entraînement de son IA

Cette mesure préventive du NYT pourrait être une réponse à une récente modification de la politique de confidentialité de Google, qui révèle que le géant de la recherche peut collecter des données publiques sur le web pour entraîner ses différents services d’IA, comme Bard ou Cloud AI.

Dans la mise à jour de sa politique de confidentialité, il est écrit :

Envoyé par Google

Recherche et développement : Google utilise les informations pour améliorer ses services et développer de nouveaux produits, ainsi que de nouvelles fonctionnalités et technologies utiles à ses utilisateurs et au public. Par exemple, Google utilise des informations disponibles publiquement pour contribuer à l'entraînement de ses modèles d'IA, et concevoir des produits et des fonctionnalités comme Google Traduction, Bard et les capacités d'IA de Cloud

Le message est disponible à la section Conformité et coopération avec des organismes de réglementation dans la partie Finalités commerciales pour lesquelles des informations peuvent être utilisées ou divulguées.

Nom : google.png
Affichages : 4249
Taille : 63,5 Ko

Il s'agit d'une clause inhabituelle pour une politique de confidentialité. En règle générale, ces politiques décrivent la manière dont une entreprise utilise les informations que vous publiez sur les propres services de l'entreprise. Ici, il semble que Google se réserve le droit de récolter et d'exploiter les données publiées sur n'importe quelle partie du Web public, comme si l'ensemble d'Internet était le propre terrain de jeu de l'IA de l'entreprise.

Une mesure potentiellement efficace ?

Aussi menaçant que cela puisse paraître, les conditions d'utilisation restrictives n'ont pas encore arrêté le scrapping des données sur Internet dans le but de les utiliser comme données d'apprentissage automatique. Tous les grands modèles de langage disponibles aujourd'hui, y compris GPT-4 d'OpenAI, Claude 2 d'Anthropic, Llama 2 de Meta et PaLM 2 de Google, ont été formés sur de grands ensembles de données de matériaux extraits d'Internet. À l'aide d'un processus appelé apprentissage non supervisé, les données Web ont été introduites dans des réseaux de neurones, permettant aux modèles d'IA d'acquérir un sens conceptuel du langage en analysant les relations entre les mots.

Des services d’IA populaires, comme ChatGPT d’OpenAI, sont donc entraînés sur d’énormes ensembles de données qui pourraient contenir des matériaux protégés par le droit d’auteur ou d’autres droits, extraits du web sans l’autorisation du créateur original. Cela a conduit à plusieurs procès contre OpenAI en raison de cette pratique.

Par exemple, deux auteurs américains ont poursuivi OpenAI devant le tribunal fédéral de San Francisco, affirmant dans un recours collectif proposé que la société avait abusé de leurs travaux pour « former » son populaire système d'intelligence artificielle générative ChatGPT.

Nous pouvons également citer la comédienne et auteure américaine Sarah Silverman qui a déposé une plainte contre Meta et OpenAI, les accusant d’avoir utilisé son œuvre sans son autorisation pour entraîner leurs modèles d’intelligence artificielle à générer du texte. Elle est rejointe par deux autres auteurs, Christopher Golden et Richard Kadrey, qui affirment que leurs livres ont également été exploités par les deux entreprises sans leur consentement.

Les plaignants citent comme preuve le fait que les modèles d’IA sont capables de résumer leurs livres lorsqu’ils sont sollicités. Par exemple, ChatGPT peut fournir un résumé du livre The Bedwetter de Sarah Silverman, publié en 2010, qui raconte son enfance marquée par l’énurésie. De même, LLaMA peut résumer les livres Ararat de Christopher Golden et Sandman Slim de Richard Kadrey, qui sont des romans fantastiques.

Conclusion

Le NYT n’est pas le seul média à s’inquiéter de l’utilisation de son contenu par l’IA. La semaine dernière, l’Associated Press et plusieurs autres organisations de presse ont publié une lettre ouverte affirmant qu’un « cadre juridique doit être élaboré pour protéger le contenu qui alimente les applications d’IA », entre autres préoccupations. OpenAI semble anticiper les défis juridiques à venir et a commencé à prendre des mesures qui pourraient viser à devancer certaines de ces critiques. Par exemple, OpenAI a récemment détaillé une méthode que les sites web peuvent utiliser pour bloquer son robot d’indexation GPTBot afin qu’il ne collecte pas les données de leurs sites web.

L’industrie de l’IA repose fortement sur les données pour améliorer ses modèles et ses services, mais cela entre en conflit avec les préoccupations des médias concernant la propriété et la protection de leurs données. Des considérations éthiques et juridiques se posent à mesure que l’IA et les médias collaborent dans la curation des actualités. Le NYT semble vouloir garder le contrôle sur son contenu et négocier au cas par cas avec les entreprises technologiques qui souhaitent l’utiliser pour entraîner leurs systèmes d’IA.

Source : NYT

Et vous ?

Quelle est votre opinion sur la décision du New York Times d’interdire aux fournisseurs d’IA de collecter son contenu ?

Pensez-vous que les entreprises technologiques devraient demander l’autorisation aux créateurs de contenu avant d’utiliser leurs données pour entraîner leurs modèles d’IA ?

Comment les médias en particulier, et d'autres entités en général, peuvent-ils protéger leur propriété intellectuelle tout en bénéficiant des innovations de l’IA ?

**Patrick Ruiz** · 18/08/2023, 07h00

Le New York Times envisage de lancer une action en justice contre OpenAI pour l’obliger à effacer les données d’entraînement de ChatGPT
Le média dit non à l’usage de son contenu sans son accord

Le New York Times envisage de lancer une action en justice contre OpenAI afin de l’obliger à effacer les données d’entraînement de ChatGPT. Le département juridique du média étudie la possibilité de poursuivre OpenAI pour protéger les droits de propriété intellectuelle associés à ses reportages. En effet, le journal américain est contre l’utilisation de son contenu comme données d’entraînement pour une intelligence artificielle. La situation soulève diverses questions comme celle de savoir comment les médias peuvent bénéficier des innovations de l’IA tout en protégeant leur propriété intellectuelle.

L'une des principales préoccupations du Times est que ChatGPT devienne, d'une certaine manière, un concurrent direct du journal en créant des textes qui répondent à des questions basées sur les reportages et les écrits originaux de l'équipe du journal.

Cette crainte est d'autant plus forte que les entreprises technologiques utilisent des outils d'IA générative dans les moteurs de recherche. Microsoft par exemple a investi des milliards dans OpenAI et anime désormais son moteur de recherche Bing avec ChatGPT.

Le problème de fond est que lorsqu'une personne effectue une recherche en ligne, elle reçoit une réponse d'un paragraphe d'un outil d'IA qui remanie les articles du Times. La nécessité de visiter le site web de l'éditeur s’en trouve grandement diminuée.

C’est pour toutes ces raisons que le NYT a procédé à la modification de ses conditions d’utilisation pour interdire l’usage de son contenu qui comprend les articles, les vidéos, les images, le design, les métadonnées ou les compilations, pour le développement de tout logiciel, notamment pour l’entraînement d’un système d’apprentissage automatique ou d’IA. Il interdit également l’utilisation d’outils automatisés, comme les robots d’indexation, qui visent à utiliser, accéder ou collecter ce contenu sans son consentement écrit. Le NYT précise que le non-respect de ces restrictions peut entraîner des amendes ou des sanctions civiles, pénales ou administratives.

Une action en justice du Times contre OpenAI mettrait en place ce qui pourrait être la bataille juridique la plus médiatisée à ce jour sur la protection des droits d'auteur à l'ère de l'IA générative. La manœuvre est susceptible d’être dévastatrice pour OpenAI, avec notamment la destruction de l'ensemble des données d’entraînement de ChatGPT et des amendes pouvant aller jusqu'à 150 000 dollars par contenu objet du litige.

Nom : 1.png
Affichages : 4294
Taille : 310,4 Ko

Le NYT anticipe-t-il sur les décisions d’entreprises comme Google qui a annoncé qu’il fera usage de tout ce qui sera publié en ligne comme données d’entraînement de son IA Bard ?

Cette mesure préventive du NYT pourrait être une réponse à une récente modification de la politique de confidentialité de Google, qui révèle que le géant de la recherche peut collecter des données publiques sur le web pour entraîner ses différents services d’IA, comme Bard ou Cloud AI.

Dans la mise à jour de sa politique de confidentialité, il est écrit : « Recherche et développement : Google utilise les informations pour améliorer ses services et développer de nouveaux produits, ainsi que de nouvelles fonctionnalités et technologies utiles à ses utilisateurs et au public. Par exemple, Google utilise des informations disponibles publiquement pour contribuer à l'entraînement de ses modèles d'IA, et concevoir des produits et des fonctionnalités comme Google Traduction, Bard et les capacités d'IA de Cloud. »

Le message est disponible à la section Conformité et coopération avec des organismes de réglementation dans la partie Finalités commerciales pour lesquelles des informations peuvent être utilisées ou divulguées.

Nom : 2.png
Affichages : 2129
Taille : 63,5 Ko

Il s'agit d'une clause inhabituelle pour une politique de confidentialité. En règle générale, ces politiques décrivent la manière dont une entreprise utilise les informations que vous publiez sur les propres services de l'entreprise. Ici, il semble que Google se réserve le droit de récolter et d'exploiter les données publiées sur n'importe quelle partie du Web public, comme si l'ensemble d'Internet était le propre terrain de jeu de l'IA de l'entreprise.

C’est pour autant de raisons que le NYT n’est pas le seul média à s’inquiéter de l’utilisation de son contenu pour entraîner l’IA

Le NYT n’est pas le seul média à s’inquiéter de l’utilisation de son contenu par l’IA. La semaine dernière, l’Associated Press et plusieurs autres organisations de presse ont publié une lettre ouverte affirmant qu’un « cadre juridique doit être élaboré pour protéger le contenu qui alimente les applications d’IA », entre autres préoccupations. OpenAI semble anticiper les défis juridiques à venir et a commencé à prendre des mesures qui pourraient viser à devancer certaines de ces critiques. Par exemple, OpenAI a récemment détaillé une méthode que les sites web peuvent utiliser pour bloquer son robot d’indexation GPTBot afin qu’il ne collecte pas les données de leurs sites web.

L’industrie de l’IA repose fortement sur les données pour améliorer ses modèles et ses services, mais cela entre en conflit avec les préoccupations des médias concernant la propriété et la protection de leurs données. Des considérations éthiques et juridiques se posent à mesure que l’IA et les médias collaborent dans la curation des actualités. Le NYT semble vouloir garder le contrôle sur son contenu et négocier au cas par cas avec les entreprises technologiques qui souhaitent l’utiliser pour entraîner leurs systèmes d’IA.

Source : NPR

Et vous ?

Quelle est votre opinion sur la décision du New York Times d’interdire aux fournisseurs d’IA de collecter son contenu ?

Pensez-vous que les entreprises technologiques devraient demander l’autorisation aux créateurs de contenu avant d’utiliser leurs données pour entraîner leurs modèles d’IA ?

Comment les médias en particulier, et d'autres entités en général, peuvent-ils protéger leur propriété intellectuelle tout en bénéficiant des innovations de l’IA ?

Voir aussi :

Les éditeurs scientifiques face à l'impasse des faux documents générés par l'IA. Les outils de génération de textes et d'images constituent un nouvel obstacle aux efforts déployés

Le PDG d'OpenAI, Sam Altman, se dit effrayé par sa propre invention. L'IA pourrait être utilisée pour diffuser largement de fausses informations, ou encore lancer une nouvelle course à l'armement

Un avocat a cité 6 fausses affaires inventées par ChatGPT, l'outil d'IA conversationnelle développé par Open AI, le juge qualifie cette affaire de « sans précédent »

**Stéphane le calme** · 24/12/2023, 09h32

Les entreprises d'IA seraient tenues de divulguer les données de formation protégées par le droit d'auteur dont elles se sont servies,
en vertu d'un nouveau projet de loi

Deux législateurs ont déposé un projet de loi obligeant les créateurs de modèles de fondation à divulguer les sources des données de formation afin que les détenteurs de droits d'auteur sachent que leurs informations ont été prises. L'AI Foundation Model Transparency Act, déposé par les représentants Anna Eshoo (D-CA) et Don Beyer (D-VA), ordonnerait à la Federal Trade Commission (FTC) de travailler avec le National Institute of Standards and Technology (NIST) pour établir des règles de reporting sur la transparence des données de formation.

Un modèle de fondation est un modèle d'intelligence artificielle de grande taille, entraîné sur une grande quantité de données non étiquetées (généralement par apprentissage auto-supervisé). Le modèle résultant peut être adapté à un large éventail de tâches en aval (downstream tasks en anglais). Depuis leur introduction en 2018, les modèles de fondation ont induit une transformation majeure dans la manière de construire les systèmes d'IA. Les premiers modèles de fondation étaient de grands modèles de langage pré-entraînés, notamment BERT3 et GPT-3. Par la suite, des modèles de fondation multimodaux, tels DALL-E, Flamingo,et Florence, qui intègrent image et texte, ont fait leur apparition.

Les plaintes contre les sociétés d'IA en vertu du droit d'auteur se multiplient

Plusieurs plaintes en recours collectif contre OpenAI et Meta

La comédienne et auteure Sarah Silverman, ainsi que les auteurs Christopher Golden et Richard Kadrey, poursuivent OpenAI et Meta chacun devant un tribunal de district américain pour double plainte pour violation du droit d'auteur.

Selon les plaintes déposées devant le tribunal fédéral de San Francisco, Meta et OpenAI ont obtenu les œuvres des plaignants à partir de sites illégaux de « bibliothèques fantômes », qui proposent des livres numérisés sans respecter les droits d’auteur. Les plaignants affirment que leurs œuvres ont été utilisées comme matériel d’entraînement pour les modèles d’IA, sans qu’ils n’en aient été informés ni rémunérés.

Les plaignants citent comme preuve le fait que les modèles d’IA sont capables de résumer leurs livres lorsqu’ils sont sollicités. Par exemple, ChatGPT peut fournir un résumé du livre The Bedwetter de Sarah Silverman, publié en 2010, qui raconte son enfance marquée par l’énurésie. De même, LLaMA peut résumer les livres Ararat de Christopher Golden et Sandman Slim de Richard Kadrey, qui sont des romans fantastiques.

Quant à la plainte séparée contre Meta, il allègue que les livres des auteurs étaient accessibles dans les ensembles de données que Meta a utilisés pour former ses modèles LLaMA, un quatuor de modèles d'IA open source que la société a introduit en février.

De même, OpenAI fait l’objet d’une plainte en nom collectif déposée par deux autres auteurs américains, Paul Tremblay et Mona Awad, qui affirment que la société a utilisé leurs œuvres sans autorisation pour entraîner son système d’intelligence artificielle générative ChatGPT.

Gina Maccoby, agent littéraire à New York, a déclaré que même si les contrats des auteurs interdisent explicitement aux sociétés d'IA de faire du scrapping et de tirer profit des œuvres littéraires, les règles sont difficiles à appliquer : « Comment sait-on même si un livre se trouve dans un ensemble de données qui a été ingéré par un programme d'IA ? » se demande Maccoby.

Le New York Times envisage de lancer une action en justice contre OpenAI pour l’obliger à effacer les données d’entraînement de ChatGPT

Début août, le New York Times a mis à jour ses conditions d'utilisation pour interdire le scrapping de ses articles et images pour la formation à l'IA. Cette décision intervient à un moment où les entreprises technologiques ont continué à monétiser les applications de langage d'IA telles que ChatGPT et Google Bard, qui ont acquis leurs capacités grâce à des collectes massives non autorisées de données Internet.

Le NYT interdit l’utilisation de son contenu, qui comprend les articles, les vidéos, les images, le design, les métadonnées ou les compilations, pour le développement de tout logiciel, notamment pour l’entraînement d’un système d’apprentissage automatique ou d’IA. Il interdit également l’utilisation d’outils automatisés, comme les robots d’indexation, qui visent à utiliser, accéder ou collecter ce contenu sans son consentement écrit. Le NYT précise que le non-respect de ces restrictions peut entraîner des amendes ou des sanctions civiles, pénales ou administratives.

L'une des principales préoccupations du Times est que ChatGPT devienne, d'une certaine manière, un concurrent direct du journal en créant des textes qui répondent à des questions basées sur les reportages et les écrits originaux de l'équipe du journal.

Cette crainte est d'autant plus forte que les entreprises technologiques utilisent des outils d'IA générative dans les moteurs de recherche. Microsoft par exemple a investi des milliards dans OpenAI et anime désormais son moteur de recherche Bing avec ChatGPT.

Le problème de fond est que lorsqu'une personne effectue une recherche en ligne, elle reçoit une réponse d'un paragraphe d'un outil d'IA qui remanie les articles du Times. La nécessité de visiter le site web de l'éditeur s’en trouve grandement diminuée.

Une action en justice du Times contre OpenAI mettrait en place ce qui pourrait être la bataille juridique la plus médiatisée à ce jour sur la protection des droits d'auteur à l'ère de l'IA générative. La manœuvre est susceptible d’être dévastatrice pour OpenAI, avec notamment la destruction de l'ensemble des données d’entraînement de ChatGPT et des amendes pouvant aller jusqu'à 150 000 dollars par contenu objet du litige.

Nom : copilot.png
Affichages : 4700
Taille : 84,7 Ko

GitHub Copilot est attaqué en justice, l'outil est décrit par une développeur comme un produit d'IA qui «s'appuie sur un piratage de logiciels open source sans précédent»

GitHub Copilot est un outil d'intelligence artificielle basé sur le cloud développé par GitHub et OpenAI pour aider les utilisateurs des environnements de développement intégrés Visual Studio Code, Visual Studio, Neovim et JetBrains en complétant automatiquement le code. Matthieu Butterick, qui porte les casquettes d'écrivain, designer, développeur et avocat, a évoqué en juin 2022 les problèmes juridiques liés au fonctionnement de GitHub Copilot, « en particulier sa mauvaise gestion des licences open source ». Puis, il a revêtu sa casquette d'avocat pour s'associer à des confrères plaideurs en recours collectif. Ensemble, ils ont enquêté sur une poursuite potentielle contre GitHub Copilot pour violation de ses obligations légales envers les auteurs open source et les utilisateurs finaux. Au terme de cette enquête, ils ont déposé une plainte contre GitHub Copilot.

Les élus américains décident d'agir

Les entreprises qui créent des modèles de base devront signaler les sources de données de formation et la manière dont les données sont conservées pendant le processus d'inférence, décrire les limites ou les risques du modèle, comment le modèle s'aligne sur le framework de gestion des risques d'IA prévu par le NIST ainsi que toute autre norme fédérale qui pourraient être établis et fournir des informations sur la puissance de calcul utilisée pour former et exécuter le modèle. Pour mémoire, le NIST est une agence du département du Commerce des États-Unis. Son but est de promouvoir l'économie en développant des technologies, la métrologie et des normes de concert avec l'industrie.

Le projet de loi stipule également que les développeurs d'IA doivent signaler leurs efforts à « l'équipe rouge » du modèle pour l'empêcher de fournir des « informations inexactes ou nuisibles » sur des questions médicales ou liées à la santé, la synthèse biologique, la cybersécurité, les élections, le maintien de l'ordre, les décisions de prêt financier, l'éducation, les décisions en matière d’emploi, les services publics et les populations vulnérables telles que les enfants.

Le projet de loi souligne l'importance de la formation à la transparence des données autour du droit d'auteur, car plusieurs poursuites ont été intentées contre des sociétés d'IA alléguant une violation du droit d'auteur. Il mentionne spécifiquement le cas des artistes contre Stability AI, Midjourney et Deviant Art (qui a été largement rejeté en octobre), ainsi que la plainte de Getty Images contre Stability AI.

« Avec l’augmentation de l’accès du public à l’intelligence artificielle, il y a eu une augmentation des poursuites judiciaires et des inquiétudes du public concernant la violation du droit d’auteur », indique le projet de loi. «*L’utilisation publique des modèles de fondation a conduit à d’innombrables cas où le public s’est vu présenter des informations inexactes, imprécises ou biaisées.*»

Le projet de loi doit encore être confié à une commission et discuté, et il n’est pas clair si cela aura lieu avant le début de la campagne électorale chargée.

Un complément au décret de l'administration Biden sur l'IA

Le décret s'appuie en partie sur un accord non contraignant conclu en juillet par sept des principales entreprises technologiques américaines qui développent l'IA, comme l'embauche d'experts extérieurs pour rechercher les faiblesses de leurs systèmes et le partage de leurs conclusions critiques. Le décret ordonne les actions suivantes :

De nouvelles normes pour la sûreté et la sécurité de l'IA

Exiger que les développeurs des systèmes d'IA les plus puissants partagent les résultats de leurs tests de sécurité et d'autres informations critiques avec le gouvernement américain. Conformément à la loi sur la production de défense (Defense Production Act), le décret exigera que les entreprises qui développent un modèle de fondation présentant un risque sérieux pour la sécurité nationale, la sécurité économique nationale ou la santé et la sécurité publiques nationales informent le gouvernement fédéral lorsqu'elles forment le modèle, et qu'elles partagent les résultats de tous les tests de sécurité effectués par l'équipe d'intervention. Ces mesures garantiront que les systèmes d'IA sont sûrs, sécurisés et dignes de confiance avant que les entreprises ne les rendent publics.
Élaborer des normes, des outils et des tests pour garantir que les systèmes d'IA sont sûrs, sécurisés et fiables. L'Institut national des normes et de la technologie établira des normes rigoureuses pour les tests approfondis de l'équipe rouge afin de garantir la sécurité avant la diffusion publique. Le ministère de la sécurité intérieure appliquera ces normes aux secteurs d'infrastructures critiques et mettra en place le Conseil de sécurité et de sûreté de l'IA. Les ministères de l'énergie et de la sécurité intérieure se pencheront également sur les menaces que les systèmes d'IA font peser sur les infrastructures essentielles, ainsi que sur les risques chimiques, biologiques, radiologiques, nucléaires et de cybersécurité. Ensemble, ces mesures sont les plus importantes jamais prises par un gouvernement pour faire progresser le domaine de la sécurité de l'IA.
Protéger contre les risques liés à l'utilisation de l'IA pour créer des matériaux biologiques dangereux en élaborant de nouvelles normes strictes pour le contrôle des synthèses biologiques. Les agences qui financent des projets dans le domaine des sciences de la vie établiront ces normes comme condition du financement fédéral, créant ainsi de puissantes incitations à garantir un contrôle approprié et à gérer les risques potentiellement aggravés par l'IA.
Protéger les Américains contre la fraude et la tromperie par l'IA en établissant des normes et des bonnes pratiques pour détecter les contenus générés par l'IA et authentifier les contenus officiels. Le ministère du commerce élaborera des orientations pour l'authentification des contenus et l'utilisation de filigranes afin d'étiqueter clairement les contenus générés par l'IA. Les agences fédérales utiliseront ces outils pour permettre aux Américains de savoir facilement que les communications qu'ils reçoivent de leur gouvernement sont authentiques et pour donner l'exemple au secteur privé et aux gouvernements du monde entier.
Mettre en place un programme de cybersécurité avancée afin de développer des outils d'IA permettant de trouver et de corriger les vulnérabilités des logiciels critiques, en s'appuyant sur le défi cybernétique de l'IA lancé par l'administration Biden-Harris. Ensemble, ces efforts permettront d'exploiter les capacités cybernétiques de l'IA, qui pourraient changer la donne, afin de rendre les logiciels et les réseaux plus sûrs.
Ordonner l'élaboration d'un mémorandum sur la sécurité nationale qui oriente les actions futures en matière d'IA et de sécurité, qui sera élaboré par le Conseil de sécurité nationale et le chef de cabinet de la Maison Blanche. Ce document garantira que l'armée américaine et la communauté du renseignement utilisent l'IA de manière sûre, éthique et efficace dans le cadre de leurs missions, et dirigera les actions visant à contrer l'utilisation militaire de l'IA par les adversaires.

Soutenir les travailleurs

Élaborer des principes et des bonnes pratiques pour atténuer les inconvénients et maximiser les avantages de l'IA pour les travailleurs en abordant le déplacement d'emplois, les normes du travail, l'équité, la santé et la sécurité sur le lieu de travail, et la collecte de données. Ces principes et ces meilleures pratiques profiteront aux travailleurs en fournissant des orientations pour empêcher les employeurs de sous-compenser les travailleurs, d'évaluer les demandes d'emploi de manière inéquitable ou d'entraver la capacité des travailleurs à s'organiser.
Produire un rapport sur les impacts potentiels de l'IA sur le marché du travail, et étudier et identifier des options pour renforcer le soutien fédéral aux travailleurs confrontés à des perturbations du marché du travail, y compris à cause de l'IA.

Le projet de loi d’Eshoo et Beyer complète donc le décret de l’administration Biden sur l’IA, qui aide à établir des normes de reporting pour les modèles d’IA. Le décret, cependant, n’est pas une loi, donc si l’AI Foundation Model Transparency Act est adopté, il fera des exigences de transparence pour les données de formation une règle fédérale.

Source : AI Foundation Model Transparency Act

Et vous ?

Quels sont les avantages et les inconvénients des modèles de base pour la société ?

Quels sont les critères les plus importants pour évaluer la transparence des modèles de base ?

Quelles sont les différences et les similitudes entre le projet de loi américain et le règlement européen sur l’IA ? Lequel vous semble plus efficace ? Pourquoi ?

Comment les utilisateurs peuvent-ils s’assurer de la fiabilité et de la qualité du contenu généré par les modèles de base ?

Quelles sont les responsabilités des développeurs, des fournisseurs et des utilisateurs de modèles de base ?

**Stéphane le calme** · 23/08/2023, 08h14

OpenAI tente désormais de cacher que ChatGPT a été formé sur des livres protégés par le droit d'auteur,
comme la série Harry Poter de J.K Rowling, selon une étude

OpenAI, l’une des principales entreprises d’intelligence artificielle, a mis en place un mécanisme pour éviter que son modèle de génération de texte ChatGPT ne révèle qu’il a été entraîné sur des livres protégés par le droit d’auteur, selon une nouvelle étude publiée par des chercheurs en IA de ByteDance, le propriétaire de TikTok.

ChatGPT, comme la plupart des autres modèles de langage de grande taille, a été entraîné sur d’énormes quantités de données et de textes extraits d’Internet, y compris de nombreux livres qui restent protégés par le droit d’auteur. L’entreprise a fait l’objet d’un examen accru pour avoir utilisé ces œuvres sans payer pour les informations par le biais de contrats de licence ou d’autres autorisations. Cela a entraîné des poursuites judiciaires de la part des auteurs.

Plusieurs auteurs poursuivent OpenAI

La comédienne et auteure Sarah Silverman, ainsi que les auteurs Christopher Golden et Richard Kadrey, poursuivent OpenAI et Meta chacun devant un tribunal de district américain pour double plainte pour violation du droit d'auteur.

Selon les plaintes déposées devant le tribunal fédéral de San Francisco, Meta et OpenAI ont obtenu les œuvres des plaignants à partir de sites illégaux de « bibliothèques fantômes », qui proposent des livres numérisés sans respecter les droits d’auteur. Les plaignants affirment que leurs œuvres ont été utilisées comme matériel d’entraînement pour les modèles d’IA, sans qu’ils en aient été informés ni rémunérés.

Les plaignants citent comme preuve le fait que les modèles d’IA sont capables de résumer leurs livres lorsqu’ils sont sollicités. Par exemple, ChatGPT peut fournir un résumé du livre The Bedwetter de Sarah Silverman, publié en 2010, qui raconte son enfance marquée par l’énurésie. De même, LLaMA peut résumer les livres Ararat de Christopher Golden et Sandman Slim de Richard Kadrey, qui sont des romans fantastiques.

Quant à la plainte séparée contre Meta, elle allègue que les livres des auteurs étaient accessibles dans les ensembles de données que Meta a utilisés pour former ses modèles LLaMA, un quatuor de modèles d'IA open source que la société a introduit en février.

La plainte explique par étapes pourquoi les plaignants pensent que les ensembles de données ont des origines illicites – dans un document Meta détaillant LLaMA, la société indique les sources de ses ensembles de données de formation, dont l'un s'appelle ThePile, qui a été assemblé par une société appelée EleutherAI. ThePile, souligne la plainte, a été décrit dans un article d'EleutherAI comme étant constitué à partir « d'une copie du contenu du traceur privé Bibliotik ». Bibliotik et les autres « bibliothèques fantômes » répertoriées, selon la plainte, sont « incontestablement illégales ».

Dans les deux plaintes, les auteurs disent qu'ils « n'ont pas consenti à l'utilisation de leurs livres protégés par le droit d'auteur comme matériel de formation » pour les modèles d'IA des entreprises. Leurs plaintes contiennent chacune six chefs d'accusation de divers types de violations du droit d'auteur, de négligence, d'enrichissement sans cause et de concurrence déloyale. Les auteurs demandent des dommages-intérêts légaux, la restitution des bénéfices, etc.

D'autres poursuites avaient déjà été lancées

Deux auteurs américains, Paul Tremblay et Mona Awad, affirment qu'OpenAI a utilisé leurs œuvres sans autorisation pour entraîner son système d’intelligence artificielle générative ChatGPT.

ChatGPT et d’autres systèmes d’IA générative créent du contenu en utilisant de grandes quantités de données collectées sur internet. La plainte des auteurs affirme que les livres sont un « ingrédient clef », car ils offrent les « meilleurs exemples d’écriture longue de haute qualité ». La plainte estime qu’OpenAI a incorporé dans ses données d’entraînement plus de 300 000 livres, dont certains provenant de « bibliothèques fantômes » illégales qui proposent des livres protégés par le droit d’auteur sans autorisation.

Awad est connue pour ses romans comme « 13 Ways of Looking at a Fat Girl » et « Bunny ». Tremblay est l’auteur de romans comme « The Cabin at the End of the World », qui a été adapté dans le film de Night Shyamalan « Knock at the Cabin » sorti en février. Tremblay et Awad affirment que ChatGPT peut générer des résumés « très précis » de leurs livres, ce qui indique qu’ils figurent dans sa base de données.

La plainte demande une somme indéterminée de dommages-intérêts au nom d’une classe nationale de titulaires de droits d’auteur dont les œuvres auraient été utilisées abusivement par OpenAI.

Des poursuites comme celle-ci ne sont pas seulement un casse-tête pour OpenAI et d'autres sociétés d'IA; elles défient les limites mêmes du droit d'auteur. Il n'est pas exclu de voir des poursuites centrées sur le droit d'auteur dans les modèles de formation d'IA se multiplier dans les années à venir.

Nom : chatgpt.png
Affichages : 46479
Taille : 387,5 Ko

La réponse d'OpenAI ? Cacher les sources

La réponse d’OpenAI, et celle de Google, Meta et Microsoft, a été principalement de cesser de divulguer les données sur lesquelles leurs modèles d’IA sont entraînés. Maintenant, OpenAI est allé plus loin, suggère une étude. ChatGPT tente désormais d’éviter de répondre aux sollicitations des utilisateurs avec des formulations exactes provenant d’œuvres protégées par le droit d’auteur, selon un article technique publié par un groupe de chercheurs en IA travaillant pour le pôle recherche de ByteDance.

L’étude, qui s’est concentrée sur la façon de rendre les LLM plus « fiables » dans leurs sorties grâce à diverses techniques « d’alignement » afin d'améliorer la précision, a estimé que les outils d’IA montrant qu’ils ont été entraînés à l’aide de matériel protégé par le droit d’auteur « ont soulevé des préoccupations » pour les entreprises d’IA.

Dans un effort pour éviter de montrer qu’il a été entraîné sur ce type de matériel, ChatGPT « perturbe les sorties lorsque l’on essaie d’extraire en continu la phrase suivante… ce qui ne se produisait pas dans la version précédente de ChatGPT », ont écrit les chercheurs. « Nous supposons que les développeurs de ChatGPT ont mis en place un mécanisme pour détecter si les sollicitations visent à extraire du contenu protégé par le droit d’auteur ou à vérifier la similarité entre les sorties générées et les contenus protégés par le droit d’auteur ».

Malgré ces efforts, ChatGPT a toujours montré du matériel protégé par le droit d’auteur, selon l’étude. Comme le font de nombreux autres modèles d’IA, étant donné qu’ils ont été entraînés sur d’énormes pans de matériel protégé par le droit d’auteur. Les chercheurs ont testé toutes les versions de ChatGPT, OPT-1.3B de Meta, FLAN-T5 de Google, ChatGLM construit par l’université Tsinghua Chine, et DialoGPT construit par Microsoft : tous ont répondu à plusieurs sollicitations basées sur la série de livres Harry Potter de J.K. Rowling avec des phrases et des œuvres correspondant exactement ou presque exactement aux livres. Certaines réponses ne différaient que d’un ou deux mots, selon l’étude.

Nom : harry.png
Affichages : 13235
Taille : 36,1 Ko

« Tous les LLM émettent du texte qui ressemble plus à du contenu protégé par le droit d’auteur qu’à du texte généré aléatoirement », a déclaré l’étude. Elle a également constaté qu’aucune quantité « d’alignement » ou d’ajustement des sorties n’évite de montrer des œuvres protégées par le droit d’auteur « parce que la fuite du droit d’auteur est plus liée au fait que les données d’entraînement comprennent du texte protégé par le droit d’auteur plutôt qu’à l’alignement lui-même ».

Le document qualifie de « fuite » le fait que les modèles d’IA répondent avec du matériel protégé par le droit d’auteur. Les chercheurs ont suggéré que les utilisateurs qui incitent ces modèles à montrer des œuvres protégées par le droit d'auteur « abusent » de la technologie.

L'article a également souligné le travail apparent de ChatGPT pour cacher le travail protégé par le droit d'auteur sur lequel il a été formé comme un exemple positif de la façon dont d'autres outils d'IA « peuvent protéger le contenu protégé par le droit d'auteur dans les LLM en détectant des invites conçues de manière malveillante ».

Les solutions envisageables

L’étude soulève des questions sur la façon dont les entreprises d’IA peuvent respecter les droits d’auteur des auteurs tout en développant des modèles de langage de plus en plus puissants et performants. Les chercheurs suggèrent que les développeurs de LLM devraient « éviter d’utiliser du contenu protégé par le droit d’auteur comme données d’entraînement » ou « obtenir l’autorisation des détenteurs des droits d’auteur » avant de le faire. Ils proposent également d’utiliser des techniques de « filtrage » ou de « masquage » pour empêcher les LLM de générer du contenu protégé par le droit d’auteur.

Cependant, ces solutions ne sont pas sans problèmes. D’une part, il est difficile de filtrer ou de masquer tout le contenu protégé par le droit d’auteur dans les données d’entraînement, car il n’existe pas de base de données complète et à jour des œuvres protégées par le droit d’auteur. D’autre part, éviter d’utiliser du contenu protégé par le droit d’auteur comme données d’entraînement pourrait réduire la qualité et la diversité des LLM, car ils auraient accès à moins de sources de texte.

Une autre possibilité serait de créer un cadre juridique qui permette aux entreprises d’IA d’utiliser du contenu protégé par le droit d’auteur comme données d’entraînement sans violer les droits des auteurs, à condition qu’elles ne divulguent pas ou ne reproduisent pas ce contenu dans leurs sorties. Cela pourrait nécessiter une modification des lois sur le droit d’auteur ou la création d’une exception spécifique pour l’IA. Cela pourrait également impliquer la mise en place d’un système de licence ou de rémunération pour les auteurs dont les œuvres sont utilisées comme données d’entraînement.

Quelle que soit la solution adoptée, il est clair que les entreprises d’IA doivent faire face à un dilemme entre le respect des droits d’auteur et le développement de modèles de langage innovants. Il est également clair que les auteurs doivent être conscients du risque que leurs œuvres soient utilisées sans leur consentement ou leur rétribution par des modèles d’IA. Il est donc nécessaire de trouver un équilibre entre les intérêts des uns et des autres, tout en préservant la créativité et l’éthique dans le domaine de l’IA.

Source : recherche

Et vous ?

Quelle est votre opinion sur l’utilisation du contenu protégé par le droit d’auteur comme données d’entraînement pour les modèles d’IA ?

Pensez-vous que les entreprises d’IA devraient payer les auteurs dont les œuvres sont utilisées comme données d’entraînement ?

Quels sont les risques et les avantages de créer une exception au droit d’auteur pour l’IA ?

Comment pensez-vous que les modèles d’IA pourraient respecter la créativité et l’éthique des auteurs ?

Avez-vous déjà utilisé ou interagi avec un modèle d’IA qui a généré du contenu protégé par le droit d’auteur ? Si oui, comment avez-vous réagi ?

**totozor** · 23/08/2023, 08h42

Quelle est votre opinion sur l’utilisation du contenu protégé par le droit d’auteur comme données d’entraînement pour les modèles d’IA ?
Je suis assez partagé, autant je peux comprendre qu'un auteur ne veut pas qu'on puisse contourner l'achat de son livre avec une IA.
Autant les auteurs doivent aussi admettre que leurs oeuvres sont publiques et il n'y a rien de choquant qu'une IA puisse faire un résumé de celles ci. Tout comme il n'est pas choquant qu'une IA résume la pensée d'un philosophe.
Pensez-vous que les entreprises d’IA devraient payer les auteurs dont les œuvres sont utilisées comme données d’entraînement ?
Ca les rendrait instantanément non viables, ça rendrait les IA existantes complètement protégées d'éventuel nouveau concurent.
Avez-vous déjà utilisé ou interagi avec un modèle d’IA qui a généré du contenu protégé par le droit d’auteur ? Si oui, comment avez-vous réagi ?
Probablement pas mais beaucoup de monde semble impressionné par les réponses à "écrit moi un texte à la façon de ..." donc c'est monnaie courante.

Envoyé par Stéphane le calme

ChatGPT tente désormais d’éviter de répondre aux sollicitations des utilisateurs avec des formulations exactes provenant d’œuvres protégées par le droit d’auteur, selon un article technique publié par un groupe de chercheurs en IA travaillant pour le pôle recherche de ByteDance.

C'est interressant parce que si l'article dit vrai ça veut dire que ChatGPT sait identifier les textes soumis au droit d'auteur et donc ne pourra pas se défendre en disant qu'ils ont traité une tonne de données aveuglément et qu'ils sont donc incapable d'identifier les données libres de droit des autres.

**Fagus** · 23/08/2023, 14h11

Envoyé par totozor

autant je peux comprendre qu'un auteur ne veut pas qu'on puisse contourner l'achat de son livre avec une IA.
Autant les auteurs doivent aussi admettre que leurs oeuvres sont publiques et il n'y a rien de choquant qu'une IA puisse faire un résumé de celles ci. Tout comme il n'est pas choquant qu'une IA résume la pensée d'un philosophe.

Je suis d'accord, mais je vois deux problème légaux :

que la société n'ait pas payé les documents d'entraînement . Si un particulier veut accéder à un contenu sous droit d'auteur, il n'a pas le droit de le télécharger sur un torrent. Je ne vois pas pourquoi une puissante société aurait le droit de le faire en toute impunité. Surtout que pour de nombreux contenu, une licence commerciale n'est pas la même qu'une licence d'utilisation pour un utilisateur. C'est comme si pour le prix d'un livre harry potter, j'avais le droit de faire un usage commercial du contenu...
que le modèle puisse reconstituer l'oeuvre si on lui demande (pour cela il semble qu'ils prennent des mesures techniques).

**Wanto** · 23/08/2023, 15h02

Envoyé par Fagus

Je suis d'accord, mais je vois deux problème légaux :

que la société n'ait pas payé les documents d'entraînement . Si un particulier veut accéder à un contenu sous droit d'auteur, il n'a pas le droit de le télécharger sur un torrent. Je ne vois pas pourquoi une puissante société aurait le droit de le faire en toute impunité. Surtout que pour de nombreux contenu, une licence commerciale n'est pas la même qu'une licence d'utilisation pour un utilisateur. C'est comme si pour le prix d'un livre harry potter, j'avais le droit de faire un usage commercial du contenu...
que le modèle puisse reconstituer l'oeuvre si on lui demande (pour cela il semble qu'ils prennent des mesures techniques).

Le 1er point reste assez vague, les humains achetés bien des livre et utilise après ce savoir pour tout comme un usage commercial de ce qu'ils en ont retiré.
Cela reste une question intéressante, une ia devrait-il payer plus cher pour lire un livre qu'un humain.
Mais effectivement le 2em point reste logique, c'est le même problème qu'actuellement avec les extrait, reformer plein d'extrait pour avoir l'œuvre final.

Par contre je trouve ça assez marrant que ce soient les cherche de tiktok qui parle de plagiat, au vu du nombre de vols et du nombre de films couper en plein de parties et mis sur leur plateforme.

**AaâÂäÄàAaâÂäÄàAaâÂäÄ** · 23/08/2023, 15h33

Envoyé par Wanto

Par contre je trouve ça assez marrant que ce soient les cherche de tiktok qui parle de plagiat, au vu du nombre de vols et du nombre de films couper en plein de parties et mis sur leur plateforme.

Comprend qui peut !

**onilink_** · 23/08/2023, 17h22

Envoyé par Wanto

Le 1er point reste assez vague, les humains achetés bien des livre et utilise après ce savoir pour tout comme un usage commercial de ce qu'ils en ont retiré.
Cela reste une question intéressante, une ia devrait-il payer plus cher pour lire un livre qu'un humain.
Mais effectivement le 2em point reste logique, c'est le même problème qu'actuellement avec les extrait, reformer plein d'extrait pour avoir l'œuvre final.

Par contre je trouve ça assez marrant que ce soient les cherche de tiktok qui parle de plagiat, au vu du nombre de vols et du nombre de films couper en plein de parties et mis sur leur plateforme.

Justement, un modèle d'IA ne lit pas un livre, ça ne fonctionne en rien comme un humain.
Sinon il n'y aurait pas de problème et de débat. Mais la on parle de modèles qui régurgitent des pavés entiers mémorisés par cœur.
C'est exactement le même soucis avec les IA génératives du style stable diffusion.

**Madmac** · 27/08/2023, 20h24

Envoyé par Wanto

Le 1er point reste assez vague, les humains achetés bien des livre et utilise après ce savoir pour tout comme un usage commercial de ce qu'ils en ont retiré.
Cela reste une question intéressante, une ia devrait-il payer plus cher pour lire un livre qu'un humain.
.

Mauvais point de comparaison: Refait ta réflexion avec un extrait de film (spécialement Disney) ou de chanson.

**Mathis Lucas** · 31/08/2023, 15h37

OpenAI conteste les affirmations des auteurs selon lesquelles chaque réponse de ChatGPT est une œuvre dérivée
l'entreprise affirme que ces plaintes sont irrecevables et demande leur rejet

OpenAI a demandé cette semaine à un tribunal fédéral de Californie de rejeter les plaintes pour violation du droit d'auteur qui le visent depuis peu. Plusieurs auteurs poursuivent la startup d'IA pour avoir utilisé des copies pirates de leurs livres afin d'entraîner ses modèles de langage, dont le plus célèbre est ChatGPT. Les auteurs affirment que cette utilisation non autorisée est en violation de plusieurs lois fédérales des États-Unis, dont celles sur le droit d'auteur et le DMCA (Digital Millennium Copyright Act). Mais OpenAI conteste ces allégations et a déposé des motions de rejet dans lesquelles il demande au tribunal de Californie de rejeter toutes les plaintes sauf une.

OpenAI affirme que les plaintes pour violation du droit d'auteur sont irrecevables

OpenAI, qui bénéficie du soutien de Microsoft, s'est attaqué lundi à ce qu'il a appelé des "revendications accessoires" dans les poursuites, déclarant au tribunal fédéral de Californie que le texte généré par ChatGPT ne violait pas les droits des auteurs sur les livres. En effet, le laboratoire d'IA de San Francisco fait face à un nombre très important de plaintes intentées par des milliers d'auteurs pour violation du droit d'auteur et pour d'autres formes de violations. Les personnalités les plus connues parmi les plaignants sont la comédienne Sarah Silverman, l'écrivain et éditeur Paul Tremblay, la romancière Mona Awad et l'écrivain de science-fiction Richard Kadrey.

L'entreprise a déposé lundi des requêtes en irrecevabilité dans le cadre de plusieurs actions en justice de ce type. Dans les documents déposés auprès du tribunal, OpenAI a demandé le rejet de cinq des six chefs d'accusation déposés dans le cadre des poursuites. OpenAI a défendu la nature transformative de sa technologie, soulignant la nécessité de trouver un équilibre entre la protection des droits d'auteur et le progrès technologique. L'entreprise a également déclaré qu'elle prévoyait de contester le dernier chef d'accusation de violation directe du droit d'auteur devant le tribunal en tant que question de droit. Elle n'a toutefois pas donné un calendrier.

« Les autres plaintes des auteurs - qui portent sur la violation du droit d'auteur par personne interposée, la violation du Digital Millennium Copyright Act (DMCA), la concurrence déloyale, la négligence et l'enrichissement sans cause - doivent être supprimées des poursuites afin que ces affaires n'aillent pas jusqu'au stade de la découverte et au-delà avec des théories de responsabilité juridiquement infirmes », a fait valoir OpenAI. Il a souligné la valeur et le potentiel de l'IA - en particulier de son grand modèle de langage (LLM) ChatGPT - dans l'amélioration de la productivité, l'aide au codage informatique et la simplification des tâches quotidiennes.

Les arguments avancés par OpenAI devant le tribunal ont été vivement critiqués par la communauté. Les critiques ont accusé la startup d'IA de chercher à redéfinir le droit d'auteur afin de profiter illégalement des œuvres des auteurs. « Vous pouvez commencer à voir l'histoire qu'ils vont raconter ici, à savoir que le droit d'auteur a des limites. Il ne s'étend pas aux faits et aux idées. Même si une œuvre est protégée par le droit d'auteur et qu'un LLM la traite ou en produise un résumé, il ne s'agit pas d'une œuvre dérivée à proprement parler », a déclaré Gregory Leighton, spécialiste du droit de la vie privée au cabinet d'avocats Polsinelli.

L'entreprise a comparé l'impact de ChatGPT à une révolution intellectuelle importante, établissant un parallèle avec l'invention de la presse à imprimer. OpenAI estime que les auteurs se font une fausse idée de la portée du droit d'auteur, en ne tenant pas compte des limitations et des exceptions (y compris l'utilisation équitable) qui laissent de la place aux innovations telles que les LLM. Selon OpenAI, même si les livres ne représentaient qu'une "infime partie" de l'ensemble de données massives de ChatGPT, "l'utilisation de matériel protégé par le droit d'auteur par des innovateurs de manière transformatrice ne viole pas le droit d'auteur".

Contrairement aux plagiaires qui cherchent à tirer directement profit de la distribution de matériel protégé par le droit d'auteur, OpenAI a fait valoir que son objectif était d'apprendre à ses modèles à dériver les règles qui sous-tendent le langage humain pour faire des choses comme : aider les gens à gagner du temps au travail, faciliter la vie quotidienne ou simplement se divertir en tapant des invites dans ChatGPT. Dans sa demande au tribunal, OpenAI va plus loin en expliquant que l'objectif de la loi sur le droit d'auteur est de promouvoir le progrès de la science et des arts utiles en protégeant la manière dont les auteurs expriment leurs idées.

OpenAI affirme que les plaignants s'appuient sur des preuves contradictoires

Selon OpenAI, la loi sur le droit d'auteur ne vise pas à protéger l'idée sous-jacente d'une œuvre, les faits incorporés dans le message articulé de l'auteur ou d'autres éléments constitutifs de la création, qui sont sans doute les éléments des œuvres des auteurs qui seraient utiles au modèle d'apprentissage de ChatGPT. Citant un cas notable de droit d'auteur impliquant Google Books, OpenAI a déclaré : « si un auteur peut enregistrer un droit d'auteur sur son livre, les données statistiques relatives à la fréquence des mots, aux schémas syntaxiques et aux marqueurs thématiques de ce livre sont hors de portée de la protection du droit d'auteur ».

« En vertu de la jurisprudence qui en découle, ne constitue pas une contrefaçon le fait de créer des copies en gros [d'une œuvre] en tant qu'étape préliminaire pour développer un nouveau produit non contrefait, même si le nouveau produit est en concurrence avec l'original », a ajouté l'OpenAI. En fin de compte, OpenAI espère convaincre le tribunal que l'allégation de violation du droit d'auteur par le fait d'autrui formulée par les auteurs - qui prétendent que chaque réponse de ChatGPT représente une œuvre dérivée, "qu'il y ait ou non des similitudes entre le produit et les œuvres de formation" - est une "conclusion juridique erronée".

OpenAI soutient que les plaignants n'ont pas suffisamment de preuves pour affirmer que les LLM produisent des œuvres dérivées et que si ces normes sont appliquées à plus grande échelle, les photographes pourraient poursuivre les peintres qui font référence à leur matériel. « Les preuves apportées par les plaignants concernant les informations de gestion des droits d'auteur étaient contradictoires et ne montraient pas comment elles avaient été volontairement supprimées », a déclaré l'entreprise. Selon OpenAI, il n'y a pas non plus de preuve qui appuie l'affirmation selon laquelle il aurait conservé des bénéfices ou des avantages tirés du matériel enfreint.

Selon les auteurs, toute sortie de ChatGPT qui copie leurs œuvres, mais exclut les informations de gestion des droits d'auteur (CMI) telles que les noms des auteurs ou les années de publication viole le DMCA. Les auteurs ont accusé OpenAI d'avoir intentionnellement supprimé les CMI pour "profiter injustement du développement d'un produit commercial basé sur des reproductions non attribuées de ces écrits et idées volés et s'en attribuer le mérite". Mais selon OpenAI, les plaintes des auteurs sont "cousues de fil blanc" et totalement dépourvues d'explications sur la manière dont OpenAI pourrait supprimer les informations de gestion des droits d'auteur.

OpenAI a affirmé qu'il n'y a aucune preuve que la société a intentionnellement supprimé les CMI, mais également que les plaintes des auteurs allèguent un certain nombre de faits qui contrediraient cette théorie - y compris des allégations selon lesquelles les livres des plaignants ont été copiés par OpenAI dans leur intégralité. La société a ajouté que si les CMI ont été supprimés des données de formation, il s'agissait probablement d'un effet secondaire involontaire d'un processus technologique - comme lorsqu'un moteur de recherche n'est pas responsable d'avoir récupéré des images sur Internet sans avoir également récupéré les CMI associés.

OpenAI affirme que ce type de retrait accidentel des CMI exclut la responsabilité et ne soutient pas les allégations selon lesquelles l'entreprise a agi pour déguiser des actes répréhensibles ou dissimuler des infractions. Enfin, OpenAI estime que les réclamations de négligence et d'enrichissement sans cause fondées sur la législation de l'État sont préemptées par la loi fédérale sur le droit d'auteur. Par conséquent, elles devraient être annulées.

OpenAI est accusé de vouloir réduire les protections de la loi sur droit d'auteur

Selon les critiques, si OpenAI obtient satisfaction, ce sera la mort du droit d'auteur en tant que concept. Ils estiment qu'OpenAI joue à un jeu dangereux qui pourrait nuire à ses propres partenaires. « C'est vrai sur le fond, mais il s'agit d'un tour de passe-passe intéressant. On ne devrait pas parler d'usage loyal dans une motion de rejet, parce que l'usage loyal est une défense affirmative. C'est en fait quelque chose que le défendeur doit plaider et prouver de manière affirmative. Il s'agissait probablement toujours de revendications accessoires et complémentaires, alors que le plat de résistance est la violation du droit d'auteur », a déclaré Leighton.

Les requêtes en irrecevabilité d'OpenAI sont fondées sur la nature transformative de ChatGPT, les principes d'utilisation équitable et les lacunes juridiques perçues dans les demandes annexes des plaignants. Les motions ont donné un aperçu de la défense globale des opérations en cours d'OpenAI alors que le laboratoire d'IA navigue à l'intersection complexe de la loi sur le droit d'auteur et de la réalisation de progrès dans le domaine de l'IA. Si OpenAI réussit à faire rejeter la majorité des actions en justice intentées par les auteurs, il ne restera plus à la Cour qu'à décider si le modèle de formation d'OpenAI viole directement la loi sur le droit d'auteur.

Selon les experts, cela pourrait signifier que les données d'entraînement de ChatGPT violent la loi soit en reproduisant et en distribuant les œuvres originales, soit en préparant des œuvres dérivées sans autorisation ou sans modifications suffisantes. « Il est toutefois peu probable que les auteurs abandonnent ce combat aussi facilement. Pour eux, l'IA générative est une énorme escroquerie qui ne contribue pas à faire progresser l'intelligence humaine, mais représente plutôt une copie de l'intelligence humaine qui a été reconditionnée et séparée de ses créateurs », a écrit le cabinet d'avocats Joseph Saveri sur un site Web résumant leurs plaintes.

Bien que Leighton estime que cette requête en irrecevabilité n'aura peut-être pas d'effets immédiats considérables, les enjeux de l'affaire dans son ensemble restent importants. En déterminant dans quelle mesure de grands modèles de langage peuvent être formés sur des œuvres protégées par le droit d'auteur sans enfreindre le droit d'auteur, l'issue des procès pourrait avoir des implications majeures pour les cas d'utilisation de l'IA, en particulier s'il est établi que l'ingestion d'œuvres protégées par le droit d'auteur enfreint toujours le droit d'auteur. « Nous avons un premier aperçu de ce qui va se passer », a déclaré Leighton.

« Ils présentent ces éléments au juge, non pas parce que cela a vraiment quelque chose à voir avec la motion de rejet elle-même et ce qu'ils essaient d'accomplir sur le plan procédural, mais c'est l'introduction thématique à la partie [d'OpenAI] de l'affaire ici », a-t-il ajouté. Au fur et à mesure que les procès se déroulent, ce conflit juridique définira probablement l'avenir de la législation sur le droit d'auteur et du progrès technologique.

Sources : OpenAI (1, 2), plaintes visant les LLM

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des arguments présentés par OpenAI pour demander le rejet des plaintes pour violation du droit d'auteur ?

Selon vous, les arguments de l'entreprise sont-ils recevables ? Pourquoi ?

Que pensez-vous des allégations selon lesquelles OpenAI cherche à réduire la portée des protections offertes par la loi sur le droit d'auteur ?

Voir aussi

OpenAI tente désormais de cacher que ChatGPT a été formé sur des livres protégés par le droit d'auteur comme la série Harry Poter de J.K Rowling, selon une étude

Des auteurs de livres poursuivent OpenAI en justice, affirmant que la société a abusé de leurs travaux pour former ChatGPT. Selon eux, les livres sont un « ingrédient clé » du chabot IA

OpenAI et Meta accusés d'avoir utilisé les œuvres de Sarah Silverman et de deux auteurs sans leur consentement comme données d'entraînements de leurs IA. Les plaintes de ce type se multiplient

GitHub, Microsoft, OpenAI ne parviennent pas à se sortir du procès Copilot, le juge a refusé de rejeter deux plaintes dans l'affaire et a renvoyé la plupart des autres allégations

**totozor** · 01/09/2023, 09h06

Envoyé par Mathis Lucas

« Les autres plaintes des auteurs [...], la violation du Digital Millennium Copyright Act (DMCA), la concurrence déloyale, la négligence et l'enrichissement sans cause - doivent être supprimées des poursuites afin que ces affaires n'aillent pas jusqu'au stade de la découverte et au-delà avec des théories de responsabilité juridiquement infirmes », a fait valoir OpenAI.

J'ai l'impression de ne pas tout comprendre mais pourquoi doit on supprimer une poursuite sous prtéexte de risque d'aller jusqu'à "la découverte de responsabilité"?
N'est ce pas justement le rôle d'un tribunal de découvrir cette théorie de responsabilité et dévaluer si elle est "juridiquement infirme"

Il a souligné la valeur et le potentiel de l'IA - en particulier de son grand modèle de langage (LLM) ChatGPT - dans l'amélioration de la productivité, l'aide au codage informatique et la simplification des tâches quotidiennes.

Oui mais certaines expériences plus que douteuses réalisée dans des systèmes totallitaires ont grandement fait avancé la science, elles sont malgré tout plus que condamnables.
Pardon pour la comparaison douteuse mais leur défense est horrible.

OpenAI va plus loin en expliquant que l'objectif de la loi sur le droit d'auteur est de promouvoir le progrès de la science et des arts utiles en protégeant la manière dont les auteurs expriment leurs idées.

Est ce seulement vrai?
Je penses que pour commencer le droit d'auteur ne promeut rien, il (essaye de) protège.
Le droit d'auteur ne promeut/proège pas le progrès de la science, ne confondent ils pas brevets et droit d'auteur?
Qu'est ce que l'art utile? Une partie de la valeur ajoutée de l'art n'est il pas qu'il n'est pas forcément intrinsèquement utile

Je trouve assez choquant que OpenAI essaye de redéfinir le droit d'auteur et son objectif.
Je penses que la course au développement à tout prix est une tendance qu'il ne fait pas de mal de freiner. Et au passage rappeler aux Start-up qui émergent qu'elles ne sont pas au delà du système dans lequel elles évoluent et qu'elles exploitent (pas forcément dans un sens péjoratif)

**totozor** · 24/08/2023, 09h14

Envoyé par Fagus

Je suis d'accord, mais je vois deux problème légaux :

que la société n'ait pas payé les documents d'entraînement . Si un particulier veut accéder à un contenu sous droit d'auteur, il n'a pas le droit de le télécharger sur un torrent. Je ne vois pas pourquoi une puissante société aurait le droit de le faire en toute impunité. Surtout que pour de nombreux contenu, une licence commerciale n'est pas la même qu'une licence d'utilisation pour un utilisateur. C'est comme si pour le prix d'un livre harry potter, j'avais le droit de faire un usage commercial du contenu...

Oui c'est un peu ce que je voulais souligné mais il existe pourtant des contrexemples apparents (je n'ai pas le détail de ce qui se passe en fond), les annales de BAC français sont vendues avec des résumés et des analyses approfondies de certaines oeuvres littéraires.
Ce que je veux dire est qu'il ne me parait pas choquant que je puisse avoir un débat avec ChatGPT (même si le concept de débat avec une machine me choque) sur tel bouquin de Harry Potter par contre il ne devrait pas pouvoir me restituer son contenu (même si ce n'est pas fait de façon exacte).

On se retrouve à un moment où on (utilisateurs de chatGPT) veut une interface culturellement moderne mais qui ne se nourrirait pas des oeuvres culturelle moderne, ca qui est un paradoxe amusant à constater.
Mais ce n'est pas le seul paradoxe de notre rapport à cette IA, donc soit.

OpenAI perd une bataille dans les procès pour violation de droit d'auteur lors de l'entraînement de son IA

Vue hybride

Discussions similaires

Partager

Partager