Les journalistes « profondément troublés » par les accords de contenu conclus par OpenAI avec les médias

**Stéphane le calme** · 24/12/2023, 08h32

Les entreprises d'IA seraient tenues de divulguer les données de formation protégées par le droit d'auteur dont elles se sont servies,
en vertu d'un nouveau projet de loi

Deux législateurs ont déposé un projet de loi obligeant les créateurs de modèles de fondation à divulguer les sources des données de formation afin que les détenteurs de droits d'auteur sachent que leurs informations ont été prises. L'AI Foundation Model Transparency Act, déposé par les représentants Anna Eshoo (D-CA) et Don Beyer (D-VA), ordonnerait à la Federal Trade Commission (FTC) de travailler avec le National Institute of Standards and Technology (NIST) pour établir des règles de reporting sur la transparence des données de formation.

Un modèle de fondation est un modèle d'intelligence artificielle de grande taille, entraîné sur une grande quantité de données non étiquetées (généralement par apprentissage auto-supervisé). Le modèle résultant peut être adapté à un large éventail de tâches en aval (downstream tasks en anglais). Depuis leur introduction en 2018, les modèles de fondation ont induit une transformation majeure dans la manière de construire les systèmes d'IA. Les premiers modèles de fondation étaient de grands modèles de langage pré-entraînés, notamment BERT3 et GPT-3. Par la suite, des modèles de fondation multimodaux, tels DALL-E, Flamingo,et Florence, qui intègrent image et texte, ont fait leur apparition.

Les plaintes contre les sociétés d'IA en vertu du droit d'auteur se multiplient

Plusieurs plaintes en recours collectif contre OpenAI et Meta

La comédienne et auteure Sarah Silverman, ainsi que les auteurs Christopher Golden et Richard Kadrey, poursuivent OpenAI et Meta chacun devant un tribunal de district américain pour double plainte pour violation du droit d'auteur.

Selon les plaintes déposées devant le tribunal fédéral de San Francisco, Meta et OpenAI ont obtenu les œuvres des plaignants à partir de sites illégaux de « bibliothèques fantômes », qui proposent des livres numérisés sans respecter les droits d’auteur. Les plaignants affirment que leurs œuvres ont été utilisées comme matériel d’entraînement pour les modèles d’IA, sans qu’ils n’en aient été informés ni rémunérés.

Les plaignants citent comme preuve le fait que les modèles d’IA sont capables de résumer leurs livres lorsqu’ils sont sollicités. Par exemple, ChatGPT peut fournir un résumé du livre The Bedwetter de Sarah Silverman, publié en 2010, qui raconte son enfance marquée par l’énurésie. De même, LLaMA peut résumer les livres Ararat de Christopher Golden et Sandman Slim de Richard Kadrey, qui sont des romans fantastiques.

Quant à la plainte séparée contre Meta, il allègue que les livres des auteurs étaient accessibles dans les ensembles de données que Meta a utilisés pour former ses modèles LLaMA, un quatuor de modèles d'IA open source que la société a introduit en février.

De même, OpenAI fait l’objet d’une plainte en nom collectif déposée par deux autres auteurs américains, Paul Tremblay et Mona Awad, qui affirment que la société a utilisé leurs œuvres sans autorisation pour entraîner son système d’intelligence artificielle générative ChatGPT.

Gina Maccoby, agent littéraire à New York, a déclaré que même si les contrats des auteurs interdisent explicitement aux sociétés d'IA de faire du scrapping et de tirer profit des œuvres littéraires, les règles sont difficiles à appliquer : « Comment sait-on même si un livre se trouve dans un ensemble de données qui a été ingéré par un programme d'IA ? » se demande Maccoby.

Le New York Times envisage de lancer une action en justice contre OpenAI pour l’obliger à effacer les données d’entraînement de ChatGPT

Début août, le New York Times a mis à jour ses conditions d'utilisation pour interdire le scrapping de ses articles et images pour la formation à l'IA. Cette décision intervient à un moment où les entreprises technologiques ont continué à monétiser les applications de langage d'IA telles que ChatGPT et Google Bard, qui ont acquis leurs capacités grâce à des collectes massives non autorisées de données Internet.

Le NYT interdit l’utilisation de son contenu, qui comprend les articles, les vidéos, les images, le design, les métadonnées ou les compilations, pour le développement de tout logiciel, notamment pour l’entraînement d’un système d’apprentissage automatique ou d’IA. Il interdit également l’utilisation d’outils automatisés, comme les robots d’indexation, qui visent à utiliser, accéder ou collecter ce contenu sans son consentement écrit. Le NYT précise que le non-respect de ces restrictions peut entraîner des amendes ou des sanctions civiles, pénales ou administratives.

L'une des principales préoccupations du Times est que ChatGPT devienne, d'une certaine manière, un concurrent direct du journal en créant des textes qui répondent à des questions basées sur les reportages et les écrits originaux de l'équipe du journal.

Cette crainte est d'autant plus forte que les entreprises technologiques utilisent des outils d'IA générative dans les moteurs de recherche. Microsoft par exemple a investi des milliards dans OpenAI et anime désormais son moteur de recherche Bing avec ChatGPT.

Le problème de fond est que lorsqu'une personne effectue une recherche en ligne, elle reçoit une réponse d'un paragraphe d'un outil d'IA qui remanie les articles du Times. La nécessité de visiter le site web de l'éditeur s’en trouve grandement diminuée.

Une action en justice du Times contre OpenAI mettrait en place ce qui pourrait être la bataille juridique la plus médiatisée à ce jour sur la protection des droits d'auteur à l'ère de l'IA générative. La manœuvre est susceptible d’être dévastatrice pour OpenAI, avec notamment la destruction de l'ensemble des données d’entraînement de ChatGPT et des amendes pouvant aller jusqu'à 150 000 dollars par contenu objet du litige.

Nom : copilot.png
Affichages : 2465
Taille : 84,7 Ko

GitHub Copilot est attaqué en justice, l'outil est décrit par une développeur comme un produit d'IA qui «s'appuie sur un piratage de logiciels open source sans précédent»

GitHub Copilot est un outil d'intelligence artificielle basé sur le cloud développé par GitHub et OpenAI pour aider les utilisateurs des environnements de développement intégrés Visual Studio Code, Visual Studio, Neovim et JetBrains en complétant automatiquement le code. Matthieu Butterick, qui porte les casquettes d'écrivain, designer, développeur et avocat, a évoqué en juin 2022 les problèmes juridiques liés au fonctionnement de GitHub Copilot, « en particulier sa mauvaise gestion des licences open source ». Puis, il a revêtu sa casquette d'avocat pour s'associer à des confrères plaideurs en recours collectif. Ensemble, ils ont enquêté sur une poursuite potentielle contre GitHub Copilot pour violation de ses obligations légales envers les auteurs open source et les utilisateurs finaux. Au terme de cette enquête, ils ont déposé une plainte contre GitHub Copilot.

Les élus américains décident d'agir

Les entreprises qui créent des modèles de base devront signaler les sources de données de formation et la manière dont les données sont conservées pendant le processus d'inférence, décrire les limites ou les risques du modèle, comment le modèle s'aligne sur le framework de gestion des risques d'IA prévu par le NIST ainsi que toute autre norme fédérale qui pourraient être établis et fournir des informations sur la puissance de calcul utilisée pour former et exécuter le modèle. Pour mémoire, le NIST est une agence du département du Commerce des États-Unis. Son but est de promouvoir l'économie en développant des technologies, la métrologie et des normes de concert avec l'industrie.

Le projet de loi stipule également que les développeurs d'IA doivent signaler leurs efforts à « l'équipe rouge » du modèle pour l'empêcher de fournir des « informations inexactes ou nuisibles » sur des questions médicales ou liées à la santé, la synthèse biologique, la cybersécurité, les élections, le maintien de l'ordre, les décisions de prêt financier, l'éducation, les décisions en matière d’emploi, les services publics et les populations vulnérables telles que les enfants.

Le projet de loi souligne l'importance de la formation à la transparence des données autour du droit d'auteur, car plusieurs poursuites ont été intentées contre des sociétés d'IA alléguant une violation du droit d'auteur. Il mentionne spécifiquement le cas des artistes contre Stability AI, Midjourney et Deviant Art (qui a été largement rejeté en octobre), ainsi que la plainte de Getty Images contre Stability AI.

« Avec l’augmentation de l’accès du public à l’intelligence artificielle, il y a eu une augmentation des poursuites judiciaires et des inquiétudes du public concernant la violation du droit d’auteur », indique le projet de loi. «*L’utilisation publique des modèles de fondation a conduit à d’innombrables cas où le public s’est vu présenter des informations inexactes, imprécises ou biaisées.*»

Le projet de loi doit encore être confié à une commission et discuté, et il n’est pas clair si cela aura lieu avant le début de la campagne électorale chargée.

Un complément au décret de l'administration Biden sur l'IA

Le décret s'appuie en partie sur un accord non contraignant conclu en juillet par sept des principales entreprises technologiques américaines qui développent l'IA, comme l'embauche d'experts extérieurs pour rechercher les faiblesses de leurs systèmes et le partage de leurs conclusions critiques. Le décret ordonne les actions suivantes :

De nouvelles normes pour la sûreté et la sécurité de l'IA

Exiger que les développeurs des systèmes d'IA les plus puissants partagent les résultats de leurs tests de sécurité et d'autres informations critiques avec le gouvernement américain. Conformément à la loi sur la production de défense (Defense Production Act), le décret exigera que les entreprises qui développent un modèle de fondation présentant un risque sérieux pour la sécurité nationale, la sécurité économique nationale ou la santé et la sécurité publiques nationales informent le gouvernement fédéral lorsqu'elles forment le modèle, et qu'elles partagent les résultats de tous les tests de sécurité effectués par l'équipe d'intervention. Ces mesures garantiront que les systèmes d'IA sont sûrs, sécurisés et dignes de confiance avant que les entreprises ne les rendent publics.
Élaborer des normes, des outils et des tests pour garantir que les systèmes d'IA sont sûrs, sécurisés et fiables. L'Institut national des normes et de la technologie établira des normes rigoureuses pour les tests approfondis de l'équipe rouge afin de garantir la sécurité avant la diffusion publique. Le ministère de la sécurité intérieure appliquera ces normes aux secteurs d'infrastructures critiques et mettra en place le Conseil de sécurité et de sûreté de l'IA. Les ministères de l'énergie et de la sécurité intérieure se pencheront également sur les menaces que les systèmes d'IA font peser sur les infrastructures essentielles, ainsi que sur les risques chimiques, biologiques, radiologiques, nucléaires et de cybersécurité. Ensemble, ces mesures sont les plus importantes jamais prises par un gouvernement pour faire progresser le domaine de la sécurité de l'IA.
Protéger contre les risques liés à l'utilisation de l'IA pour créer des matériaux biologiques dangereux en élaborant de nouvelles normes strictes pour le contrôle des synthèses biologiques. Les agences qui financent des projets dans le domaine des sciences de la vie établiront ces normes comme condition du financement fédéral, créant ainsi de puissantes incitations à garantir un contrôle approprié et à gérer les risques potentiellement aggravés par l'IA.
Protéger les Américains contre la fraude et la tromperie par l'IA en établissant des normes et des bonnes pratiques pour détecter les contenus générés par l'IA et authentifier les contenus officiels. Le ministère du commerce élaborera des orientations pour l'authentification des contenus et l'utilisation de filigranes afin d'étiqueter clairement les contenus générés par l'IA. Les agences fédérales utiliseront ces outils pour permettre aux Américains de savoir facilement que les communications qu'ils reçoivent de leur gouvernement sont authentiques et pour donner l'exemple au secteur privé et aux gouvernements du monde entier.
Mettre en place un programme de cybersécurité avancée afin de développer des outils d'IA permettant de trouver et de corriger les vulnérabilités des logiciels critiques, en s'appuyant sur le défi cybernétique de l'IA lancé par l'administration Biden-Harris. Ensemble, ces efforts permettront d'exploiter les capacités cybernétiques de l'IA, qui pourraient changer la donne, afin de rendre les logiciels et les réseaux plus sûrs.
Ordonner l'élaboration d'un mémorandum sur la sécurité nationale qui oriente les actions futures en matière d'IA et de sécurité, qui sera élaboré par le Conseil de sécurité nationale et le chef de cabinet de la Maison Blanche. Ce document garantira que l'armée américaine et la communauté du renseignement utilisent l'IA de manière sûre, éthique et efficace dans le cadre de leurs missions, et dirigera les actions visant à contrer l'utilisation militaire de l'IA par les adversaires.

Soutenir les travailleurs

Élaborer des principes et des bonnes pratiques pour atténuer les inconvénients et maximiser les avantages de l'IA pour les travailleurs en abordant le déplacement d'emplois, les normes du travail, l'équité, la santé et la sécurité sur le lieu de travail, et la collecte de données. Ces principes et ces meilleures pratiques profiteront aux travailleurs en fournissant des orientations pour empêcher les employeurs de sous-compenser les travailleurs, d'évaluer les demandes d'emploi de manière inéquitable ou d'entraver la capacité des travailleurs à s'organiser.
Produire un rapport sur les impacts potentiels de l'IA sur le marché du travail, et étudier et identifier des options pour renforcer le soutien fédéral aux travailleurs confrontés à des perturbations du marché du travail, y compris à cause de l'IA.

Le projet de loi d’Eshoo et Beyer complète donc le décret de l’administration Biden sur l’IA, qui aide à établir des normes de reporting pour les modèles d’IA. Le décret, cependant, n’est pas une loi, donc si l’AI Foundation Model Transparency Act est adopté, il fera des exigences de transparence pour les données de formation une règle fédérale.

Source : AI Foundation Model Transparency Act

Et vous ?

Quels sont les avantages et les inconvénients des modèles de base pour la société ?

Quels sont les critères les plus importants pour évaluer la transparence des modèles de base ?

Quelles sont les différences et les similitudes entre le projet de loi américain et le règlement européen sur l’IA ? Lequel vous semble plus efficace ? Pourquoi ?

Comment les utilisateurs peuvent-ils s’assurer de la fiabilité et de la qualité du contenu généré par les modèles de base ?

Quelles sont les responsabilités des développeurs, des fournisseurs et des utilisateurs de modèles de base ?

**Stéphane le calme** · 23/08/2023, 07h14

OpenAI tente désormais de cacher que ChatGPT a été formé sur des livres protégés par le droit d'auteur,
comme la série Harry Poter de J.K Rowling, selon une étude

OpenAI, l’une des principales entreprises d’intelligence artificielle, a mis en place un mécanisme pour éviter que son modèle de génération de texte ChatGPT ne révèle qu’il a été entraîné sur des livres protégés par le droit d’auteur, selon une nouvelle étude publiée par des chercheurs en IA de ByteDance, le propriétaire de TikTok.

ChatGPT, comme la plupart des autres modèles de langage de grande taille, a été entraîné sur d’énormes quantités de données et de textes extraits d’Internet, y compris de nombreux livres qui restent protégés par le droit d’auteur. L’entreprise a fait l’objet d’un examen accru pour avoir utilisé ces œuvres sans payer pour les informations par le biais de contrats de licence ou d’autres autorisations. Cela a entraîné des poursuites judiciaires de la part des auteurs.

Plusieurs auteurs poursuivent OpenAI

La comédienne et auteure Sarah Silverman, ainsi que les auteurs Christopher Golden et Richard Kadrey, poursuivent OpenAI et Meta chacun devant un tribunal de district américain pour double plainte pour violation du droit d'auteur.

Selon les plaintes déposées devant le tribunal fédéral de San Francisco, Meta et OpenAI ont obtenu les œuvres des plaignants à partir de sites illégaux de « bibliothèques fantômes », qui proposent des livres numérisés sans respecter les droits d’auteur. Les plaignants affirment que leurs œuvres ont été utilisées comme matériel d’entraînement pour les modèles d’IA, sans qu’ils en aient été informés ni rémunérés.

Les plaignants citent comme preuve le fait que les modèles d’IA sont capables de résumer leurs livres lorsqu’ils sont sollicités. Par exemple, ChatGPT peut fournir un résumé du livre The Bedwetter de Sarah Silverman, publié en 2010, qui raconte son enfance marquée par l’énurésie. De même, LLaMA peut résumer les livres Ararat de Christopher Golden et Sandman Slim de Richard Kadrey, qui sont des romans fantastiques.

Quant à la plainte séparée contre Meta, elle allègue que les livres des auteurs étaient accessibles dans les ensembles de données que Meta a utilisés pour former ses modèles LLaMA, un quatuor de modèles d'IA open source que la société a introduit en février.

La plainte explique par étapes pourquoi les plaignants pensent que les ensembles de données ont des origines illicites – dans un document Meta détaillant LLaMA, la société indique les sources de ses ensembles de données de formation, dont l'un s'appelle ThePile, qui a été assemblé par une société appelée EleutherAI. ThePile, souligne la plainte, a été décrit dans un article d'EleutherAI comme étant constitué à partir « d'une copie du contenu du traceur privé Bibliotik ». Bibliotik et les autres « bibliothèques fantômes » répertoriées, selon la plainte, sont « incontestablement illégales ».

Dans les deux plaintes, les auteurs disent qu'ils « n'ont pas consenti à l'utilisation de leurs livres protégés par le droit d'auteur comme matériel de formation » pour les modèles d'IA des entreprises. Leurs plaintes contiennent chacune six chefs d'accusation de divers types de violations du droit d'auteur, de négligence, d'enrichissement sans cause et de concurrence déloyale. Les auteurs demandent des dommages-intérêts légaux, la restitution des bénéfices, etc.

D'autres poursuites avaient déjà été lancées

Deux auteurs américains, Paul Tremblay et Mona Awad, affirment qu'OpenAI a utilisé leurs œuvres sans autorisation pour entraîner son système d’intelligence artificielle générative ChatGPT.

ChatGPT et d’autres systèmes d’IA générative créent du contenu en utilisant de grandes quantités de données collectées sur internet. La plainte des auteurs affirme que les livres sont un « ingrédient clef », car ils offrent les « meilleurs exemples d’écriture longue de haute qualité ». La plainte estime qu’OpenAI a incorporé dans ses données d’entraînement plus de 300 000 livres, dont certains provenant de « bibliothèques fantômes » illégales qui proposent des livres protégés par le droit d’auteur sans autorisation.

Awad est connue pour ses romans comme « 13 Ways of Looking at a Fat Girl » et « Bunny ». Tremblay est l’auteur de romans comme « The Cabin at the End of the World », qui a été adapté dans le film de Night Shyamalan « Knock at the Cabin » sorti en février. Tremblay et Awad affirment que ChatGPT peut générer des résumés « très précis » de leurs livres, ce qui indique qu’ils figurent dans sa base de données.

La plainte demande une somme indéterminée de dommages-intérêts au nom d’une classe nationale de titulaires de droits d’auteur dont les œuvres auraient été utilisées abusivement par OpenAI.

Des poursuites comme celle-ci ne sont pas seulement un casse-tête pour OpenAI et d'autres sociétés d'IA; elles défient les limites mêmes du droit d'auteur. Il n'est pas exclu de voir des poursuites centrées sur le droit d'auteur dans les modèles de formation d'IA se multiplier dans les années à venir.

Nom : chatgpt.png
Affichages : 43844
Taille : 387,5 Ko

La réponse d'OpenAI ? Cacher les sources

La réponse d’OpenAI, et celle de Google, Meta et Microsoft, a été principalement de cesser de divulguer les données sur lesquelles leurs modèles d’IA sont entraînés. Maintenant, OpenAI est allé plus loin, suggère une étude. ChatGPT tente désormais d’éviter de répondre aux sollicitations des utilisateurs avec des formulations exactes provenant d’œuvres protégées par le droit d’auteur, selon un article technique publié par un groupe de chercheurs en IA travaillant pour le pôle recherche de ByteDance.

L’étude, qui s’est concentrée sur la façon de rendre les LLM plus « fiables » dans leurs sorties grâce à diverses techniques « d’alignement » afin d'améliorer la précision, a estimé que les outils d’IA montrant qu’ils ont été entraînés à l’aide de matériel protégé par le droit d’auteur « ont soulevé des préoccupations » pour les entreprises d’IA.

Dans un effort pour éviter de montrer qu’il a été entraîné sur ce type de matériel, ChatGPT « perturbe les sorties lorsque l’on essaie d’extraire en continu la phrase suivante… ce qui ne se produisait pas dans la version précédente de ChatGPT », ont écrit les chercheurs. « Nous supposons que les développeurs de ChatGPT ont mis en place un mécanisme pour détecter si les sollicitations visent à extraire du contenu protégé par le droit d’auteur ou à vérifier la similarité entre les sorties générées et les contenus protégés par le droit d’auteur ».

Malgré ces efforts, ChatGPT a toujours montré du matériel protégé par le droit d’auteur, selon l’étude. Comme le font de nombreux autres modèles d’IA, étant donné qu’ils ont été entraînés sur d’énormes pans de matériel protégé par le droit d’auteur. Les chercheurs ont testé toutes les versions de ChatGPT, OPT-1.3B de Meta, FLAN-T5 de Google, ChatGLM construit par l’université Tsinghua Chine, et DialoGPT construit par Microsoft : tous ont répondu à plusieurs sollicitations basées sur la série de livres Harry Potter de J.K. Rowling avec des phrases et des œuvres correspondant exactement ou presque exactement aux livres. Certaines réponses ne différaient que d’un ou deux mots, selon l’étude.

Nom : harry.png
Affichages : 12439
Taille : 36,1 Ko

« Tous les LLM émettent du texte qui ressemble plus à du contenu protégé par le droit d’auteur qu’à du texte généré aléatoirement », a déclaré l’étude. Elle a également constaté qu’aucune quantité « d’alignement » ou d’ajustement des sorties n’évite de montrer des œuvres protégées par le droit d’auteur « parce que la fuite du droit d’auteur est plus liée au fait que les données d’entraînement comprennent du texte protégé par le droit d’auteur plutôt qu’à l’alignement lui-même ».

Le document qualifie de « fuite » le fait que les modèles d’IA répondent avec du matériel protégé par le droit d’auteur. Les chercheurs ont suggéré que les utilisateurs qui incitent ces modèles à montrer des œuvres protégées par le droit d'auteur « abusent » de la technologie.

L'article a également souligné le travail apparent de ChatGPT pour cacher le travail protégé par le droit d'auteur sur lequel il a été formé comme un exemple positif de la façon dont d'autres outils d'IA « peuvent protéger le contenu protégé par le droit d'auteur dans les LLM en détectant des invites conçues de manière malveillante ».

Les solutions envisageables

L’étude soulève des questions sur la façon dont les entreprises d’IA peuvent respecter les droits d’auteur des auteurs tout en développant des modèles de langage de plus en plus puissants et performants. Les chercheurs suggèrent que les développeurs de LLM devraient « éviter d’utiliser du contenu protégé par le droit d’auteur comme données d’entraînement » ou « obtenir l’autorisation des détenteurs des droits d’auteur » avant de le faire. Ils proposent également d’utiliser des techniques de « filtrage » ou de « masquage » pour empêcher les LLM de générer du contenu protégé par le droit d’auteur.

Cependant, ces solutions ne sont pas sans problèmes. D’une part, il est difficile de filtrer ou de masquer tout le contenu protégé par le droit d’auteur dans les données d’entraînement, car il n’existe pas de base de données complète et à jour des œuvres protégées par le droit d’auteur. D’autre part, éviter d’utiliser du contenu protégé par le droit d’auteur comme données d’entraînement pourrait réduire la qualité et la diversité des LLM, car ils auraient accès à moins de sources de texte.

Une autre possibilité serait de créer un cadre juridique qui permette aux entreprises d’IA d’utiliser du contenu protégé par le droit d’auteur comme données d’entraînement sans violer les droits des auteurs, à condition qu’elles ne divulguent pas ou ne reproduisent pas ce contenu dans leurs sorties. Cela pourrait nécessiter une modification des lois sur le droit d’auteur ou la création d’une exception spécifique pour l’IA. Cela pourrait également impliquer la mise en place d’un système de licence ou de rémunération pour les auteurs dont les œuvres sont utilisées comme données d’entraînement.

Quelle que soit la solution adoptée, il est clair que les entreprises d’IA doivent faire face à un dilemme entre le respect des droits d’auteur et le développement de modèles de langage innovants. Il est également clair que les auteurs doivent être conscients du risque que leurs œuvres soient utilisées sans leur consentement ou leur rétribution par des modèles d’IA. Il est donc nécessaire de trouver un équilibre entre les intérêts des uns et des autres, tout en préservant la créativité et l’éthique dans le domaine de l’IA.

Source : recherche

Et vous ?

Quelle est votre opinion sur l’utilisation du contenu protégé par le droit d’auteur comme données d’entraînement pour les modèles d’IA ?

Pensez-vous que les entreprises d’IA devraient payer les auteurs dont les œuvres sont utilisées comme données d’entraînement ?

Quels sont les risques et les avantages de créer une exception au droit d’auteur pour l’IA ?

Comment pensez-vous que les modèles d’IA pourraient respecter la créativité et l’éthique des auteurs ?

Avez-vous déjà utilisé ou interagi avec un modèle d’IA qui a généré du contenu protégé par le droit d’auteur ? Si oui, comment avez-vous réagi ?

**totozor** · 23/08/2023, 07h42

Quelle est votre opinion sur l’utilisation du contenu protégé par le droit d’auteur comme données d’entraînement pour les modèles d’IA ?
Je suis assez partagé, autant je peux comprendre qu'un auteur ne veut pas qu'on puisse contourner l'achat de son livre avec une IA.
Autant les auteurs doivent aussi admettre que leurs oeuvres sont publiques et il n'y a rien de choquant qu'une IA puisse faire un résumé de celles ci. Tout comme il n'est pas choquant qu'une IA résume la pensée d'un philosophe.
Pensez-vous que les entreprises d’IA devraient payer les auteurs dont les œuvres sont utilisées comme données d’entraînement ?
Ca les rendrait instantanément non viables, ça rendrait les IA existantes complètement protégées d'éventuel nouveau concurent.
Avez-vous déjà utilisé ou interagi avec un modèle d’IA qui a généré du contenu protégé par le droit d’auteur ? Si oui, comment avez-vous réagi ?
Probablement pas mais beaucoup de monde semble impressionné par les réponses à "écrit moi un texte à la façon de ..." donc c'est monnaie courante.

Envoyé par Stéphane le calme

ChatGPT tente désormais d’éviter de répondre aux sollicitations des utilisateurs avec des formulations exactes provenant d’œuvres protégées par le droit d’auteur, selon un article technique publié par un groupe de chercheurs en IA travaillant pour le pôle recherche de ByteDance.

C'est interressant parce que si l'article dit vrai ça veut dire que ChatGPT sait identifier les textes soumis au droit d'auteur et donc ne pourra pas se défendre en disant qu'ils ont traité une tonne de données aveuglément et qu'ils sont donc incapable d'identifier les données libres de droit des autres.

**Fagus** · 23/08/2023, 13h11

Envoyé par totozor

autant je peux comprendre qu'un auteur ne veut pas qu'on puisse contourner l'achat de son livre avec une IA.
Autant les auteurs doivent aussi admettre que leurs oeuvres sont publiques et il n'y a rien de choquant qu'une IA puisse faire un résumé de celles ci. Tout comme il n'est pas choquant qu'une IA résume la pensée d'un philosophe.

Je suis d'accord, mais je vois deux problème légaux :

que la société n'ait pas payé les documents d'entraînement . Si un particulier veut accéder à un contenu sous droit d'auteur, il n'a pas le droit de le télécharger sur un torrent. Je ne vois pas pourquoi une puissante société aurait le droit de le faire en toute impunité. Surtout que pour de nombreux contenu, une licence commerciale n'est pas la même qu'une licence d'utilisation pour un utilisateur. C'est comme si pour le prix d'un livre harry potter, j'avais le droit de faire un usage commercial du contenu...
que le modèle puisse reconstituer l'oeuvre si on lui demande (pour cela il semble qu'ils prennent des mesures techniques).

**Wanto** · 23/08/2023, 14h02

Envoyé par Fagus

Je suis d'accord, mais je vois deux problème légaux :

que la société n'ait pas payé les documents d'entraînement . Si un particulier veut accéder à un contenu sous droit d'auteur, il n'a pas le droit de le télécharger sur un torrent. Je ne vois pas pourquoi une puissante société aurait le droit de le faire en toute impunité. Surtout que pour de nombreux contenu, une licence commerciale n'est pas la même qu'une licence d'utilisation pour un utilisateur. C'est comme si pour le prix d'un livre harry potter, j'avais le droit de faire un usage commercial du contenu...
que le modèle puisse reconstituer l'oeuvre si on lui demande (pour cela il semble qu'ils prennent des mesures techniques).

Le 1er point reste assez vague, les humains achetés bien des livre et utilise après ce savoir pour tout comme un usage commercial de ce qu'ils en ont retiré.
Cela reste une question intéressante, une ia devrait-il payer plus cher pour lire un livre qu'un humain.
Mais effectivement le 2em point reste logique, c'est le même problème qu'actuellement avec les extrait, reformer plein d'extrait pour avoir l'œuvre final.

Par contre je trouve ça assez marrant que ce soient les cherche de tiktok qui parle de plagiat, au vu du nombre de vols et du nombre de films couper en plein de parties et mis sur leur plateforme.

**AaâÂäÄàAaâÂäÄàAaâÂäÄ** · 23/08/2023, 14h33

Envoyé par Wanto

Par contre je trouve ça assez marrant que ce soient les cherche de tiktok qui parle de plagiat, au vu du nombre de vols et du nombre de films couper en plein de parties et mis sur leur plateforme.

Comprend qui peut !

**onilink_** · 23/08/2023, 16h22

Envoyé par Wanto

Le 1er point reste assez vague, les humains achetés bien des livre et utilise après ce savoir pour tout comme un usage commercial de ce qu'ils en ont retiré.
Cela reste une question intéressante, une ia devrait-il payer plus cher pour lire un livre qu'un humain.
Mais effectivement le 2em point reste logique, c'est le même problème qu'actuellement avec les extrait, reformer plein d'extrait pour avoir l'œuvre final.

Par contre je trouve ça assez marrant que ce soient les cherche de tiktok qui parle de plagiat, au vu du nombre de vols et du nombre de films couper en plein de parties et mis sur leur plateforme.

Justement, un modèle d'IA ne lit pas un livre, ça ne fonctionne en rien comme un humain.
Sinon il n'y aurait pas de problème et de débat. Mais la on parle de modèles qui régurgitent des pavés entiers mémorisés par cœur.
C'est exactement le même soucis avec les IA génératives du style stable diffusion.

**Madmac** · 27/08/2023, 19h24

Envoyé par Wanto

Le 1er point reste assez vague, les humains achetés bien des livre et utilise après ce savoir pour tout comme un usage commercial de ce qu'ils en ont retiré.
Cela reste une question intéressante, une ia devrait-il payer plus cher pour lire un livre qu'un humain.
.

Mauvais point de comparaison: Refait ta réflexion avec un extrait de film (spécialement Disney) ou de chanson.

**Mathis Lucas** · 31/08/2023, 14h37

OpenAI conteste les affirmations des auteurs selon lesquelles chaque réponse de ChatGPT est une œuvre dérivée
l'entreprise affirme que ces plaintes sont irrecevables et demande leur rejet

OpenAI a demandé cette semaine à un tribunal fédéral de Californie de rejeter les plaintes pour violation du droit d'auteur qui le visent depuis peu. Plusieurs auteurs poursuivent la startup d'IA pour avoir utilisé des copies pirates de leurs livres afin d'entraîner ses modèles de langage, dont le plus célèbre est ChatGPT. Les auteurs affirment que cette utilisation non autorisée est en violation de plusieurs lois fédérales des États-Unis, dont celles sur le droit d'auteur et le DMCA (Digital Millennium Copyright Act). Mais OpenAI conteste ces allégations et a déposé des motions de rejet dans lesquelles il demande au tribunal de Californie de rejeter toutes les plaintes sauf une.

OpenAI affirme que les plaintes pour violation du droit d'auteur sont irrecevables

OpenAI, qui bénéficie du soutien de Microsoft, s'est attaqué lundi à ce qu'il a appelé des "revendications accessoires" dans les poursuites, déclarant au tribunal fédéral de Californie que le texte généré par ChatGPT ne violait pas les droits des auteurs sur les livres. En effet, le laboratoire d'IA de San Francisco fait face à un nombre très important de plaintes intentées par des milliers d'auteurs pour violation du droit d'auteur et pour d'autres formes de violations. Les personnalités les plus connues parmi les plaignants sont la comédienne Sarah Silverman, l'écrivain et éditeur Paul Tremblay, la romancière Mona Awad et l'écrivain de science-fiction Richard Kadrey.

L'entreprise a déposé lundi des requêtes en irrecevabilité dans le cadre de plusieurs actions en justice de ce type. Dans les documents déposés auprès du tribunal, OpenAI a demandé le rejet de cinq des six chefs d'accusation déposés dans le cadre des poursuites. OpenAI a défendu la nature transformative de sa technologie, soulignant la nécessité de trouver un équilibre entre la protection des droits d'auteur et le progrès technologique. L'entreprise a également déclaré qu'elle prévoyait de contester le dernier chef d'accusation de violation directe du droit d'auteur devant le tribunal en tant que question de droit. Elle n'a toutefois pas donné un calendrier.

« Les autres plaintes des auteurs - qui portent sur la violation du droit d'auteur par personne interposée, la violation du Digital Millennium Copyright Act (DMCA), la concurrence déloyale, la négligence et l'enrichissement sans cause - doivent être supprimées des poursuites afin que ces affaires n'aillent pas jusqu'au stade de la découverte et au-delà avec des théories de responsabilité juridiquement infirmes », a fait valoir OpenAI. Il a souligné la valeur et le potentiel de l'IA - en particulier de son grand modèle de langage (LLM) ChatGPT - dans l'amélioration de la productivité, l'aide au codage informatique et la simplification des tâches quotidiennes.

Les arguments avancés par OpenAI devant le tribunal ont été vivement critiqués par la communauté. Les critiques ont accusé la startup d'IA de chercher à redéfinir le droit d'auteur afin de profiter illégalement des œuvres des auteurs. « Vous pouvez commencer à voir l'histoire qu'ils vont raconter ici, à savoir que le droit d'auteur a des limites. Il ne s'étend pas aux faits et aux idées. Même si une œuvre est protégée par le droit d'auteur et qu'un LLM la traite ou en produise un résumé, il ne s'agit pas d'une œuvre dérivée à proprement parler », a déclaré Gregory Leighton, spécialiste du droit de la vie privée au cabinet d'avocats Polsinelli.

L'entreprise a comparé l'impact de ChatGPT à une révolution intellectuelle importante, établissant un parallèle avec l'invention de la presse à imprimer. OpenAI estime que les auteurs se font une fausse idée de la portée du droit d'auteur, en ne tenant pas compte des limitations et des exceptions (y compris l'utilisation équitable) qui laissent de la place aux innovations telles que les LLM. Selon OpenAI, même si les livres ne représentaient qu'une "infime partie" de l'ensemble de données massives de ChatGPT, "l'utilisation de matériel protégé par le droit d'auteur par des innovateurs de manière transformatrice ne viole pas le droit d'auteur".

Contrairement aux plagiaires qui cherchent à tirer directement profit de la distribution de matériel protégé par le droit d'auteur, OpenAI a fait valoir que son objectif était d'apprendre à ses modèles à dériver les règles qui sous-tendent le langage humain pour faire des choses comme : aider les gens à gagner du temps au travail, faciliter la vie quotidienne ou simplement se divertir en tapant des invites dans ChatGPT. Dans sa demande au tribunal, OpenAI va plus loin en expliquant que l'objectif de la loi sur le droit d'auteur est de promouvoir le progrès de la science et des arts utiles en protégeant la manière dont les auteurs expriment leurs idées.

OpenAI affirme que les plaignants s'appuient sur des preuves contradictoires

Selon OpenAI, la loi sur le droit d'auteur ne vise pas à protéger l'idée sous-jacente d'une œuvre, les faits incorporés dans le message articulé de l'auteur ou d'autres éléments constitutifs de la création, qui sont sans doute les éléments des œuvres des auteurs qui seraient utiles au modèle d'apprentissage de ChatGPT. Citant un cas notable de droit d'auteur impliquant Google Books, OpenAI a déclaré : « si un auteur peut enregistrer un droit d'auteur sur son livre, les données statistiques relatives à la fréquence des mots, aux schémas syntaxiques et aux marqueurs thématiques de ce livre sont hors de portée de la protection du droit d'auteur ».

« En vertu de la jurisprudence qui en découle, ne constitue pas une contrefaçon le fait de créer des copies en gros [d'une œuvre] en tant qu'étape préliminaire pour développer un nouveau produit non contrefait, même si le nouveau produit est en concurrence avec l'original », a ajouté l'OpenAI. En fin de compte, OpenAI espère convaincre le tribunal que l'allégation de violation du droit d'auteur par le fait d'autrui formulée par les auteurs - qui prétendent que chaque réponse de ChatGPT représente une œuvre dérivée, "qu'il y ait ou non des similitudes entre le produit et les œuvres de formation" - est une "conclusion juridique erronée".

OpenAI soutient que les plaignants n'ont pas suffisamment de preuves pour affirmer que les LLM produisent des œuvres dérivées et que si ces normes sont appliquées à plus grande échelle, les photographes pourraient poursuivre les peintres qui font référence à leur matériel. « Les preuves apportées par les plaignants concernant les informations de gestion des droits d'auteur étaient contradictoires et ne montraient pas comment elles avaient été volontairement supprimées », a déclaré l'entreprise. Selon OpenAI, il n'y a pas non plus de preuve qui appuie l'affirmation selon laquelle il aurait conservé des bénéfices ou des avantages tirés du matériel enfreint.

Selon les auteurs, toute sortie de ChatGPT qui copie leurs œuvres, mais exclut les informations de gestion des droits d'auteur (CMI) telles que les noms des auteurs ou les années de publication viole le DMCA. Les auteurs ont accusé OpenAI d'avoir intentionnellement supprimé les CMI pour "profiter injustement du développement d'un produit commercial basé sur des reproductions non attribuées de ces écrits et idées volés et s'en attribuer le mérite". Mais selon OpenAI, les plaintes des auteurs sont "cousues de fil blanc" et totalement dépourvues d'explications sur la manière dont OpenAI pourrait supprimer les informations de gestion des droits d'auteur.

OpenAI a affirmé qu'il n'y a aucune preuve que la société a intentionnellement supprimé les CMI, mais également que les plaintes des auteurs allèguent un certain nombre de faits qui contrediraient cette théorie - y compris des allégations selon lesquelles les livres des plaignants ont été copiés par OpenAI dans leur intégralité. La société a ajouté que si les CMI ont été supprimés des données de formation, il s'agissait probablement d'un effet secondaire involontaire d'un processus technologique - comme lorsqu'un moteur de recherche n'est pas responsable d'avoir récupéré des images sur Internet sans avoir également récupéré les CMI associés.

OpenAI affirme que ce type de retrait accidentel des CMI exclut la responsabilité et ne soutient pas les allégations selon lesquelles l'entreprise a agi pour déguiser des actes répréhensibles ou dissimuler des infractions. Enfin, OpenAI estime que les réclamations de négligence et d'enrichissement sans cause fondées sur la législation de l'État sont préemptées par la loi fédérale sur le droit d'auteur. Par conséquent, elles devraient être annulées.

OpenAI est accusé de vouloir réduire les protections de la loi sur droit d'auteur

Selon les critiques, si OpenAI obtient satisfaction, ce sera la mort du droit d'auteur en tant que concept. Ils estiment qu'OpenAI joue à un jeu dangereux qui pourrait nuire à ses propres partenaires. « C'est vrai sur le fond, mais il s'agit d'un tour de passe-passe intéressant. On ne devrait pas parler d'usage loyal dans une motion de rejet, parce que l'usage loyal est une défense affirmative. C'est en fait quelque chose que le défendeur doit plaider et prouver de manière affirmative. Il s'agissait probablement toujours de revendications accessoires et complémentaires, alors que le plat de résistance est la violation du droit d'auteur », a déclaré Leighton.

Les requêtes en irrecevabilité d'OpenAI sont fondées sur la nature transformative de ChatGPT, les principes d'utilisation équitable et les lacunes juridiques perçues dans les demandes annexes des plaignants. Les motions ont donné un aperçu de la défense globale des opérations en cours d'OpenAI alors que le laboratoire d'IA navigue à l'intersection complexe de la loi sur le droit d'auteur et de la réalisation de progrès dans le domaine de l'IA. Si OpenAI réussit à faire rejeter la majorité des actions en justice intentées par les auteurs, il ne restera plus à la Cour qu'à décider si le modèle de formation d'OpenAI viole directement la loi sur le droit d'auteur.

Selon les experts, cela pourrait signifier que les données d'entraînement de ChatGPT violent la loi soit en reproduisant et en distribuant les œuvres originales, soit en préparant des œuvres dérivées sans autorisation ou sans modifications suffisantes. « Il est toutefois peu probable que les auteurs abandonnent ce combat aussi facilement. Pour eux, l'IA générative est une énorme escroquerie qui ne contribue pas à faire progresser l'intelligence humaine, mais représente plutôt une copie de l'intelligence humaine qui a été reconditionnée et séparée de ses créateurs », a écrit le cabinet d'avocats Joseph Saveri sur un site Web résumant leurs plaintes.

Bien que Leighton estime que cette requête en irrecevabilité n'aura peut-être pas d'effets immédiats considérables, les enjeux de l'affaire dans son ensemble restent importants. En déterminant dans quelle mesure de grands modèles de langage peuvent être formés sur des œuvres protégées par le droit d'auteur sans enfreindre le droit d'auteur, l'issue des procès pourrait avoir des implications majeures pour les cas d'utilisation de l'IA, en particulier s'il est établi que l'ingestion d'œuvres protégées par le droit d'auteur enfreint toujours le droit d'auteur. « Nous avons un premier aperçu de ce qui va se passer », a déclaré Leighton.

« Ils présentent ces éléments au juge, non pas parce que cela a vraiment quelque chose à voir avec la motion de rejet elle-même et ce qu'ils essaient d'accomplir sur le plan procédural, mais c'est l'introduction thématique à la partie [d'OpenAI] de l'affaire ici », a-t-il ajouté. Au fur et à mesure que les procès se déroulent, ce conflit juridique définira probablement l'avenir de la législation sur le droit d'auteur et du progrès technologique.

Sources : OpenAI (1, 2), plaintes visant les LLM

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des arguments présentés par OpenAI pour demander le rejet des plaintes pour violation du droit d'auteur ?

Selon vous, les arguments de l'entreprise sont-ils recevables ? Pourquoi ?

Que pensez-vous des allégations selon lesquelles OpenAI cherche à réduire la portée des protections offertes par la loi sur le droit d'auteur ?

Voir aussi

OpenAI tente désormais de cacher que ChatGPT a été formé sur des livres protégés par le droit d'auteur comme la série Harry Poter de J.K Rowling, selon une étude

Des auteurs de livres poursuivent OpenAI en justice, affirmant que la société a abusé de leurs travaux pour former ChatGPT. Selon eux, les livres sont un « ingrédient clé » du chabot IA

OpenAI et Meta accusés d'avoir utilisé les œuvres de Sarah Silverman et de deux auteurs sans leur consentement comme données d'entraînements de leurs IA. Les plaintes de ce type se multiplient

GitHub, Microsoft, OpenAI ne parviennent pas à se sortir du procès Copilot, le juge a refusé de rejeter deux plaintes dans l'affaire et a renvoyé la plupart des autres allégations

**totozor** · 01/09/2023, 08h06

Envoyé par Mathis Lucas

« Les autres plaintes des auteurs [...], la violation du Digital Millennium Copyright Act (DMCA), la concurrence déloyale, la négligence et l'enrichissement sans cause - doivent être supprimées des poursuites afin que ces affaires n'aillent pas jusqu'au stade de la découverte et au-delà avec des théories de responsabilité juridiquement infirmes », a fait valoir OpenAI.

J'ai l'impression de ne pas tout comprendre mais pourquoi doit on supprimer une poursuite sous prtéexte de risque d'aller jusqu'à "la découverte de responsabilité"?
N'est ce pas justement le rôle d'un tribunal de découvrir cette théorie de responsabilité et dévaluer si elle est "juridiquement infirme"

Il a souligné la valeur et le potentiel de l'IA - en particulier de son grand modèle de langage (LLM) ChatGPT - dans l'amélioration de la productivité, l'aide au codage informatique et la simplification des tâches quotidiennes.

Oui mais certaines expériences plus que douteuses réalisée dans des systèmes totallitaires ont grandement fait avancé la science, elles sont malgré tout plus que condamnables.
Pardon pour la comparaison douteuse mais leur défense est horrible.

OpenAI va plus loin en expliquant que l'objectif de la loi sur le droit d'auteur est de promouvoir le progrès de la science et des arts utiles en protégeant la manière dont les auteurs expriment leurs idées.

Est ce seulement vrai?
Je penses que pour commencer le droit d'auteur ne promeut rien, il (essaye de) protège.
Le droit d'auteur ne promeut/proège pas le progrès de la science, ne confondent ils pas brevets et droit d'auteur?
Qu'est ce que l'art utile? Une partie de la valeur ajoutée de l'art n'est il pas qu'il n'est pas forcément intrinsèquement utile

Je trouve assez choquant que OpenAI essaye de redéfinir le droit d'auteur et son objectif.
Je penses que la course au développement à tout prix est une tendance qu'il ne fait pas de mal de freiner. Et au passage rappeler aux Start-up qui émergent qu'elles ne sont pas au delà du système dans lequel elles évoluent et qu'elles exploitent (pas forcément dans un sens péjoratif)

**totozor** · 24/08/2023, 08h14

Envoyé par Fagus

Je suis d'accord, mais je vois deux problème légaux :

que la société n'ait pas payé les documents d'entraînement . Si un particulier veut accéder à un contenu sous droit d'auteur, il n'a pas le droit de le télécharger sur un torrent. Je ne vois pas pourquoi une puissante société aurait le droit de le faire en toute impunité. Surtout que pour de nombreux contenu, une licence commerciale n'est pas la même qu'une licence d'utilisation pour un utilisateur. C'est comme si pour le prix d'un livre harry potter, j'avais le droit de faire un usage commercial du contenu...

Oui c'est un peu ce que je voulais souligné mais il existe pourtant des contrexemples apparents (je n'ai pas le détail de ce qui se passe en fond), les annales de BAC français sont vendues avec des résumés et des analyses approfondies de certaines oeuvres littéraires.
Ce que je veux dire est qu'il ne me parait pas choquant que je puisse avoir un débat avec ChatGPT (même si le concept de débat avec une machine me choque) sur tel bouquin de Harry Potter par contre il ne devrait pas pouvoir me restituer son contenu (même si ce n'est pas fait de façon exacte).

On se retrouve à un moment où on (utilisateurs de chatGPT) veut une interface culturellement moderne mais qui ne se nourrirait pas des oeuvres culturelle moderne, ca qui est un paradoxe amusant à constater.
Mais ce n'est pas le seul paradoxe de notre rapport à cette IA, donc soit.

**onilink_** · 23/08/2023, 13h55

Je ne vois pas pourquoi il faudrait créer une exception.

Si j’apprends par cœur un livre Harry Potter et que je le re écris sur internet, j’enfreins le droit d'auteur.
Pourquoi cela devrait être différent venant d'une IA?

Si empêcher l'utilisation de texte soumis au droit d'auteur diminuerait la qualité des modèles ça montre d'autant plus l'importance:
- de continuer de protéger ces textes, je ne vois pas pourquoi on ferait des exceptions pour ces modèles que seules des multinationales peuvent se payer et entraîner et qui en plus ne sont pas ouverts. Cela montre d'autant plus la valeur de ces textes puisqu'ils ne peuvent pas s'en passer
- qu'il faudrait changer de paradigme et arrêter de faire des modèles qui ingurgitent et apprennent par cœur les données d’entraînement

C'est un aveux que ces modèles sont des machines à pomper les données malgré ce qu'ils essayent de nous vendre.
Avec les fameuses analogies de la façon dont l'humain apprends... alors que cela n'a rien, mais alors rien à voir.

Forcer les modèles d'arrêter à régurgiter les données d’entraînement serait sûrement le moyen légal le plus efficace pour régler pas mal de problèmes éthiques causés par l'IA, comme:
- le plagia des modèles génératifs, que ce soit du style ou carrément des images de certaines artistes, ou comme ici de livres ou autres textes protégés
- l'apprentissage par cœur de données privées, car contrairement a ce que l'on nous vend les données d’entraînement ne sont pas obtenues que par des sources publiques. Cela crée des problèmes de sécurité assez gros comme on peut l'imaginer
- le fait qu'on ne sait pas si une sortie peut être utilisée légalement (ex: la licence d'un code source généré qui aurait pompé des bouts soumis à la GNU GPL )

Science4All a fait pas mal de vidéos très intéressantes sur le sujet, qui est évidemment bien plus complexe que ce qu'il laisse paraitre au premier abord.

Bonus: https://thenib.com/im-a-luddite/

**onilink_** · 01/09/2023, 13h24

Il n'y a rien d'étonnant, rien ne va de toute façon avec OpenAI, à commencer par leur nom.

Ils parlent de progrès et de développement scientifique mais ChatGPT n'est qu'une interface pimpée sur une techno qui existe déjà depuis au moins 3 ans. Il n'y a aucun apport scientifique de leur coté. Il n'ont même pas inventé les transformers sur quoi sont basé les LLM qu'ils utilisent (je crois que c'est Google qui en est à l'origine).

Leur "seul" apport c'est de dépenser des sommes considérables pour entraîner des modèles gigantesques relativement "cons" mais ont des performances qui dépendent de leur taille.

Tout le reste n'est que stratégie marketing et médiatique.
Habituer les utilisateurs à un service gratuit d'une techno qui parait révolutionnaire et qui est plutôt coûteuse de leur coté (ceux qui ont utilisé GPT3 avant que ChatGPT ne sorte savent qu'il y a un prix fixé au token) puis diminuer la qualité du service gratuit pour forcer à prendre un abonnement et essayer de rendre ça lucratif de leur coté.

**TJ1985** · 18/08/2023, 08h11

Envoyé par Patrick Ruiz

Le New York Times envisage d’initier une action en justice contre OpenAI pour l’obliger à effacer les données d’entraînement de ChatGPT
Le média dit non à l’usage de son contenu sans son accord

Le monde était simple, au début : Tout ce qui est accessible publiquement sur internet est... accessible. Charge à celui qui publie de faire attention.
Puis, certains ont réalisé que d'autres pouvaient exploiter différemment ces publications. Et ça les ennuie de laisser échapper une part de gâteau.
Résultat net : Nous étions en train de construire des systèmes capables de dépasser l'intelligence humaine en matière de déduction, car basés sur une somme de données inaccessible à nos cerveaux organiques, ben nous ne le serons plus.
Dommage, une fois de plus.

**Jade Emy** · 21/09/2023, 08h58

George R.R, romancier de "Game of Thrones", John Grisham et d'autres grands auteurs américains poursuivent OpenAI pour des questions de droits d'auteur.

Une association professionnelle d'auteurs américains a intenté un procès à OpenAI devant le tribunal fédéral de Manhattan au nom d'écrivains de renom tels que John Grisham, Jonathan Franzen, George Saunders, Jodi Picoult et le romancier de "Game of Thrones" George R.R. Martin, accusant la société d'avoir illégalement entraîné son populaire chatbot ChatGPT basé sur l'intelligence artificielle à partir de leurs œuvres.

La proposition de recours collectif déposée mardi en fin de journée par l'Authors Guild s'ajoute à plusieurs autres actions intentées par des écrivains, des propriétaires de code source et des artistes visuels contre des fournisseurs d'IA générative. Outre OpenAI, soutenu par Microsoft, des actions similaires sont en cours contre Meta Platforms et Stability AI au sujet des données utilisées pour entraîner leurs systèmes d'IA. Parmi les autres auteurs concernés par ce dernier procès figurent Michael Connelly, auteur de "The Lincoln Lawyer", et David Baldacci et Scott Turow, auteurs de romans juridiques.

OpenAI et d'autres défendeurs de l'IA ont déclaré que leur utilisation de données d'entraînement tirées de l'internet constituait un usage loyal en vertu de la loi américaine sur le droit d'auteur. Un porte-parole d'OpenAI a déclaré mercredi que la société respectait les droits des auteurs et qu'elle avait "des conversations productives avec de nombreux créateurs dans le monde entier, y compris l'Authors Guild".

Nom : 1.PNG
Affichages : 1701
Taille : 21,0 Ko

Mary Rasenberger, PDG de l'Authors Guild, a déclaré dans un communiqué que les auteurs "doivent avoir la possibilité de contrôler si et comment leurs œuvres sont utilisées par l'IA générative" afin de "préserver notre littérature". Dans son action en justice, l'Authors Guild affirme que les ensembles de données utilisés pour entraîner le grand modèle linguistique d'OpenAI à répondre à des invites humaines comprenaient des textes tirés des livres des auteurs, qui auraient pu provenir de dépôts illégaux de livres "pirates" en ligne.

La plainte indique que ChatGPT a généré des résumés précis des livres des auteurs lorsqu'on lui a demandé, ce qui indique que leur texte est inclus dans sa base de données. La plainte fait également état de préoccupations croissantes quant à la possibilité que les auteurs soient remplacés par des systèmes tels que ChatGPT, qui "génèrent des livres électroniques de mauvaise qualité, se font passer pour des auteurs et supplantent les livres écrits par des êtres humains".

Source : Plainte d'Authors Guild

Et vous ?

Pensez-vous que cette plainte soit légitime ou crédible ?

Quel est votre avis sur le sujet ?

Voir aussi :

Des milliers d'auteurs s'opposent à l'exploitation de leur travail sans permission ni rémunération par l'IA générative, certains ont déjà intenté des actions en justice contre OpenAI

Les auteurs veulent être reconnus et indemnisés par les entreprises d'IA qui utilisent leurs œuvres sans leur consentement, affirment des milliers de créateurs

Le syndicat SAG-AFTRA vote à l'unanimité pour étendre sa grève à l'industrie des jeux vidéo, "l'IA met nos membres en danger en réduisant leur possibilité de travailler", déclare sa présidente

**Bruno** · 06/10/2023, 19h55

OpenAI justifie pourquoi les données collectées pour la formation des modèles d’IA constituent selon elle un usage loyal
et non une infraction

OpenAI a soumis une réponse à l’Office américain des brevets et des marques (USPTO) en réponse à leur demande de commentaires sur la protection de la propriété intellectuelle pour l’innovation en intelligence artificielle. La soumission explique pourquoi les données collectées pour l’entraînement de ses outils d’IA constituent un usage loyal et non une infraction.

Dans sa production, OpenAI répond principalement à la question suivante : « Comment le langage statutaire existant et la jurisprudence connexe traitent-ils de manière adéquate la légalité de l’utilisation d’un algorithme ou d’un processus d’IA qui apprend sa ou ses fonctions en ingérant de grands volumes de données protégées par le droit d’auteur ? ».

Nom : openAi1.jpg
Affichages : 4748
Taille : 8,7 Ko

En vertu de la loi actuelle, l'entraînement des systèmes d'IA constitue un usage loyal. II. Les considérations politiques qui sous-tendent la doctrine de l'usage loyal soutiennent la conclusion selon laquelle l'entraînement des systèmes d'IA constitue un usage loyal. L'incertitude juridique sur les implications en matière de droit d'auteur de l'entraînement des systèmes d'IA impose des coûts substantiels aux développeurs d'IA et devrait donc être résolue de manière autoritaire.

OpenAI, LP est une société de recherche en intelligence artificielle (IA) basée à San Francisco dont la mission est de veiller à ce que l'intelligence artificielle générale ("AGI") profite à l'ensemble de l'humanité, et qui tente de construire une AGI sûre et bénéfique.

Nous ne prétendons pas que les systèmes d'IA sont invariablement bénéfiques ou qu'ils ne portent pas atteinte au droit d'auteur. Nous abordons plutôt la question étroite de savoir si l'entraînement des systèmes d'IA sur des données protégées par le droit d'auteur constitue une violation du droit d'auteur. En conséquence, nous pensons que les systèmes d'IA suscitent des inquiétudes valables, mais qu'il est préférable d'utiliser d'autres outils juridiques et politiques pour y répondre.

Le travail d'OpenAI s'articule principalement autour de trois domaines : la recherche et le développement de capacités techniques, la recherche et le développement de la sécurité de l'IA et le travail politique. Dans sa réponse, Open s’appuie sur son expérience de l'utilisation de vastes ensembles de données accessibles au public, y compris des œuvres protégées par le droit d'auteur.

Des milliers d’auteurs demandent aux entreprises d’IA de respecter leurs droits d’auteur et de les payer pour l’utilisation de leurs œuvres dans l’entraînement des modèles de langage. Ils dénoncent l’injustice et le piratage dont ils sont victimes, alors que leurs revenus sont en baisse. Les entreprises d’IA se défendent en affirmant qu’elles utilisent des contenus sous licence ou publics. La collecte de textes sur le web est une source de conflit entre les créateurs, les plateformes et les acteurs de l’IA.

Plus de 8 000 auteurs, dont des sommités telles que James Patterson, Margaret Atwood et Jonathan Franzen, ont signé une lettre ouverte demandant aux dirigeants des six principales entreprises spécialisées dans l'IA de ne pas utiliser leurs œuvres pour des modèles d'entraînement sans avoir obtenu au préalable leur consentement et offert une compensation.

La lettre, publiée par l'organisation d'écrivains professionnels The Authors Guild, est adressée aux patrons d'OpenAI, d'Alphabet, de Meta, de Stability AI, d'IBM et de Microsoft. Elle interpelle les PDG sur « l'injustice inhérente » à l'utilisation des œuvres des auteurs pour entraîner leurs grands modèles de langage sans consentement, crédit ou compensation. « Ces technologies imitent et régurgitent notre langage, nos histoires, notre style et nos idées. Des millions de livres, d'articles, d'essais et de poèmes protégés par le droit d'auteur constituent la "nourriture" des systèmes d'IA, des repas sans fin pour lesquels il n'y a pas de facture », peut-on lire dans la lettre.

« Vous dépensez des milliards de dollars pour développer la technologie de l'IA. Il n'est que juste que vous nous indemnisiez pour l'utilisation de nos écrits, sans lesquels l'IA serait banale et extrêmement limitée. »

En octobre de l’année dernière, le développeur Tim Davis, professeur d'informatique et d'ingénierie à l'université A&M du Texas, a affirmé sur Twitter que GitHub Copilot, un assistant de programmation basé sur l'IA, « émet de gros morceaux de mon code protégé par le droit d'auteur, sans attribution, sans licence LGPC ».

Pas du tout, selon Alex Graveley, ingénieur principal chez GitHub et inventeur de Copilot, qui a répondu que « le code en question est différent de l'exemple donné. Semblable, mais différent ». Cela dit, a-t-il ajouté, « c'est vraiment un problème difficile. Les solutions évolutives sont les bienvenues. »

Pour OpenAI, les plaintes pour violation du droit d'auteur sont irrecevables

OpenAI a demandé en aout à un tribunal fédéral de Californie de rejeter les plaintes pour violation du droit d'auteur qui le visent depuis peu. Plusieurs auteurs poursuivent également la OpenAI pour avoir utilisé des copies pirates de leurs livres afin d'entraîner ses modèles de langage, dont le plus célèbre est ChatGPT. Les auteurs affirment que cette utilisation non autorisée est en violation de plusieurs lois fédérales des États-Unis, dont celles sur le droit d'auteur et le DMCA (Digital Millennium Copyright Act). Mais OpenAI conteste ces allégations et a déposé des motions de rejet dans lesquelles il demande au tribunal de Californie de rejeter toutes les plaintes sauf une.

OpenAI, qui bénéficie du soutien de Microsoft, s'est attaqué à ce qu'il a appelé des « revendications accessoires » dans les poursuites, déclarant au tribunal fédéral de Californie que le texte généré par ChatGPT ne violait pas les droits des auteurs sur les livres. En effet, le laboratoire d'IA de San Francisco fait face à un nombre très important de plaintes intentées par des milliers d'auteurs pour violation du droit d'auteur et pour d'autres formes de violations. Les personnalités les plus connues parmi les plaignants sont la comédienne Sarah Silverman, l'écrivain et éditeur Paul Tremblay, la romancière Mona Awad et l'écrivain de science-fiction Richard Kadrey.

« Les autres plaintes des auteurs - qui portent sur la violation du droit d'auteur par personne interposée, la violation du Digital Millennium Copyright Act (DMCA), la concurrence déloyale, la négligence et l'enrichissement sans cause - doivent être supprimées des poursuites afin que ces affaires n'aillent pas jusqu'au stade de la découverte et au-delà avec des théories de responsabilité juridiquement infirmes », a fait valoir OpenAI. Il a souligné la valeur et le potentiel de l'IA - en particulier de son grand modèle de langage (LLM) ChatGPT - dans l'amélioration de la productivité, l'aide au codage informatique et la simplification des tâches quotidiennes.

En vertu de la loi actuelle, l'entraînement des systèmes d'intelligence artificielle constitue un usage loyal

OpenAI affirme que l’utilisation loyale des données collectées pour l’entraînement de ses outils d’IA exige une application correcte des facteurs d’usage loyal, en particulier compte tenu de la nature hautement transformatrice des systèmes d’apprentissage de l’IA. Selon l’entreprise, cette conclusion est renforcée par la jurisprudence existante qui considère que la reproduction d’œuvres protégées par le droit d’auteur en tant qu’étape du processus d’analyse informatique des données constitue une utilisation loyale de ces œuvres.

Les systèmes d'IA peuvent s'entraîner sur de nombreux supports différents. L'application de ce critère variera donc au cas par cas. Selon OpenAI, il ne devrait pas jouer « un rôle important » dans la détermination de l'usage loyal. « La quantité et le caractère substantiel de la partie utilisée par rapport à l'ensemble de l'œuvre protégée par le droit d'auteur ». Ce facteur demande si « la quantité et la valeur des matériaux utilisés » sont raisonnables par rapport au but de la copie.

Les considérations politiques soutiennent la détermination de l'usage loyal

Selon OpenAI, les systèmes d'IA présentent d'énormes avantages potentiels pour la société. Il s’attend à ce que des modèles de langage contribuent à terme à l'exécution d'un grand nombre de tâches utiles telles que :

l'analyse de la littérature publiée ;
la production de rapports médicaux
l'autocomplétion de codes logiciels ;
l'assistance générale à la rédaction et l'autocomplétion ;
la traduction de langues ;
la génération d'œuvres d'art ;
l'amélioration des jeux vidéo ;
les assistants numériques ;
réponses à des questions médicales.

La doctrine de l'usage loyal « 'permet aux tribunaux d'éviter une application rigide de la loi sur le droit d'auteur lorsque, à l'occasion, elle étoufferait la créativité même que cette loi est censée encourager' ». Les systèmes d'IA sont extrêmement prometteurs pour l'expression créative et l'innovation économique générale.

Les obstacles au droit d'auteur pour la formation des systèmes d'IA auraient des « ramifications désastreuses » et « pourraient mettre en péril la valeur sociale de la technologie, ou pousser l'innovation vers une juridiction étrangère où les contraintes en matière de droit d'auteur sont moins strictes ». Nous soutenons donc que de telles barrières « étoufferaient la créativité même que la loi [sur le droit d'auteur] est conçue pour encourager » et retarderaient « le progrès de la science et des arts utiles ».

L'incertitude quant aux implications en matière de droit d'auteur impose des coûts aux développeurs d'IA

Pour les raisons susmentionnées, OpenAI estime que que les tribunaux jugeraient et devraient juger que l'entraînement des systèmes d'IA sur des œuvres protégées par le droit d'auteur constitue un usage loyal. Toutefois, étant donné l'absence de jurisprudence en la matière, OpenAI se dit confronté avec d'autres développeurs d'IA à une incertitude juridique et à des coûts de mise en conformité considérables.

« Résoudre cette question en considérant l'entraînement des systèmes d'IA comme un usage loyal éliminerait l'incertitude dans ce domaine et supprimerait des obstacles substantiels au développement de systèmes d'IA innovants », déclare OpenAI.

Source : OpenAI

Et vous ?

Les systèmes d’apprentissage automatique d’OpenAI sont-ils vraiment « hautement transformatifs » ? Qu’est-ce qui selon vous pourrait justifier cette affirmation ?

à votre avis, les données collectées pour la formation des outils d’IA d’OpenAI sont-elles vraiment utilisées de manière loyale ?

La jurisprudence existante sur la reproduction d’œuvres protégées par le droit d’auteur en tant qu’étape du processus d’analyse informatique des données est-elle vraiment applicable aux systèmes d’apprentissage automatique ?

Quels sont les risques pour les artistes et les créateurs de contenu si les systèmes d’apprentissage automatique sont autorisés à utiliser des données protégées par le droit d’auteur sans autorisation ?

Voir aussi :

GitHub Copilot, l'assistant de programmation basé sur l'IA, sous le feu des critiques, un développeur affirme qu'il émet de nombreux bouts de son code protégé par le droit d'auteur

GitHub, Microsoft, OpenAI ne parviennent pas à se sortir du procès Copilot, le juge a refusé de rejeter deux plaintes dans l'affaire et a renvoyé la plupart des autres allégations

OpenAI conteste les affirmations des auteurs selon lesquelles chaque réponse de ChatGPT est une œuvre dérivée, l'entreprise affirme que ces plaintes sont irrecevables et demande leur rejet

**archqt** · 06/10/2023, 22h20

Pas évident, moi je lis des livres, imaginons des milliers. Ensuite j'écris un livre qui tient compte de mes lectures. Quelle différence avec l'entraînement de l'IA au final ?
Ensuite je comprends parfaitement les remarques de ceux dont les œuvres sont "pompées"

**onilink_** · 07/10/2023, 20h08

Envoyé par archqt

Pas évident, moi je lis des livres, imaginons des milliers. Ensuite j'écris un livre qui tient compte de mes lectures. Quelle différence avec l'entraînement de l'IA au final ?
Ensuite je comprends parfaitement les remarques de ceux dont les œuvres sont "pompées"

Absolument tout... ?

Comparer un LLM, un algorithme qui à la fâcheuse tendance à mémoriser ses entrées, mais qui ne connaît rien d'autre du monde que ces données la, avec un humain qui compresse et mémorise mal mais aussi de façon ultra subjective ses lectures tout en les mélangeant à son vécu... sérieusement?

Cela me semble très dangereux d'essayer de faire le lien entre les deux.

De plus il ne te faut pas une fraction de seconde pour pondre un livre. Et si tu fais du plagiat tu te prendras un procès.

OpenAI demandent à ce que leurs magouilles deviennent juridiquement légales. Cela n'apportera rien de bon pour personne, sauf pour eux.

**_toma_** · 08/10/2023, 18h28

La question du comité : "Comment justifiez-vous de la légalité de votre collecte de données ?"
La réponse d'openAI : "Nous vous assurons que cette collecte de données est loyale."

Et la suite de leur réponse :

L'incertitude juridique sur les implications en matière de droit d'auteur de l'entraînement des systèmes d'IA impose des coûts substantiels aux développeurs d'IA et devrait donc être résolue de manière autoritaire.

Non mais vous êtes sérieux les gars ? Vous voulez bien faire de la thune mais vous voulez pas en dépenser donc il faudrait prendre une décision autoritaire (qui fasse abstraction de la loi ?) qui aille dans votre sens. C'est vraiment ça la réponse ? Ça me semble tellement hallucinant que je me demande si je comprends bien la phrase.

**kain_tn** · 10/10/2023, 22h27

Envoyé par _toma_

La question du comité : "Comment justifiez-vous de la légalité de votre collecte de données ?"
La réponse d'openAI : "Nous vous assurons que cette collecte de données est loyale."

Et la suite de leur réponse :

Non mais vous êtes sérieux les gars ? Vous voulez bien faire de la thune mais vous voulez pas en dépenser donc il faudrait prendre une décision autoritaire (qui fasse abstraction de la loi ?) qui aille dans votre sens. C'est vraiment ça la réponse ? Ça me semble tellement hallucinant que je me demande si je comprends bien la phrase.

On ne devient pas milliardaire en dépensant de l'argent mais en demandant à ses petits copains de faire passer des lois, donner des contrats, etc. Sam Altman n'échappe pas à la règle.

Les journalistes « profondément troublés » par les accords de contenu conclus par OpenAI avec les médias

Vue hybride

Discussions similaires

Partager

Partager