OpenAI aurait transcrit plus d'un million d'heures de vidéos YouTube pour entraîner son modèle d'IA GPT-4

**Axel Mattauch** · 13/10/2023, 12h37

En vertu de la loi actuelle, l'entraînement des systèmes d'intelligence artificielle constitue un usage loyal

La loi actuelle prévoit la protection des droits d'auteur. La phrase est donc une pure esbroufe de lobbying: je te pollue le référentiel et je te conditionne pour tes décisions.

Il est bien possible que

les systèmes d'IA présentent d'énormes avantages potentiels pour la société

mais cet argument pourrait à la rigueur être écouté si ces systèmes étaient d’accès publics, gratuits, pour toute individu ou toute entreprise. L'argument serait: oui, je prélève gratuitement dans le fonds de la société, disons le mot, j'exproprie de force les individus, en contrepartie la collectivité en bénéficie.

Mais, non, nous sommes en pays capitaliste: je suis le plus fort (mon fric, mon lobbying, mes appuis politiques, la mafia a laquelle j'appartiens...) donc je m’approprie ce que je veux, il suffit de dire que c'est légal. Les bénéfices sont pour moi.

**Bruno** · 25/10/2023, 08h24

La presse écrite veut être payée pour les articles utilisés pour alimenter l’outil d’IA ChatGPT
elle exige une part du marché qui devrait atteindre 1300 million de dollars d'ici à 2032

Les journaux demandent une rémunération pour leurs données, qui sont précieuses à l’ère de l’IA. Certains ont installé un bloqueur pour empêcher que leur contenu soit collecté et utilisé par ChatGPT, l’outil d’IA construit par OpenAI. D’autres sont en pourparlers avec OpenAI pour que le chatbot affiche des liens vers leurs articles dans ses réponses. D’autres sources de données, comme Reddit et Twitter, cherchent également à monétiser leurs données ou à restreindre leur accès. Les analystes soulignent l’urgence et l’incertitude qui entourent l’avenir de l’information en ligne face à la transformation de l’Internet par l’IA générative.

Depuis des années, des entreprises technologiques telles qu'Open AI utilisent librement des articles de presse pour constituer des ensembles de données qui permettent à leurs modèles d’IA d'apprendre à reconnaître et à répondre avec fluidité aux questions humaines sur le monde. Mais alors que la quête pour développer des modèles d'IA de pointe est devenue de plus en plus frénétique, les éditeurs de journaux et autres propriétaires de données exigent une part du marché potentiellement gigantesque de l'IA générative, qui devrait atteindre 1300 millions de dollars d'ici à 2032.

Nom : Aivsauthor.jpg
Affichages : 3091
Taille : 31,9 Ko

Pour de nombreux experts du secteur de la technologie, ChatGPT pourrait changer à jamais l'édition et le journalisme. Ainsi, certains types de journalisme, comme les simples articles de sport et d'affaires, seraient particulièrement sensibles à l'automatisation. ChatGPT pourrait être la technologie numérique la plus importante à avoir un impact sur les éditeurs depuis les années 1980. Le chatbot créé par le laboratoire d'intelligence artificielle (IA) OpenAI peut répondre à des questions complexes et s'appuyer sur des recherches secondaires pour rédiger des textes « originaux ». Si l'information se trouve sur Internet, ChatGPT peut produire du contenu avec.

Mais alors que les chercheurs plongent dans le nouveau monde courageux des chatbots d'IA avancés, Springer Nature a déclaré en début d’année que les éditeurs doivent reconnaître leurs utilisations légitimes et établir des directives claires pour éviter les abus. L'entreprise a annoncé que des logiciels tels que ChatGPT ne pouvaient pas être crédités en tant qu'auteurs dans les articles publiés dans ses milliers de revues. Toutefois, Springer affirme qu'elle n'a aucun problème à ce que les scientifiques utilisent l'IA pour les aider à rédiger ou à générer des idées pour la recherche. Cela dit, cette contribution doit être correctement divulguée par les auteurs.

Deux auteurs américains ont poursuivi OpenAI devant le tribunal fédéral de San Francisco, affirmant dans un recours collectif proposé que la société avait abusé de leurs travaux pour « former » son populaire système d'intelligence artificielle générative ChatGPT. Dans le même temps, l’union européenne prépare une législation qui obligerait les outils d’intelligence artificielle comme ChatGPT à divulguer le matériel protégé par le droit d’auteur utilisé dans la construction de leurs systèmes, selon un nouveau projet de loi qui serait le premier ensemble de règles complet de l’Occident régissant le déploiement de l’IA.

Cette obligation permettrait aux éditeurs et aux créateurs de contenu de disposer d’une nouvelle arme pour demander une part des bénéfices lorsque leurs œuvres sont utilisées comme matériau source pour le contenu généré par l’IA par des outils comme ChatGPT. Au total, 561 des 1 149 éditeurs de presse interrogés par l'archive "homepages.news" ont demandé à OpenAI, Google AI ou l'organisation à but non lucratif Common Crawl de cesser de scanner leurs sites, ce qui représente 48,8 % de l'échantillon.

Ces trois organisations parcourent systématiquement les sites web pour recueillir les informations qui alimentent les robots de conversation génératifs tels que ChatGPT d'OpenAI et Bard de Google. Les éditeurs peuvent demander que leur contenu soit exclu par le biais de la convention robots.txt. Le système open source géré par "homepages.news" rassemble le fichier robots.txt de chaque site d'actualités deux fois par jour. Cette page est continuellement mise à jour avec les derniers résultats. Voici les totaux actuels pour chaque robot d'exploration.

Nom : crw.jpg
Affichages : 1818
Taille : 22,5 Ko

Depuis le mois d'août, au moins 535 organes de presse - dont le New York Times, Reuters et le Washington Post - ont installé un bloqueur qui empêche que leur contenu soit collecté et utilisé pour former le ChatGPT. Aujourd'hui, les discussions portent sur le paiement des éditeurs pour que le chatbot puisse proposer des liens vers des articles individuels dans ses réponses, ce qui profiterait aux journaux de deux manières : en leur fournissant un paiement direct et en augmentant potentiellement le trafic vers leurs sites web.

En juillet, OpenAI a signé un contrat de licence pour le contenu de l’Associated Press, qui lui servira à entraîner ses modèles d’IA. Selon deux sources proches des discussions, qui ont requis l’anonymat pour parler de sujets délicats, cette idée a également été évoquée dans les négociations actuelles, mais l’accent a été mis sur la possibilité de montrer des articles dans les réponses de ChatGPT.

Les entreprises d’IA font également face à des poursuites en matière de droits d’auteur

Outre les demandes de paiement, les grandes entreprises d'IA sont confrontées à une série de poursuites en matière de droits d'auteur de la part d'auteurs de livres, d'artistes et de développeurs de logiciels qui réclament des dommages-intérêts pour infraction, ainsi qu'une part des bénéfices. En août, OpenAI, qui bénéficie du soutien de Microsoft, a demandé à un tribunal fédéral de Californie de rejeter les plaintes pour violation du droit d'auteur qui le visent depuis peu.

Les plaignants affirment que l’utilisation non autorisée de leurs données est en violation de plusieurs lois fédérales des États-Unis, dont celles sur le droit d'auteur et le DMCA (Digital Millennium Copyright Act). Mais OpenAI a contesté ces allégations et a déposé des motions de rejet dans lesquelles il demande au tribunal de Californie de rejeter toutes les plaintes sauf une.

En avril, Elon Musk a commencé à facturer 42 000 dollars pour l'accès en masse aux messages publiés sur Twitter, qui étaient auparavant gratuits pour les chercheurs, après avoir affirmé que des sociétés d'intelligence artificielle avaient illégalement utilisé les données pour entraîner leurs modèles.

La décision d'Open AI de négocier peut refléter un désir de conclure des accords avant que les tribunaux n'aient l'occasion de se prononcer sur la question de savoir si les entreprises technologiques ont une obligation légale claire de concéder des licences - et de payer pour le contenu, a déclaré James Grimmelmann, professeur de droit numérique et de l'information à l'université Cornell.

Ces mesures témoignent d'un sentiment d'urgence et d'incertitude grandissant quant à la question de savoir qui tire profit des informations en ligne. L'IA générative étant sur le point de transformer la manière dont les utilisateurs interagissent avec l'internet, de nombreux éditeurs et autres entreprises considèrent le paiement équitable de leurs données comme une question existentielle.

En ce qui concerne la presse écrite, il est compréhensible que les éditeurs cherchent à être rémunérés pour leur travail. Cependant, il est important de noter que les articles utilisés pour alimenter l’outil d’IA ChatGPT sont souvent extraits d’archives publiques et accessibles à tous. Par conséquent, il serait peu probable que les éditeurs puissent obtenir une compensation financière pour ces articles.

En fin de compte, il est important que les entreprises technologiques et les éditeurs travaillent ensemble pour trouver un terrain d’entente qui profite à toutes les parties concernées. Les éditeurs peuvent envisager d’offrir un accès gratuit à leurs archives en échange d’une reconnaissance appropriée dans les produits finaux générés par l’IA. De même, les entreprises technologiques peuvent envisager de partager une partie des bénéfices générés par ces produits avec les éditeurs.

Sources : Palewi, Genlaw, Procès-verbal

Et vous ?

À votre avis, les entreprises technologiques devraient-elles être tenues de payer pour le contenu qu’elles utilisent pour entraîner leurs modèles d’IA ?

Pensez-vous que les éditeurs ont le droit de réclamer une compensation financière pour les articles extraits d’archives publiques et accessibles à tous ?

Comment les entreprises technologiques et les éditeurs peuvent-ils travailler ensemble pour trouver un terrain d’entente qui profite à toutes les parties concernées ?

Les lois actuelles sur le droit d’auteur sont-elles suffisantes pour protéger les créateurs de contenu contre l’utilisation non autorisée de leurs données par les entreprises technologiques ?

Voir aussi :

Le New York Times envisage d'initier une action en justice contre OpenAI pour l'obliger à effacer les données d'entraînement de ChatGPT, le média dit non à l'usage de son contenu sans son accord

Musk s'engage à poursuivre Microsoft en justice, l'accusant de s'être « entraînée illégalement avec les données de Twitter », tandis qu'elle abandonne l'intégration de Twitter de sa plateforme pub

Des auteurs de livres poursuivent OpenAI en justice, affirmant que la société a abusé de leurs travaux pour former ChatGPT. Selon eux, les livres sont un « ingrédient clé » du chabot IA

**denisys** · 25/10/2023, 12h08

La presse écrite veut être payée pour les articles utilisés pour alimenter l'outil d'IA ChatGPT ,

Est ce que la presse écrite paye les outils d'IA ChatGPT ,
quand ils font la une de leurs journaux ??

***

Conflit Israël-Hamas : quand une image générée par l’IA s’invite en une de Libération

https://www.lefigaro.fr/conflit-isra...ation-20231020

**JP CASSOU** · 25/10/2023, 15h57

La presse écrite n'a rien à faire sur le net. Ou doit payer pour les liens menant à des paywalls

**Jade Emy** · 13/12/2023, 09h41

Meta a utilisé des livres protégés par le droit d'auteur pour l'entraînement de l'IA malgré les avertissements de ses propres avocats, selon une nouvelle plainte des auteurs.

Les avocats de Meta Platforms l'avaient prévenue des dangers juridiques liés à l'utilisation de milliers de livres piratés pour entraîner ses modèles d'IA, mais l'entreprise l'a quand même fait, selon un nouveau dépôt dans un procès pour violation du droit d'auteur initialement intenté cet été.

Le nouveau dossier déposé consolide deux actions en justice intentées contre le propriétaire de Facebook et d'Instagram par la comédienne Sarah Silverman, le lauréat du prix Pulitzer Michael Chabon et d'autres auteurs de renom, qui allèguent que Meta a utilisé leurs œuvres sans autorisation pour entraîner son modèle de langage d'intelligence artificielle, Llama.

Le mois dernier, un juge californien a rejeté une partie de l'action intentée par M. Silverman et a indiqué qu'il autoriserait les auteurs à modifier leurs revendications. La nouvelle plainte comprend des registres de conversation d'un chercheur affilié à Meta discutant de l'acquisition de l'ensemble de données dans un serveur Discord, un élément de preuve potentiellement important indiquant que Meta était conscient que son utilisation des livres n'était peut-être pas protégée par la loi américaine sur le droit d'auteur.

Dans les journaux de discussion cités dans la plainte, le chercheur Tim Dettmers décrit ses allers-retours avec le service juridique de Meta pour savoir si l'utilisation des fichiers de livres comme données d'entraînement serait "légalement acceptable". "Chez Facebook, de nombreuses personnes, dont moi-même, souhaitent travailler avec le fichier, mais dans sa forme actuelle, nous ne pouvons pas l'utiliser pour des raisons juridiques", a écrit Tim Dettmers en 2021, faisant référence à un ensemble de données que Meta a reconnu avoir utilisé pour entraîner sa première version de Llama, selon la plainte.

Le mois précédent, Dettmers a écrit que les avocats de Meta lui avaient dit que "les données ne peuvent pas être utilisées ou que les modèles ne peuvent pas être publiés s'ils sont entraînés sur ces données", selon la plainte. Bien que M. Dettmers ne décrive pas les préoccupations des avocats, ses homologues dans le chat identifient les "livres avec des droits d'auteur actifs" comme la plus grande source probable d'inquiétude. Ils affirment que la formation sur les données devrait "relever de l'usage loyal", une doctrine juridique américaine qui protège certaines utilisations sans licence d'œuvres protégées par le droit d'auteur.

M. Dettmers, doctorant à l'université de Washington, a déclaré qu'il n'était pas en mesure de commenter ces allégations dans l'immédiat.

Cette année, les entreprises technologiques ont fait l'objet d'une série de poursuites de la part de créateurs de contenu qui les accusent d'avoir détourné des œuvres protégées par le droit d'auteur pour créer des modèles d'IA générative qui ont fait sensation dans le monde entier et suscité une frénésie d'investissements. Si elles aboutissent, ces affaires pourraient freiner l'engouement pour l'IA générative, car elles pourraient augmenter le coût de construction des modèles gourmands en données en obligeant les entreprises d'IA à indemniser les artistes, les auteurs et les autres créateurs de contenu pour l'utilisation de leurs œuvres. Dans le même temps, les nouvelles règles provisoires européennes régissant l'intelligence artificielle pourraient obliger les entreprises à divulguer les données qu'elles utilisent pour former leurs modèles, ce qui les exposerait à un risque juridique accru.

Meta a publié une première version de son modèle linguistique Llama en février, ainsi qu'une liste d'ensembles de données utilisés pour l'entraînement, dont "la section Books3 de ThePile". La personne qui a assemblé cet ensemble de données a déclaré ailleurs qu'il contenait 196 640 livres, selon la plainte. L'entreprise n'a pas divulgué les données d'entraînement pour sa dernière version du modèle, Llama 2, qu'elle a mis à disposition pour un usage commercial cet été. Llama 2 est gratuit pour les entreprises comptant moins de 700 millions d'utilisateurs actifs mensuels. Son lancement a été perçu dans le secteur technologique comme pouvant changer la donne sur le marché des logiciels d'IA générative, menaçant de remettre en cause la domination d'acteurs tels qu'OpenAI et Google qui font payer l'utilisation de leurs modèles.

Source : Tim Dettmers, Université de Washington

Et vous ?

Pensez-vous que cette nouvelle plainte est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

OpenAI et Meta accusés d'avoir utilisé les œuvres de Sarah Silverman et de deux auteurs sans leur consentement comme données d'entraînements de leurs IA. Les plaintes de ce type se multiplient

Meta a entraîné son IA à l'aide de vos publications publiques sur Facebook et Instagram

Des milliers d'auteurs s'opposent à l'exploitation de leur travail sans permission ni rémunération par l'IA générative. Certains ont déjà intenté des actions en justice contre OpenAI

**Patrick Ruiz** · 17/12/2023, 11h31

OpenAI suspend le compte de ByteDance pour usage des données de GPT aux fins d’entraînement d’un modèle d’IA concurrent, selon un rapport
Qui ravive la controverse autour du droit d’auteur

OpenAI a procédé à la suspension du compte de l’entreprise chinoise ByteDance. Motif : utilisation des données de GPT aux fins d’entrainement d’un modèle d’intelligence artificielle concurrent dans le cadre du projet dénommé Seed. Le rapport qui intervient dans un contexte où OpenAI fait l’objet de multiples accusations pour utilisation du contenu de tiers sans leur accord ravive la controverse autour du droit d’auteur.

En effet, OpenAI reproche à ByteDance d’être en violation des conditions d’utilisation de son service qui stipulent que « la sortie de son modèle d’intelligence artificielle ne peut être exploitée pour développer un modèle d’IA concurrent. » C’est en droite ligne avec cet état de choses que le journaliste Alex Health rapporte qu’OpenAI a procédé à la suspension du compte de ByteDance – l’entreprise chinoise connue comme éditrice de TikTok.

Nom : 1.png
Affichages : 1788
Taille : 65,5 Ko

La décision d’OpenAI est sujette à controverse étant donné qu’elle s’apparente à une revendication de du droit d’auteur sur la sortie produite par GPT. Or de récentes directives de l’US Copyright Office stipulent que « le contenu généré par l’intelligence artificielle ne peut être protégé par le droit d’auteur que dans certaines conditions spécifiques. » Et c’est d’ailleurs ce que de nombreux observateurs n’ont pas manqué de souligner.

Nom : 2.png
Affichages : 1579
Taille : 49,6 Ko

« Ils entraînent tous deux leurs plateformes à partir de nos données mais ne laissent pas une autre entreprise utiliser leurs outils alors qu'ils se servent tous deux (OpenAI et Microsoft) des outils Open Source mis sur pied gratuitement par d’autres développeurs », souligne un internaute.

Nom : 3.png
Affichages : 1572
Taille : 46,3 Ko

Le New York Times envisage de même de lancer une action en justice contre OpenAI pour utilisation de son contenu aux fins d’entrainement de ses modèles d’intelligence artificielle

Le New York Times envisage de lancer une action en justice contre OpenAI afin de l’obliger à effacer les données d’entraînement de ChatGPT. Le département juridique du média étudie la possibilité de poursuivre OpenAI pour protéger les droits de propriété intellectuelle associés à ses reportages. En effet, le journal américain est contre l’utilisation de son contenu comme données d’entraînement pour une intelligence artificielle.

L'une des principales préoccupations du Times est que ChatGPT devienne, d'une certaine manière, un concurrent direct du journal en créant des textes qui répondent à des questions basées sur les reportages et les écrits originaux de l'équipe du journal.

Cette crainte est d'autant plus forte que les entreprises technologiques utilisent des outils d'IA générative dans les moteurs de recherche. Microsoft par exemple a investi des milliards dans OpenAI et anime désormais son moteur de recherche Bing avec ChatGPT.

Le problème de fond est que lorsqu'une personne effectue une recherche en ligne, elle reçoit une réponse d'un paragraphe d'un outil d'IA qui remanie les articles du Times. La nécessité de visiter le site web de l'éditeur s’en trouve grandement diminuée.

C’est pour toutes ces raisons que le NYT a procédé à la modification de ses conditions d’utilisation pour interdire l’usage de son contenu qui comprend les articles, les vidéos, les images, le design, les métadonnées ou les compilations, pour le développement de tout logiciel, notamment pour l’entraînement d’un système d’apprentissage automatique ou d’IA. Il interdit également l’utilisation d’outils automatisés, comme les robots d’indexation, qui visent à utiliser, accéder ou collecter ce contenu sans son consentement écrit. Le NYT précise que le non-respect de ces restrictions peut entraîner des amendes ou des sanctions civiles, pénales ou administratives.

Une action en justice du Times contre OpenAI mettrait en place ce qui pourrait être la bataille juridique la plus médiatisée à ce jour sur la protection des droits d'auteur à l'ère de l'IA générative. La manœuvre est susceptible d’être dévastatrice pour OpenAI, avec notamment la destruction de l'ensemble des données d’entraînement de ChatGPT et des amendes pouvant aller jusqu'à 150 000 dollars par contenu objet du litige.

Nom : 4.png
Affichages : 1569
Taille : 38,1 Ko

OpenAI a des auteurs de livres sur le dos au motif de l’exploitation du contenu de leurs ouvrages pour l’entraînement de ses modèles d’intelligence artificielle

Deux auteurs américains ont poursuivi OpenAI devant le tribunal fédéral de San Francisco. Motif : la société a abusé de leurs travaux pour entraîner son populaire système d'intelligence artificielle générative ChatGPT.

ChatGPT et d’autres systèmes d’IA générative créent du contenu en utilisant de grandes quantités de données collectées sur internet. La plainte des auteurs affirme que les livres sont un « ingrédient clé » car ils offrent les « meilleurs exemples d’écriture longue de haute qualité ». La plainte estime qu’OpenAI a incorporé dans ses données d’entraînement plus de 300 000 livres, dont certains provenant de « bibliothèques fantômes » illégales qui proposent des livres protégés par le droit d’auteur sans autorisation.

Awad est connue pour ses romans comme « 13 Ways of Looking at a Fat Girl » et « Bunny ». Tremblay est l’auteur de romans comme « The Cabin at the End of the World », qui a été adapté dans le film de Night Shyamalan « Knock at the Cabin » sorti en février. Tremblay et Awad affirment que ChatGPT peut générer des résumés « très précis » de leurs livres, ce qui indique qu’ils figurent dans sa base de données.

La plainte demande une somme indéterminée de dommages-intérêts au nom d’une classe nationale de titulaires de droits d’auteur dont les œuvres auraient été utilisées abusivement par OpenAI.

DALL-E 3, le dernier modèle de génération d'images d'OpenAI, tombe aussi sous le coup d’accusations de vol des œuvres visuelles des créateurs pour ses besoins d’entrainement

Depuis ses origines dans les années 1800, la bande dessinée est une affaire d'artisanat. Un artiste crayonnait ses pages après avoir reçu le scénario d'un scénariste et qui transmettait ensuite son précieux travail à un lettreur qui écrivait les textes dans les phylactères. Les pages étaient ensuite transmises à l'encreur et ainsi de suite jusqu'à la version définitive de l'œuvre qui sera mise en vente auprès des consommateurs. Bien que cette pratique ait quelque peu évolué au fil des ans, le processus est resté généralement le même. Mais avec l'essor des outils d'IA comme DALL-E, le marché des bandes dessinées pour être confronté à de profonds changements.

DALL-E est un modèle d'IA de génération d'œuvres d'art développé par OpenAI et distribué à partir de janvier 2021. (Le nom "DALL-E" est un mot-valise évoquant à la fois le robot de Pixar WALL-E et le peintre Salvador Dalí). Il génère des contenus visuels à partir de textes descriptifs appelés "invites" (ou "prompt" en anglais). DALL-E 3 est la troisième version majeure de cet outil d'IA et OpenAI a déclaré qu'elle rend le générateur d'images meilleur que jamais. Cette version apporte de nombreuses améliorations, notamment une meilleure compréhension du contexte, une intégration transparente avec le chatbot ChatGPT et de nouvelles mesures de sécurité.

Cette version a également permis à DALL-E de faire un bond en avant en matière de capacité à générer des images de type bande dessinée. En d'autres termes, DALL-E 3 permet de créer des bandes dessinées en toute simplicité et peu d'efforts. Selon les témoignages sur les réseaux sociaux, l'outil d'IA d'OpenAI permet de générer plusieurs panneaux, voir un scénario complet, d'une bande dessinée en moins de 5 minutes. Cette prouesse a suscité des sueurs froides chez les créateurs de bandes dessinées, qui craignent de voir la valeur de leur travail chuté sur le marché et de se faire progressivement remplacer par les outils d'IA de génération d'images.

En outre, cette mise à jour a également suscité des critiques acerbes de la part de la communauté et des créateurs de bandes dessinées. Ces derniers se sont indignés contre le fait que DALL-E 3 puisse copier et réutiliser leurs travaux, notamment leurs scénarios et leurs œuvres visuelles. Par exemple, un internaute a partagé en ligne une courte "bande dessinée" de quatre panneaux créée à l'aide de DALL-E 3. On peut distinguer clairement les personnages comme Batman, le Joker et Robin qui sont protégés par le droit d'auteur. Son message a suscité un tollé sur les médias sociaux, certains critiquant l'idée de célébrer une "bande dessinée créée par l'IA".

Le dessinateur Javier Rodriguez a fait remarquer qu'il ne s'agissait pas d'un simple copier-coller d'autres bandes dessinées dans une bande dessinée. Il a dénoncé cet usage de l'IA générative en le qualifiant de vol. Il a déclaré : « il y a quelque temps, on pouvait faire la même chose avec une photocopieuse et des ciseaux. Voler l'art d'autrui semble aujourd'hui plus facile et lucratif pour ceux qui sont à l'origine des modèles génératifs », a-t-il déclaré. De son côté, le dessinateur de bande dessinée Ramon Villalobos n'a pas été tendre avec l'internaute. Villalobos s'est moqué des résultats et a fait remarquer que le scénario de DALL-E 3 n'était pas cohérent.

You could do the same thing a while ago with a photocopier and some scissors. Stealing other people's art seems easier now and lucrative for those behind generative models. https://t.co/rJFvFjLjha
— Javier Rodríguez (@javiercaster) September 30, 2023

OpenAI vient-il de donner raison aux observateurs qui sont d’avis que les modèles d’intelligence artificielle doivent demeurer open source ?

Yann LeCun, chercheur français en intelligence artificielle et responsable de l'IA chez Meta, est d’avis que l'ouverture est le seul moyen d’éviter une réglementation prématurée de l'IA voulue par certains intervenants de la filière comme OpenAI et qui, selon lui, pourrait conduire à ce qu'un petit groupe d'entreprises contrôlent l'industrie de l'intelligence artificielle.

« Ce serait très dangereux que l’on garde ces modèles d’intelligence artificielle fermés. Si vous avez un petit groupe d’entreprises de la Côte ouest qui contrôlent des IA superintelligentes alors elles ont la main sur tout : opinion de monsieur Tout-le-monde, culture, etc. », souligne-t-il.

C’est la raison pour laquelle il n’a pas manqué d’accueillir avec faveur le lancement d’une coalition de plus de 50 entreprises d'intelligence artificielle et instituts de recherche qui prônent un modèle d'IA dit ouvert.

Nom : 6.png
Affichages : 1574
Taille : 84,0 Ko

Source : rapport Alex Heath

Et vous ?

Quel est votre avis sur le sujet ?

Voir aussi :

Stable Diffusion de Stability AI serait le modèle d'IA le plus important de tous les temps, contrairement à GPT-3 et DALL-E 2, il apporte des applications du monde réel ouvertes pour les utilisateur

Meta lance Meta AI et 28 IA ayant des « personnalités » incarnées par des célébrités telles que Snoop Dogg, Kendall Jenner et Paris Hilton afin d'accroître l'interaction des jeunes avec l'IA

OpenAI lance DALL-E 3 ChatGPT, la dernière version de son outil pour la génération d'images à partir de textes, afin d'aider les créateurs et les autres utilisateurs

**Jade Emy** · 21/12/2023, 05h41

11 auteurs de non-fiction, dont des lauréats du prix Pulitzer, se sont joints à une action en justice qui accuse OpenAI et Microsoft de violer leurs droits d'auteur pour entraîner le LLM GPT.

Un groupe de 11 auteurs d'ouvrages non-romanesques s'est joint à une action en justice devant le tribunal fédéral de Manhattan qui accuse OpenAI et Microsoft d'utiliser abusivement les livres que les auteurs ont écrits pour entraîner les modèles qui sous-tendent le populaire chatbot ChatGPT d'OpenAI et d'autres logiciels basés sur l'intelligence artificielle.

Les auteurs, dont Taylor Branch, Stacy Schiff et Kai Bird, lauréats du prix Pulitzer et coauteurs de la biographie de J. Robert Oppenheimer "American Prometheus", adaptée cette année dans le film à succès "Oppenheimer", ont déclaré au tribunal que les entreprises avaient violé leurs droits d'auteur en utilisant leurs œuvres pour entraîner les modèles de langage à grande échelle GPT d'OpenAI.

"Les défendeurs engrangent des milliards grâce à l'utilisation non autorisée de livres de non-fiction, et les auteurs de ces livres méritent une compensation et un traitement équitables pour cela", a déclaré l'avocat des écrivains, Rohit Nath.

Julian Sancton, écrivain et rédacteur en chef du Hollywood Reporter, a déposé la première proposition de recours collectif le mois dernier. Il s'agit de l'une des nombreuses actions intentées par des groupes de détenteurs de droits d'auteur, dont les auteurs John Grisham, George R.R. Martin et Jonathan Franzen, contre OpenAI et d'autres entreprises technologiques pour utilisation abusive présumée de leurs œuvres dans l'apprentissage de l'IA. Les entreprises ont nié ces allégations.

Le procès de Sancton est le premier procès d'auteur contre OpenAI à citer également Microsoft comme défendeur. Le géant de la technologie a investi des milliards de dollars dans la startup d'intelligence artificielle et a intégré les systèmes d'OpenAI dans ses produits.

La plainte modifiée indique qu'OpenAI a "récupéré" les œuvres des auteurs ainsi que des quantités d'autres documents protégés par le droit d'auteur sur l'internet, sans autorisation, afin d'enseigner à ses modèles GPT comment répondre à des messages textuels humains. L'action en justice indique également que Microsoft a été "profondément impliqué" dans la formation et le développement des modèles et qu'il est également responsable de la violation des droits d'auteur.

Les auteurs ont demandé au tribunal de leur accorder un montant non précisé de dommages et intérêts et d'ordonner aux entreprises de cesser de violer leurs droits d'auteur.

Et vous ?

Quel est votre avis sur le sujet ?

Voir aussi :

George R.R, romancier de "Game of Thrones", John Grisham et d'autres grands auteurs américains poursuivent OpenAI pour des questions de droits d'auteur

Des auteurs de livres poursuivent OpenAI en justice, affirmant que la société a abusé de leurs travaux pour former ChatGPT. Selon eux, les livres sont un « ingrédient clé » du chabot IA

OpenAI tente désormais de cacher que ChatGPT a été formé sur des livres protégés par le droit d'auteur comme la série Harry Poter de J.K Rowling, selon une étude

**Stéphane le calme** · 24/12/2023, 08h32

Les entreprises d'IA seraient tenues de divulguer les données de formation protégées par le droit d'auteur dont elles se sont servies,
en vertu d'un nouveau projet de loi

Deux législateurs ont déposé un projet de loi obligeant les créateurs de modèles de fondation à divulguer les sources des données de formation afin que les détenteurs de droits d'auteur sachent que leurs informations ont été prises. L'AI Foundation Model Transparency Act, déposé par les représentants Anna Eshoo (D-CA) et Don Beyer (D-VA), ordonnerait à la Federal Trade Commission (FTC) de travailler avec le National Institute of Standards and Technology (NIST) pour établir des règles de reporting sur la transparence des données de formation.

Un modèle de fondation est un modèle d'intelligence artificielle de grande taille, entraîné sur une grande quantité de données non étiquetées (généralement par apprentissage auto-supervisé). Le modèle résultant peut être adapté à un large éventail de tâches en aval (downstream tasks en anglais). Depuis leur introduction en 2018, les modèles de fondation ont induit une transformation majeure dans la manière de construire les systèmes d'IA. Les premiers modèles de fondation étaient de grands modèles de langage pré-entraînés, notamment BERT3 et GPT-3. Par la suite, des modèles de fondation multimodaux, tels DALL-E, Flamingo,et Florence, qui intègrent image et texte, ont fait leur apparition.

Les plaintes contre les sociétés d'IA en vertu du droit d'auteur se multiplient

Plusieurs plaintes en recours collectif contre OpenAI et Meta

La comédienne et auteure Sarah Silverman, ainsi que les auteurs Christopher Golden et Richard Kadrey, poursuivent OpenAI et Meta chacun devant un tribunal de district américain pour double plainte pour violation du droit d'auteur.

Selon les plaintes déposées devant le tribunal fédéral de San Francisco, Meta et OpenAI ont obtenu les œuvres des plaignants à partir de sites illégaux de « bibliothèques fantômes », qui proposent des livres numérisés sans respecter les droits d’auteur. Les plaignants affirment que leurs œuvres ont été utilisées comme matériel d’entraînement pour les modèles d’IA, sans qu’ils n’en aient été informés ni rémunérés.

Les plaignants citent comme preuve le fait que les modèles d’IA sont capables de résumer leurs livres lorsqu’ils sont sollicités. Par exemple, ChatGPT peut fournir un résumé du livre The Bedwetter de Sarah Silverman, publié en 2010, qui raconte son enfance marquée par l’énurésie. De même, LLaMA peut résumer les livres Ararat de Christopher Golden et Sandman Slim de Richard Kadrey, qui sont des romans fantastiques.

Quant à la plainte séparée contre Meta, il allègue que les livres des auteurs étaient accessibles dans les ensembles de données que Meta a utilisés pour former ses modèles LLaMA, un quatuor de modèles d'IA open source que la société a introduit en février.

De même, OpenAI fait l’objet d’une plainte en nom collectif déposée par deux autres auteurs américains, Paul Tremblay et Mona Awad, qui affirment que la société a utilisé leurs œuvres sans autorisation pour entraîner son système d’intelligence artificielle générative ChatGPT.

Gina Maccoby, agent littéraire à New York, a déclaré que même si les contrats des auteurs interdisent explicitement aux sociétés d'IA de faire du scrapping et de tirer profit des œuvres littéraires, les règles sont difficiles à appliquer : « Comment sait-on même si un livre se trouve dans un ensemble de données qui a été ingéré par un programme d'IA ? » se demande Maccoby.

Le New York Times envisage de lancer une action en justice contre OpenAI pour l’obliger à effacer les données d’entraînement de ChatGPT

Début août, le New York Times a mis à jour ses conditions d'utilisation pour interdire le scrapping de ses articles et images pour la formation à l'IA. Cette décision intervient à un moment où les entreprises technologiques ont continué à monétiser les applications de langage d'IA telles que ChatGPT et Google Bard, qui ont acquis leurs capacités grâce à des collectes massives non autorisées de données Internet.

Le NYT interdit l’utilisation de son contenu, qui comprend les articles, les vidéos, les images, le design, les métadonnées ou les compilations, pour le développement de tout logiciel, notamment pour l’entraînement d’un système d’apprentissage automatique ou d’IA. Il interdit également l’utilisation d’outils automatisés, comme les robots d’indexation, qui visent à utiliser, accéder ou collecter ce contenu sans son consentement écrit. Le NYT précise que le non-respect de ces restrictions peut entraîner des amendes ou des sanctions civiles, pénales ou administratives.

L'une des principales préoccupations du Times est que ChatGPT devienne, d'une certaine manière, un concurrent direct du journal en créant des textes qui répondent à des questions basées sur les reportages et les écrits originaux de l'équipe du journal.

Cette crainte est d'autant plus forte que les entreprises technologiques utilisent des outils d'IA générative dans les moteurs de recherche. Microsoft par exemple a investi des milliards dans OpenAI et anime désormais son moteur de recherche Bing avec ChatGPT.

Le problème de fond est que lorsqu'une personne effectue une recherche en ligne, elle reçoit une réponse d'un paragraphe d'un outil d'IA qui remanie les articles du Times. La nécessité de visiter le site web de l'éditeur s’en trouve grandement diminuée.

Une action en justice du Times contre OpenAI mettrait en place ce qui pourrait être la bataille juridique la plus médiatisée à ce jour sur la protection des droits d'auteur à l'ère de l'IA générative. La manœuvre est susceptible d’être dévastatrice pour OpenAI, avec notamment la destruction de l'ensemble des données d’entraînement de ChatGPT et des amendes pouvant aller jusqu'à 150 000 dollars par contenu objet du litige.

Nom : copilot.png
Affichages : 2135
Taille : 84,7 Ko

GitHub Copilot est attaqué en justice, l'outil est décrit par une développeur comme un produit d'IA qui «s'appuie sur un piratage de logiciels open source sans précédent»

GitHub Copilot est un outil d'intelligence artificielle basé sur le cloud développé par GitHub et OpenAI pour aider les utilisateurs des environnements de développement intégrés Visual Studio Code, Visual Studio, Neovim et JetBrains en complétant automatiquement le code. Matthieu Butterick, qui porte les casquettes d'écrivain, designer, développeur et avocat, a évoqué en juin 2022 les problèmes juridiques liés au fonctionnement de GitHub Copilot, « en particulier sa mauvaise gestion des licences open source ». Puis, il a revêtu sa casquette d'avocat pour s'associer à des confrères plaideurs en recours collectif. Ensemble, ils ont enquêté sur une poursuite potentielle contre GitHub Copilot pour violation de ses obligations légales envers les auteurs open source et les utilisateurs finaux. Au terme de cette enquête, ils ont déposé une plainte contre GitHub Copilot.

Les élus américains décident d'agir

Les entreprises qui créent des modèles de base devront signaler les sources de données de formation et la manière dont les données sont conservées pendant le processus d'inférence, décrire les limites ou les risques du modèle, comment le modèle s'aligne sur le framework de gestion des risques d'IA prévu par le NIST ainsi que toute autre norme fédérale qui pourraient être établis et fournir des informations sur la puissance de calcul utilisée pour former et exécuter le modèle. Pour mémoire, le NIST est une agence du département du Commerce des États-Unis. Son but est de promouvoir l'économie en développant des technologies, la métrologie et des normes de concert avec l'industrie.

Le projet de loi stipule également que les développeurs d'IA doivent signaler leurs efforts à « l'équipe rouge » du modèle pour l'empêcher de fournir des « informations inexactes ou nuisibles » sur des questions médicales ou liées à la santé, la synthèse biologique, la cybersécurité, les élections, le maintien de l'ordre, les décisions de prêt financier, l'éducation, les décisions en matière d’emploi, les services publics et les populations vulnérables telles que les enfants.

Le projet de loi souligne l'importance de la formation à la transparence des données autour du droit d'auteur, car plusieurs poursuites ont été intentées contre des sociétés d'IA alléguant une violation du droit d'auteur. Il mentionne spécifiquement le cas des artistes contre Stability AI, Midjourney et Deviant Art (qui a été largement rejeté en octobre), ainsi que la plainte de Getty Images contre Stability AI.

« Avec l’augmentation de l’accès du public à l’intelligence artificielle, il y a eu une augmentation des poursuites judiciaires et des inquiétudes du public concernant la violation du droit d’auteur », indique le projet de loi. «*L’utilisation publique des modèles de fondation a conduit à d’innombrables cas où le public s’est vu présenter des informations inexactes, imprécises ou biaisées.*»

Le projet de loi doit encore être confié à une commission et discuté, et il n’est pas clair si cela aura lieu avant le début de la campagne électorale chargée.

Un complément au décret de l'administration Biden sur l'IA

Le décret s'appuie en partie sur un accord non contraignant conclu en juillet par sept des principales entreprises technologiques américaines qui développent l'IA, comme l'embauche d'experts extérieurs pour rechercher les faiblesses de leurs systèmes et le partage de leurs conclusions critiques. Le décret ordonne les actions suivantes :

De nouvelles normes pour la sûreté et la sécurité de l'IA

Exiger que les développeurs des systèmes d'IA les plus puissants partagent les résultats de leurs tests de sécurité et d'autres informations critiques avec le gouvernement américain. Conformément à la loi sur la production de défense (Defense Production Act), le décret exigera que les entreprises qui développent un modèle de fondation présentant un risque sérieux pour la sécurité nationale, la sécurité économique nationale ou la santé et la sécurité publiques nationales informent le gouvernement fédéral lorsqu'elles forment le modèle, et qu'elles partagent les résultats de tous les tests de sécurité effectués par l'équipe d'intervention. Ces mesures garantiront que les systèmes d'IA sont sûrs, sécurisés et dignes de confiance avant que les entreprises ne les rendent publics.
Élaborer des normes, des outils et des tests pour garantir que les systèmes d'IA sont sûrs, sécurisés et fiables. L'Institut national des normes et de la technologie établira des normes rigoureuses pour les tests approfondis de l'équipe rouge afin de garantir la sécurité avant la diffusion publique. Le ministère de la sécurité intérieure appliquera ces normes aux secteurs d'infrastructures critiques et mettra en place le Conseil de sécurité et de sûreté de l'IA. Les ministères de l'énergie et de la sécurité intérieure se pencheront également sur les menaces que les systèmes d'IA font peser sur les infrastructures essentielles, ainsi que sur les risques chimiques, biologiques, radiologiques, nucléaires et de cybersécurité. Ensemble, ces mesures sont les plus importantes jamais prises par un gouvernement pour faire progresser le domaine de la sécurité de l'IA.
Protéger contre les risques liés à l'utilisation de l'IA pour créer des matériaux biologiques dangereux en élaborant de nouvelles normes strictes pour le contrôle des synthèses biologiques. Les agences qui financent des projets dans le domaine des sciences de la vie établiront ces normes comme condition du financement fédéral, créant ainsi de puissantes incitations à garantir un contrôle approprié et à gérer les risques potentiellement aggravés par l'IA.
Protéger les Américains contre la fraude et la tromperie par l'IA en établissant des normes et des bonnes pratiques pour détecter les contenus générés par l'IA et authentifier les contenus officiels. Le ministère du commerce élaborera des orientations pour l'authentification des contenus et l'utilisation de filigranes afin d'étiqueter clairement les contenus générés par l'IA. Les agences fédérales utiliseront ces outils pour permettre aux Américains de savoir facilement que les communications qu'ils reçoivent de leur gouvernement sont authentiques et pour donner l'exemple au secteur privé et aux gouvernements du monde entier.
Mettre en place un programme de cybersécurité avancée afin de développer des outils d'IA permettant de trouver et de corriger les vulnérabilités des logiciels critiques, en s'appuyant sur le défi cybernétique de l'IA lancé par l'administration Biden-Harris. Ensemble, ces efforts permettront d'exploiter les capacités cybernétiques de l'IA, qui pourraient changer la donne, afin de rendre les logiciels et les réseaux plus sûrs.
Ordonner l'élaboration d'un mémorandum sur la sécurité nationale qui oriente les actions futures en matière d'IA et de sécurité, qui sera élaboré par le Conseil de sécurité nationale et le chef de cabinet de la Maison Blanche. Ce document garantira que l'armée américaine et la communauté du renseignement utilisent l'IA de manière sûre, éthique et efficace dans le cadre de leurs missions, et dirigera les actions visant à contrer l'utilisation militaire de l'IA par les adversaires.

Soutenir les travailleurs

Élaborer des principes et des bonnes pratiques pour atténuer les inconvénients et maximiser les avantages de l'IA pour les travailleurs en abordant le déplacement d'emplois, les normes du travail, l'équité, la santé et la sécurité sur le lieu de travail, et la collecte de données. Ces principes et ces meilleures pratiques profiteront aux travailleurs en fournissant des orientations pour empêcher les employeurs de sous-compenser les travailleurs, d'évaluer les demandes d'emploi de manière inéquitable ou d'entraver la capacité des travailleurs à s'organiser.
Produire un rapport sur les impacts potentiels de l'IA sur le marché du travail, et étudier et identifier des options pour renforcer le soutien fédéral aux travailleurs confrontés à des perturbations du marché du travail, y compris à cause de l'IA.

Le projet de loi d’Eshoo et Beyer complète donc le décret de l’administration Biden sur l’IA, qui aide à établir des normes de reporting pour les modèles d’IA. Le décret, cependant, n’est pas une loi, donc si l’AI Foundation Model Transparency Act est adopté, il fera des exigences de transparence pour les données de formation une règle fédérale.

Source : AI Foundation Model Transparency Act

Et vous ?

Quels sont les avantages et les inconvénients des modèles de base pour la société ?

Quels sont les critères les plus importants pour évaluer la transparence des modèles de base ?

Quelles sont les différences et les similitudes entre le projet de loi américain et le règlement européen sur l’IA ? Lequel vous semble plus efficace ? Pourquoi ?

Comment les utilisateurs peuvent-ils s’assurer de la fiabilité et de la qualité du contenu généré par les modèles de base ?

Quelles sont les responsabilités des développeurs, des fournisseurs et des utilisateurs de modèles de base ?

**Jade Emy** · 27/12/2023, 18h28

Le New York Times poursuit OpenAI et Microsoft pour violation des droits d'auteur, affirmant que des "millions d'articles" ont été utilisés pour former des chatbots.

Le New York Times a intenté une action en justice contre OpenAI et Microsoft pour violation des droits d'auteur. Il affirme que les entreprises technologiques ont utilisé des "millions d'articles" pour développer leur intelligence artificielle. Le procès indique que les entreprises devraient être tenues responsables de "milliards de dollars de dommages".

Le New York Times a intenté une action en justice contre OpenAI et Microsoft pour violation des droits d'auteur, affirmant que les entreprises technologiques ont utilisé leurs articles pour former des chatbots qui menacent aujourd'hui les emplois des journalistes.

L'action en justice, déposée devant la Cour fédérale de district de Manhattan, affirme que les entreprises ont illégalement fourni des "millions d'articles" à Bing Chat de Microsoft et à ChatGPT d'OpenAI pour développer leurs produits. "Cette action vise à les tenir responsables des milliards de dollars de dommages statutaires et réels qu'elles doivent pour la copie et l'utilisation illégales des œuvres de grande valeur du Times", indique la plainte.

Le Times affirme que les programmes d'intelligence artificielle d'OpenAI et de Microsoft utilisent des modèles de langues étendues qui ont été développés en copiant leurs articles avec un accent particulier. "Les défendeurs cherchent à profiter de l'investissement massif du Times dans son journalisme en l'utilisant pour créer des produits substitutifs sans autorisation ni paiement", indique la plainte.

Nom : 1.png
Affichages : 1953
Taille : 21,8 Ko

Dans sa plainte, le New York Times affirme également que l'index de recherche Bing de Microsoft copie son contenu en ligne et le donne aux utilisateurs sans l'autorisation de la publication, ce qui le prive de revenus d'abonnement, de licence, de publicité et d'affiliation. Un exemple de détournement de références commerciales est donné par le New York Times : lorsqu'un utilisateur achète un produit recommandé par le New York Time's Wirecutter par le biais d'un lien sur l'une des plateformes générées par l'intelligence artificielle de Microsoft ou d'OpenAI, le New York Times ne perçoit pas de revenus d'affiliation.

Le New York Times a également déclaré que les "hallucinations" de l'intelligence artificielle - un phénomène qui se produit lorsque les chatbots génèrent de fausses informations et les attribuent à tort à une source - sont potentiellement préjudiciables à sa réputation. Le Times a déclaré que l'utilisation de leur travail a été extrêmement lucrative pour les entreprises, et qu'il a essayé de négocier avec les entreprises pour s'assurer qu'il recevait sa juste part tout en travaillant avec elles pour développer leur technologie, mais qu'il n'a pas été en mesure de parvenir à un accord.

"Le déploiement par Microsoft de LLM formés par Times dans l'ensemble de sa gamme de produits a contribué à accroître sa capitalisation boursière de mille milliards de dollars au cours de la seule année écoulée. Et le lancement du ChatGPT par OpenAI a fait grimper son évaluation à 90 milliards de dollars", indique le procès.

Dans son action en justice, le Times affirme qu'OpenAI et Microsoft ont déclaré que leur comportement était protégé en tant qu'"utilisation équitable" parce que leur utilisation du contenu était destinée à un nouvel objectif de "transformation". Selon le Times, "il n'y a rien de "transformatif" dans le fait d'utiliser le contenu du Times sans paiement pour créer des produits qui se substituent au Times et lui volent son public".

C'est la première fois qu'un grand média américain poursuit les créateurs d'une intelligence artificielle populaire et cela pourrait avoir des conséquences juridiques importantes.

La première action en justice intentée contre OpenAI au titre du droit d'auteur a été déposée en juillet par deux romanciers à succès qui ont affirmé que la société mère de ChatGPT avait enfreint la législation sur le droit d'auteur en entraînant son chatbot à "ingérer" leurs livres sans autorisation. Les auteurs Mona Awad et Paul Tremblay ont affirmé que ChatGPT avait été formé en partie en "ingérant" plusieurs de leurs romans, le tout sans leur consentement.

Peu après, la comédienne Sarah Silverman et les auteurs Richard Kadrey et Christopher Golden ont intenté une action en justice contre Meta Platforms et OpenAI, affirmant qu'ils avaient utilisé du matériel protégé par le droit d'auteur pour entraîner des chatbots.

Source : The New York Times

Et vous ?

Pensez-vous que cette plainte est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

Le New York Times dit non à l'utilisation de son contenu comme données d'entraînement pour une IA sans son accord et menace de poursuites judiciaires

Le New York Times envisage d'initier une action en justice contre OpenAI pour l'obliger à effacer les données d'entraînement de ChatGPT. Le média dit non à l'usage de son contenu sans son accord

11 auteurs dont des lauréats du prix Pulitzer, se sont joints à une action en justice qui accuse OpenAI et Microsoft de violer leurs droits d'auteur pour entraîner ChatGPT

**Stéphane le calme** · 28/12/2023, 16h55

Le New York Times exige qu'OpenAI supprime toutes ses instances GPT dans une poursuite relative au droit d'auteur,
affirmant que des millions de ses articles ont été utilisés pour former ChatGPT

Le New York Times poursuit Microsoft et OpenAI, le créateur de ChatGPT, affirmant que des millions de ses articles de presse ont été utilisés à mauvais escient par les entreprises technologiques pour former leurs chatbots alimentés par l'IA. C'est la première fois qu'une des grandes sociétés de médias traditionnelles américaines s'attaque à la nouvelle technologie devant les tribunaux. Et cela déclenche une confrontation sur l’utilisation de plus en plus controversée de contenus protégés par le droit d’auteur pour alimenter les logiciels d’intelligence artificielle.

La plainte, qui exige un procès devant jury devant un tribunal de district de New York, affirme que les créateurs des chatbots ont refusé de reconnaître les protections du droit d'auteur accordées par la législation et la Constitution américaine. Elle affirme que les chatbots, y compris ceux intégrés aux produits Microsoft comme son moteur de recherche Bing, ont réutilisé le contenu du Times pour le concurrencer.

En août, nous avons appris que le New York Times envisageait de rejoindre la légion croissante de créateurs qui poursuivent les sociétés d'IA pour détournement de leur contenu : le quotidien a déclaré être contre l'utilisation de son contenu sans son accord en mettant à jour ses conditions d'utilisation. Le Times a tenté de négocier avec OpenAI des accords concernant la possibilité pour l'entreprise d'IA d'obtenir une licence pour son matériel, mais ces négociations ne se sont pas déroulées sans heurts. Quelques mois après que l'entreprise a envisagé des poursuites en justice, elle a décidé de passer à l'acte en déposant une plainte.

Le Times cible diverses entreprises sous l'égide d'OpenAI, ainsi que Microsoft, un partenaire OpenAI qui l'utilise à la fois pour alimenter son service Copilot et a contribué à fournir l'infrastructure pour la formation du grand modèle linguistique GPT. Mais la poursuite va bien au-delà de l'utilisation de matériel protégé par le droit d'auteur dans la formation, alléguant que les logiciels basés sur OpenAI contourneront volontiers le paywall du Times et attribueront au Times des informations erronées hallucinées.

Une concurrence déloyale

Comme indiqué dans le procès, le Times allègue qu’OpenAI et les grands modèles linguistiques (LLM) de Microsoft, qui alimentent ChatGPT et Copilot, « peuvent générer une sortie qui récite textuellement le contenu du Times, le résume fidèlement et imite son style expressif ». Cela « mine et endommage » la relation du Times avec ses lecteurs, affirme le média, tout en le privant « d’abonnements, de licences, de publicité et de revenus d’affiliation ».

La plainte affirme également que ces modèles d’IA « menacent un journalisme de haute qualité » en nuisant à la capacité des médias à protéger et à monétiser le contenu. « Grâce au Bing Chat de Microsoft (récemment rebaptisé « Copilot ») et au ChatGPT d’OpenAI, les accusés cherchent à profiter gratuitement de l’investissement massif du Times dans son journalisme en l’utilisant pour créer des produits de substitution sans autorisation ni paiement », indique la plainte.

Pendant ce temps, la publication de modèles d’IA formés sur le contenu du Times s’est avérée « extrêmement lucrative » à la fois pour Microsoft et pour OpenAI, indique la plainte.

Cette dernière ne comprend pas de demande monétaire exacte. Mais le quotidien affirme que les accusés devraient être tenus responsables de « milliards de dollars de dommages-intérêts légaux et réels » liés à « la copie et l’utilisation illégales des œuvres d’une valeur unique du Times ». Il appelle également les entreprises à détruire tous les modèles de chatbot et les données de formation qui utilisent du matériel protégé par le droit d'auteur du Times.

La construction d'un « un modèle économique basé sur la violation massive du droit d’auteur »

La plainte cite plusieurs exemples de ChatGPT récitant des extraits de journalistes du New York Times presque entièrement mot pour mot. Un exemple cité dans les documents judiciaires est une enquête en cinq parties sur l'industrie des taxis à New York, publiée en 2019. Le Times affirme que son enquête a porté sur 600 entretiens, plus de 100 demandes de dossiers et l'examen de milliers de pages de documents tels que des relevés bancaires.

« OpenAI n'a joué aucun rôle dans la création de ce contenu, mais avec un minimum d'incitations, il en récitera de grandes parties textuellement », indique la plainte.

Nom : un.png
Affichages : 11337
Taille : 476,5 Ko

Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge.

La poursuite allègue qu'il est facile d'amener des systèmes alimentés par GPT à proposer du contenu qui est normalement protégé par le paywall du Times. La poursuite montre un certain nombre d'exemples de GPT-4 reproduisant de grandes sections d'articles presque textuellement. La poursuite comprend des captures d'écran de ChatGPT recevant le titre d'un article du New York Times et demandant le premier paragraphe, ce qu'il livre. Obtenir le texte qui suit est apparemment aussi simple que de demander à plusieurs reprises le paragraphe suivant.

ChatGPT a apparemment comblé cette lacune entre la préparation de ce procès et le présent. En entrant certaines des invites affichées dans la poursuite, il est désormais indiqué « Je recommande de consulter le site Web du New York Times ou d'autres sources réputées », bien que nous ne puissions pas exclure que le contexte fourni avant cette invite puisse produire du matériel protégé par le droit d'auteur.

Mais toutes les lacunes n’ont pas été comblées. La combinaison affiche également les résultats de Bing Chat, rebaptisé depuis Copilot. Nous avons pu vérifier que demander le premier paragraphe d’un article spécifique du Times faisait en sorte que Copilot reproduisait le premier tiers de l’article.

La poursuite rejette les tentatives visant à justifier cela comme une forme d’utilisation équitable. « Publiquement, les accusés insistent sur le fait que leur conduite est protégée en tant « qu'usage loyal » parce que leur utilisation sans licence de contenu protégé par le droit d'auteur pour former des modèles GenAI sert un nouvel objectif « transformateur » », note la poursuite. « Mais il n'y a rien de "transformateur" dans le fait d'utiliser le contenu du Times sans paiement pour créer des produits qui remplacent le Times et lui volent du public ».

Nom : nyt.png
Affichages : 1789
Taille : 267,7 Ko

« Faire du bon journalisme est plus difficile que jamais »

La plainte souligne le passage d'OpenAI de sa création en 2015 en tant que « société d'intelligence artificielle à but non lucratif » à une entreprise à but lucratif de plusieurs milliards de dollars, « bâtie en grande partie sur l'exploitation sans licence d'œuvres protégées par le droit d'auteur appartenant au Times et d'autres ».

La plainte du Times affirme également que « faire du bon journalisme est plus difficile que jamais », avec l'effondrement des modèles commerciaux dans l'industrie au cours des 20 dernières années, obligeant de nombreux journaux à travers les États-Unis à fermer :

Si le Times et ses pairs ne peuvent pas contrôler l’utilisation de leur contenu, leur capacité à monétiser ce contenu sera compromise. Avec moins de revenus, les agences de presse auront moins de journalistes capables de consacrer du temps et des ressources à des reportages importants et approfondis, ce qui crée le risque que ces reportages ne soient pas racontés. Moins de journalisme sera produit et le coût pour la société sera énorme

Dommages à la réputation et autres

Les hallucinations communes à l'IA ont également été critiquées dans le cadre de la poursuite, car elles pourraient potentiellement nuire à la valeur de la réputation du Times et éventuellement nuire à la santé humaine en tant qu'effet secondaire. « Un modèle GPT a complètement inventé que "le New York Times a publié un article le 10 janvier 2020, intitulé 'Une étude révèle un lien possible entre le jus d'orange et le lymphome non hodgkinien' », affirme la plainte. « Le Times n'a jamais publié un tel article ».

De même, en posant des questions sur un article du Times sur les aliments sains pour le cœur, Copilot aurait déclaré qu'il contenait une liste d'exemples (ce qui n'était pas le cas). Lorsqu'il lui a été demandé la liste, 80% des aliments n'étaient même pas mentionnés dans l'article original. Dans un autre cas, des recommandations ont été attribuées à Wirecutter alors que les produits n'avaient même pas été examinés par son personnel.

Comme pour le matériel du Times, il est allégué qu'il est possible d'amener Copilot à proposer de gros morceaux d'articles sur Wirecutter (The Wirecutter appartient au New York Times). Mais la poursuite note que ces extraits d'articles sont dépourvus de liens d'affiliation, privant Wirecutter de sa principale source de revenus.

La réaction d'OpenAI

Dans sa plainte, le Times a déclaré avoir contacté Microsoft et OpenAI en avril pour faire part de ses préoccupations concernant l'utilisation de sa propriété intellectuelle et explorer « une résolution à l'amiable », impliquant éventuellement un accord commercial et des « garde-fous technologiques » autour des produits de l'IA générative. Mais il a ajouté que les négociations n'avaient pas abouti à une résolution.

Une porte-parole d'OpenAI, Lindsey Held, a déclaré dans un communiqué que la société avait « avancé de manière constructive » dans ses conversations avec le Times et qu'elle était « surprise et déçue » par le procès.

« Nous respectons les droits des créateurs et des propriétaires de contenu et nous nous engageons à travailler avec eux pour garantir qu'ils bénéficient de l'IA. la technologie et les nouveaux modèles de revenus », a déclaré Held. « Nos conversations en cours avec le New York Times ont été productives et progressent de manière constructive, nous sommes donc surpris et déçus de cette évolution. Nous espérons trouver une manière mutuellement avantageuse de travailler ensemble, comme nous le faisons avec de nombreux autres éditeurs. »

Nom : axel.png
Affichages : 1775
Taille : 24,9 Ko

Conclusion

Le New York Times est l’un des nombreux médias qui ont bloqué le robot d’exploration d’OpenAI ces derniers mois, empêchant la société d’IA de continuer à extraire le contenu de son site Web et à utiliser les données pour former des modèles d’IA. La BBC, CNN et Reuters ont également décidé de bloquer le robot d’exploration Web d’OpenAI. Cependant, d’autres publications adoptent l’IA – ou, du moins, les paiements qui l’accompagnent. Axel Springer, propriétaire de Politico et Business Insider, a conclu un accord avec OpenAI plus tôt ce mois-ci qui permet à ChatGPT d'extraire des informations directement des deux sources, tandis que l'Associated Press permet à OpenAI de former ses modèles sur ses actualités pour les deux prochaines années.

Sources : plainte du New York Times, communiqué d'Axel Springer

Et vous ?

Que pensez-vous de la position du New York Times par rapport à OpenAI ?

Croyez-vous que l’utilisation du contenu du New York Times par OpenAI relève de l’utilisation équitable ou de la contrefaçon ?

Quels sont les avantages et les inconvénients de l’intelligence artificielle générative pour le journalisme ?

Comment protéger le droit d’auteur à l’ère de l’intelligence artificielle ?

Quel rôle devraient jouer les régulateurs et les législateurs dans ce domaine ?

**Stéphane le calme** · 29/12/2023, 20h32

Analyse du procès New York Times contre OpenAI et Microsoft par Cecilia Ziniti, avocate de la Silicon Valley.
De quel côté penche la balance ? Qui a le plus de chance de remporter le procès ?

Le New York Times poursuit Microsoft et OpenAI, le créateur de ChatGPT, affirmant que des millions de ses articles de presse ont été utilisés à mauvais escient par les entreprises technologiques pour former leurs chatbots alimentés par l'IA. C'est la première fois qu'une des grandes sociétés de médias traditionnelles américaines s'attaque à la nouvelle technologie devant les tribunaux. Et cela déclenche une confrontation sur l’utilisation de plus en plus controversée de contenus protégés par le droit d’auteur pour alimenter les logiciels d’intelligence artificielle.

Cecilia Ziniti, avocate de la Silicon Valley, a analysé la plainte du quotidien.

En août, nous avons appris que le New York Times envisageait de rejoindre la légion croissante de créateurs qui poursuivent les sociétés d'IA pour détournement de leur contenu : le quotidien a déclaré être contre l'utilisation de son contenu sans son accord en mettant à jour ses conditions d'utilisation. Le Times a tenté de négocier avec OpenAI des accords concernant la possibilité pour l'entreprise d'IA d'obtenir une licence pour son matériel, mais ces négociations ne se sont pas déroulées sans heurts. Quelques mois après que l'entreprise a envisagé des poursuites en justice, elle a décidé de passer à l'acte en déposant une plainte.

Le Times cible diverses entreprises sous l'égide d'OpenAI, ainsi que Microsoft, un partenaire OpenAI qui l'utilise à la fois pour alimenter son service Copilot et a contribué à fournir l'infrastructure pour la formation du grand modèle linguistique GPT. Mais la poursuite va bien au-delà de l'utilisation de matériel protégé par le droit d'auteur dans la formation, alléguant que les logiciels basés sur OpenAI contourneront volontiers le paywall du Times et attribueront au Times des informations erronées hallucinées.

Une concurrence déloyale

Comme indiqué dans le procès, le Times allègue qu’OpenAI et les grands modèles linguistiques (LLM) de Microsoft, qui alimentent ChatGPT et Copilot, « peuvent générer une sortie qui récite textuellement le contenu du Times, le résume fidèlement et imite son style expressif ». Cela « mine et endommage » la relation du Times avec ses lecteurs, affirme le média, tout en le privant « d’abonnements, de licences, de publicité et de revenus d’affiliation ».

La plainte affirme également que ces modèles d’IA « menacent un journalisme de haute qualité » en nuisant à la capacité des médias à protéger et à monétiser le contenu. « Grâce au Bing Chat de Microsoft (récemment rebaptisé « Copilot ») et au ChatGPT d’OpenAI, les accusés cherchent à profiter gratuitement de l’investissement massif du Times dans son journalisme en l’utilisant pour créer des produits de substitution sans autorisation ni paiement », indique la plainte.

Pendant ce temps, la publication de modèles d’IA formés sur le contenu du Times s’est avérée « extrêmement lucrative » à la fois pour Microsoft et pour OpenAI, indique la plainte.

Cette dernière ne comprend pas de demande monétaire exacte. Mais le quotidien affirme que les accusés devraient être tenus responsables de « milliards de dollars de dommages-intérêts légaux et réels » liés à « la copie et l’utilisation illégales des œuvres d’une valeur unique du Times ». Il appelle également les entreprises à détruire tous les modèles de chatbot et les données de formation qui utilisent du matériel protégé par le droit d'auteur du Times.

La construction d'un « un modèle économique basé sur la violation massive du droit d’auteur »

La plainte cite plusieurs exemples de ChatGPT récitant des extraits de journalistes du New York Times presque entièrement mot pour mot. Un exemple cité dans les documents judiciaires est une enquête en cinq parties sur l'industrie des taxis à New York, publiée en 2019. Le Times affirme que son enquête a porté sur 600 entretiens, plus de 100 demandes de dossiers et l'examen de milliers de pages de documents tels que des relevés bancaires.

« OpenAI n'a joué aucun rôle dans la création de ce contenu, mais avec un minimum d'incitations, il en récitera de grandes parties textuellement », indique la plainte.

La poursuite allègue qu'il est facile d'amener des systèmes alimentés par GPT à proposer du contenu qui est normalement protégé par le paywall du Times. La poursuite montre un certain nombre d'exemples de GPT-4 reproduisant de grandes sections d'articles presque textuellement. La poursuite comprend des captures d'écran de ChatGPT recevant le titre d'un article du New York Times et demandant le premier paragraphe, ce qu'il livre. Obtenir le texte qui suit est apparemment aussi simple que de demander à plusieurs reprises le paragraphe suivant.

🧵 The historic NYT v. @OpenAI lawsuit filed this morning, as broken down by me, an IP and AI lawyer, general counsel, and longtime tech person and enthusiast.

Tl;dr - It's the best case yet alleging that generative AI is copyright infringement. Thread. 👇 pic.twitter.com/Zqbv3ekLWt
— Cecilia Ziniti (@CeciliaZin) December 27, 2023

L'analyse d'une avocate de la Silicon Valley

Premièrement, la plainte expose clairement l'allégation de violation du droit d'auteur, soulignant « l'accès et la similitude substantielle » entre les articles du NYT et les résultats de ChatGPT. Fait clé*: NYT est le plus grand ensemble de données propriétaires de Common Crawl utilisé pour entraîner GPT.

Nom : un.png
Affichages : 2283
Taille : 112,1 Ko

La preuve visuelle de la copie dans la plainte est flagrante. Texte copié en rouge, nouveaux mots GPT en noir*: un contraste conçu pour influencer un jury. Voir la pièce jointe ici. Mon avis ? OpenAI ne peut pas vraiment défendre cette pratique sans quelques modifications importantes des instructions et de nombreux litiges sur le fonctionnement de la technologie. Il sera plus intelligent de trouver un règlement à l'amiable que de se battre.

Nom : deux.png
Affichages : 1681
Taille : 476,5 Ko

Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge.

Le droit d'auteur protège la créativité, pas l'effort

Le NYT est un excellent plaignant. Il ne s'agit pas seulement d'articles ; c'est une question d'originalité et de processus créatif. Leur journalisme d’investigation, à l’instar d’un exposé approfondi sur les prêts de taxi cité dans la plainte, va au-delà du simple travail : c’est la créativité qui est à la base.

Mais voici une particularité : le droit d'auteur protège la créativité, pas l'effort. Même si les 600 interviews de l'article sur les taxis sont impressionnantes, c'est l'innovation en matière de reportage qui compte sur le plan juridique. Soit dit en passant, cela contraste très fortement avec le procès contre GitHub Copilot, qui ne citait que quelques lignes de code open source.

Une possibilité d'obtenir des dommages-intérêts

L'échec des négociations laisse présager des dommages pour le New York Times. OpenAI est déjà sous licence auprès d'autres médias comme Politico.

Le refus d'OAI de conclure un accord avec le New York Times (qui affirme l'avoir contacté en avril) pourrait s'avérer coûteux, d'autant plus que les bénéfices d'OpenAI augmentent et que de plus en plus d'exemples se produisent. Mon hypothèse épicée ? OpenAI pensait pouvoir s'en sortir avec un montant à 7 ou 8 chiffres. Le NYT recherche davantage et une redevance permanente.

La plainte décrit OpenAI comme étant axé sur le profit et fermé. Cela contraste avec le bien public du journalisme. Ce discours pourrait s’avérer puissant devant les tribunaux, en mettant en balance la valeur sociétale du droit d’auteur et l’innovation technologique. Notamment, cet équilibre entre le bien et le mal a été remis en question dans toutes les affaires majeures de droit d'auteur - depuis l'affaire Betamax jusqu'à la conclusion de Feist sur les annuaires téléphoniques non protégés par le droit d'auteur. La plainte mentionne même le drame du conseil d'administration et de Sam Altman.

Nom : trois.png
Affichages : 1665
Taille : 97,5 Ko

Les allégations de désinformation ajoutent une touche astucieuse. La plainte évoque quelque chose dont les gens ont peur - les hallucinations - et en fait un argument, citant des exemples où des éléments d'articles du New York Times ont été inventés. Exemple le plus mémorable ? Alléguant que Bing dit que le New York Times a publié un article dans lequel il déclare que le jus d'orange provoque un lymphome.

Autre point intéressant : le New York Times a de très bons avocats. Susman Godfrey jouit d'une excellente réputation et d'une solide expérience en matière de technologie. Il ne s’agit pas d’une ponction rapide comme les poursuites intentées une semaine après ChatGPT*; c'est un défi juridique stratégique.

Cette affaire pourrait constituer un tournant décisif pour l’IA et le droit d’auteur. Beaucoup de gens disent qu’OpenAI aurait dû payer. Nous verrons!

Ce qui est en jeu? L’avenir de l’innovation en IA et la protection du contenu créatif. Restez à l'écoute.

Conclusion

OpenAI a réagi au procès en déclarant qu’il respecte les droits des créateurs et des propriétaires de contenu et qu’il est disposé à travailler avec eux pour s’assurer qu’ils bénéficient de la technologie de l’IA et de nouveaux modèles de revenus. Il a également affirmé qu’il avait eu des conversations productives et constructives avec le NYT et qu’il était surpris et déçus par ce développement. Il a exprimé son espoir de trouver un moyen mutuellement bénéfique de collaborer, comme il le fait avec de nombreux autres éditeurs.

Le procès du NYT est le dernier d’une série de cas similaires, dont un intenté par plus d’une douzaine d’auteurs en septembre contre OpenAI pour l’utilisation de leurs écrits. Les modèles d’apprentissage du langage ont fait l’objet d’un examen accru depuis qu’ils ont explosé en popularité l’année dernière, les médias d’information étant particulièrement préoccupés par le fait que ces outils propagent des informations erronées qui leur sont attribuées et utilisent leur contenu sans incitation à cliquer sur la source originale.

L’issue du procès du NYT contre Microsoft et OpenAI pourrait avoir des implications importantes pour l’industrie de l’IA générative, qui repose largement sur l’utilisation de données provenant de sources publiques pour entraîner ses modèles. Le procès soulève des questions juridiques et éthiques sur la propriété, l’utilisation et la réglementation des données dans le domaine de l’IA, ainsi que sur les droits et les responsabilités des créateurs, des utilisateurs et des fournisseurs de contenu. Il met également en évidence les tensions entre les intérêts commerciaux et les valeurs sociales des acteurs impliqués dans le développement et le déploiement de l’IA.

Source : Cecilia Ziniti

Et vous ?

Quelle est votre opinion sur le procès du NYT contre Microsoft et OpenAI ? Pensez-vous qu’il soit justifié ou non ?

Quels sont les avantages et les inconvénients de l’utilisation de l’IA générative pour créer du contenu ? Comment cela affecte-t-il les créateurs et les consommateurs de contenu ?

Comment les droits d’auteur et la propriété intellectuelle devraient-ils être appliqués et respectés dans le domaine de l’IA ? Quels sont les défis et les opportunités pour les régulateurs et les législateurs ?

Quelles sont les implications du développement et du déploiement de l’IA générative ? Comment cela influence-t-il la confiance, la crédibilité et la responsabilité des sources d’information ?

Quelles sont les meilleures pratiques et les normes pour utiliser l’IA générative de manière responsable et bénéfique ? Comment les utilisateurs peuvent-ils s’informer et se protéger contre les risques potentiels de l’IA générative ?

**Stéphane le calme** · 30/12/2023, 22h50

Les choses sont sur le point d’empirer pour l’IA générative : DALL-E d'OpenAI et Midjourney ont généré des images et marques protégées,
sans y être invités par des utilisateurs

Dans sa bataille contre OpenAI et Microsoft, le New York Times a cité plusieurs exemples où ChatGPT récite des extraits d'articles de ses journalistes presque entièrement mot pour mot. Des internautes ont remarqué que le plagiat allait bien au-delà des textes et touchait également les images. Ils ont utilisé des images généré par DALL-E, l'outil d'OpenAI spécialisé pour générer des images à l'aide de simples invites textuelles.

L'arrivée de modèles de synthèse d'images largement disponibles, tels que Midjourney et Stable Diffusion, a provoqué une intense bataille en ligne entre les artistes qui considèrent les œuvres assistées par l'IA comme une forme de vol et ceux qui accueillent avec enthousiasme ces nouveaux outils de création. Les communautés d'artistes établies sont à la croisée des chemins car elles craignent que les œuvres non IA ne soient noyées dans une offre illimitée d'œuvres générées par l'IA, alors que ces outils sont devenus très populaires parmi certains de leurs membres.

En interdisant l'art créé par synthèse d'image sur son portail d'art, Newgrounds a écrit : « Nous voulons garder l'accent sur l'art fait par des personnes et ne pas inonder le portail d'art avec de l'art généré par ordinateur ». Fur Affinity a cité des préoccupations concernant l'éthique de la façon dont les modèles de synthèse d'images apprennent à partir d'œuvres d'art existantes, écrivant : « Notre objectif est de soutenir les artistes et leur contenu. Nous ne pensons pas qu'il soit dans l'intérêt de notre communauté d'autoriser du contenu généré par l'IA sur le site ». Ce ne sont que les derniers mouvements dans un débat qui évolue rapidement sur la façon dont les communautés artistiques (et les professionnels de l'art) peuvent s'adapter à un logiciel qui peut potentiellement produire des œuvres illimitées d'art magnifique à un rythme qu'aucun humain travaillant sans les outils ne pourrait égaler.

Parmi ces outils, nous pouvons citer DALL-E 3, le système d'IA d'OpenAI qui peut générer des images à partir de quelques mots ou éditer et affiner des images existantes par le même moyen. Par exemple, l'invite « un renard dans un arbre » ferait apparaître une photo d'un renard assis dans un arbre, ou l'invite « astronaute avec un bagel à la main » montrerait… eh bien, vous voyez où cela mène. Le logiciel ne se contente pas de créer une image dans un style unique, vous pouvez ajouter différentes techniques artistiques à votre demande, en entrant des styles de dessin, de peinture à l'huile, un modèle en pâte à modeler, tricoté en laine, dessiné sur un mur de grotte, ou même comme une affiche de film des années 1960.

Quand l'IA reproduit des œuvres protégées par le droit d'auteur

Seulement voila :

Les systèmes d'IA générative comme DALL-E et ChatGPT ont été formés sur du matériel protégé par le droit d'auteur*;
OpenAI, malgré son nom, n'a pas été transparent sur les sujets sur lesquels elle a été formée.
Les systèmes d’IA générative sont tout à fait capables de produire du matériel qui porte atteinte au droit d’auteur. Ce cas est d'ailleurs au centre de la bataille judiciaire opposant le New York Times à OpenAI et Microsoft. La plainte cite plusieurs exemples de ChatGPT récitant des extraits de journalistes du New York Times presque entièrement mot pour mot. « OpenAI n'a joué aucun rôle dans la création de ce contenu, mais avec un minimum d'incitations, il en récitera de grandes parties textuellement », indique la plainte.

Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge.
Ils n'informent pas les utilisateurs lorsqu'ils le font.
Ils ne fournissent aucune information sur la provenance des images qu’ils produisent.
Les utilisateurs peuvent ne pas savoir lorsqu'ils produisent une image donnée s'ils portent atteinte à leurs droits.

DALL-E d'OpenAI

Certains ont commencé à noter que DALL-E reproduisait des œuvres protégées. Par exemple, cet internaute qui déclare : « Il devrait être clair désormais que même des invites très vagues conduisent systématiquement à des violations de droits d'auteur et/ou de marques déposées. Comment la responsabilité peut-elle être imputée à l’utilisateur alors que le modèle genAI s’efforce de commettre des infractions sans y être invité*? »

It should be clear by now that even very vague prompts consistently lead to copyright and/or trademark violations.

How can liability be pushed to the user when the genAI model tries so hard to infringe without being directed to do so? pic.twitter.com/RmAR2LMVxr
— Blanketman (@Blanketman_01) December 29, 2023

Ou encore Justine Moore de A16Z qui déclare : « Nous gagnons définitivement la bataille du droit d’auteur, les gars. Ces frères italiens ne ressemblent en rien à Mario et Luigi ».

We’re definitely winning the copyright battle, guys.

These Italian brothers look nothing like Mario and Luigi. pic.twitter.com/qemYuGsXGm
— Justine Moore (@venturetwins) December 29, 2023

Midjourney

Mais DALL-E n'est pas le seul système à proposer ce genre de rendu. Reid Southern, concepteur et illustrateur de films, a déclaré avoir trouvé une « preuve irréfutable de la violation flagrante du droit d'auteur de Midjourney ».

I consider this a smoking gun for Midjourney's flagrant copyright infringement. A 6-word prompt can replicate a Dune still nearly 1:1 every time. These aren't variations, it's the same prompt run repeatedly.

Try it yourself. Merry Christmas Midjourney. pic.twitter.com/2wpeTwxS0Q
— Reid Southen (@Rahll) December 24, 2023

Au cas où vous seriez curieux, j'ai beaucoup plus de violations du droit d'auteur de Midjourney à partager. Cela inclut davantage d'exemples comme cet exemple de Dune consistant à répéter sans cesse la même image. Ce n'est pas un cas isolé, je crois que c'est assez courant en fait, et je compte le démontrer.

Pour un expert en IA, rien de tout cela ne peut être facilement résolu...

Gary Marcus a plusieurs casquettes et se présente comme étant un expert de premier plan en matière d'IA, s'est exprimé devant le sous-comité de surveillance de l'IA du Sénat américain, Fondateur/PDG de Geometric Intelligence (qui a été acquis par Uber), TED speaker.

Au vue de la situation, il a déclaré :

Je suppose que rien de tout cela ne peut être facilement résolu.

Des systèmes comme DALL-E et ChatGPT sont essentiellement des boîtes noires. Les systèmes GenAI ne donnent pas d’attribution aux documents sources car, du moins dans leur forme actuelle, ils ne le peuvent pas. (Certaines entreprises recherchent comment faire ce genre de chose, mais je ne connais jusqu'à présent aucune solution convaincante.)

À moins que quelqu’un puisse inventer une nouvelle architecture capable de suivre de manière fiable la provenance du texte génératif et/ou des images génératives, la violation – souvent pas à la demande de l’utilisateur – continuera.

Un bon système doit fournir à l'utilisateur un manifeste de sources*; les systèmes actuels ne le font pas.

Selon toute vraisemblance, le procès du New York Times n’est que le premier d’une longue série. Aujourd'hui, lors d'un sondage à choix multiples X, j'ai demandé aux gens s'ils pensaient que l'affaire serait réglée (la plupart l'ont fait) et quelle pourrait être la valeur probable d'un tel règlement. La plupart des réponses étaient de 100 millions de dollars ou plus, 20 % s'attendaient à un règlement d'un milliard de dollars. Lorsque vous multipliez de tels chiffres par le nombre de studios de cinéma, de sociétés de jeux vidéo, d'autres journaux, etc., très vite, vous vous retrouvez avec des sommes astronomiques.

Et OpenAI est confronté à d’autres risques.

Il a également déclaré que Microsoft est aussi responsable.

If you were NYT in lawsuit against OpenAI, and OpenAI offered a settlement, what is the minimum you would accept?
— Gary Marcus (@GaryMarcus) December 29, 2023

... mais un ingénieur estime que l'exemple du NYT ne relève même pas d'une violation du droit d'auteur

Aucun de ces éléments ne constitue une contrefaçon. Un modèle produisant même la chose exacte, jeton pour jeton ou pixel pour pixel, ne constitue pas une contrefaçon. Les pages de « texte rouge » de la poursuite ne sont pas non plus convaincantes. Tout d'abord, il est possible que le texte textuel soit en fait RAG dans l'application de chat n'ayant rien à voir avec le modèle lui-même. Ce serait drôle... Le New York Times n'aimera pas cette surprise. Même si ce n'est pas le cas et que le modèle récite le texte/les pixels textuellement, encore une fois... et alors ? le New York Times n'a pas de bons arguments ici.

C'est un malentendu à la fois sur l'utilisation équitable et sur la technologie. Les documents « formés et protégés par le droit d'auteur » sont sans objet. Il n'est pas non plus illégal de récupérer du contenu et de le revendre, il suffit de demander à HiQ, que le 9ème Circuit protégeait contre Linkedin - HiQ récupérait et revendait littéralement des données non sécurisées (principalement) du site Web commercial de LinkedIn.

Dans l'affaire Authors Guild c. Google, même la numérisation mot à mot de livres par Google pour créer une base de données consultable a été considérée comme un usage équitable, considéré comme transformateur. L'utilisation par OpenAI du contenu du NYT est similaire, le transformant pour l'apprentissage de l'IA où il est divisé en jetons, puis converti en intégrations - encore une fois, c'est le malentendu des gens*; ils pensent que les « mots » servent à former le modèle. Ce n’est pas le cas. Les nombres entrent. Pour obtenir des nombres, il faut transformer les mots en jetons puis en nombres.

Fox News Network, LLC contre TVEyes, Inc., un service enregistrant tout le contenu diffusé par des organisations à des fins d'indexation et de découpage, a été considéré comme un usage équitable en raison de son objectif transformateur.

.. Sony Corp. contre Universal City Studios a soutenu l'innovation technologique dans l'affaire Betamax, soutenant de nouvelles utilisations technologiques telles que la réalisation de copies complètes d'émissions de télévision.

Le NYT a également une énorme colline à gravir pour prouver que ses prétendues pertes sont dues à l’IA et non à son propre modèle économique défaillant (un défi, c’est le moins qu’on puisse dire).

none of these are infringement. a model producing even the exact thing, token-for-token or pixel-for-pixel, isn't infringement. the "red text" pages of the suit aren't compelling, either. first off, it's possible the verbatim text is actually RAG in the chat application having…
— Zack (@birb_check) December 29, 2023

Sources : Gary Marcus, Justine Moore

Et vous ?

Êtes-vous surpris de voir les IA génératives s'appuyer sur des œuvres protégées même lorsqu'elles ne sont pas mentionnées en entrée ?

Cela constitue-t-il, selon vous, une violation du droit d'auteur ? Dans quelle mesure ?

Que pensez-vous du raisonnement de Gary Marcus qui pense que le problème va toujours exister tant qu'il n'y a pas une modification de l'architecture pour permettre d'identifier les sources ?

Que pensez-vous de l'argumentation de Zack qui indique que le cas soulevé par le New-York Times ne relève pas du droit d'auteur ?

**totozor** · 02/01/2024, 07h54

Envoyé par Stéphane le calme

Êtes-vous surpris de voir les IA génératives s'appuyer sur des œuvres protégées même lorsqu'elles ne sont pas mentionnées en entrée ?

Non, si la demande réclame une chose qui n'est flaggée que sur une œuvre, elle risque fort de ressortir telle quelle ou presque.

Cela constitue-t-il, selon vous, une violation du droit d'auteur ? Dans quelle mesure ?

Que pensez-vous du raisonnement de Gary Marcus qui pense que le problème va toujours exister tant qu'il n'y a pas une modification de l'architecture pour permettre d'identifier les sources ?

Que pensez-vous de l'argumentation de Zack qui indique que le cas soulevé par le New-York Times ne relève pas du droit d'auteur ?

Je suis loin d'être un spécialiste du droit d'auteur donc il est compliqué de se prononcer mais j'ai retenu une chose de mes cours de droits : (en France) concernant les marques et logos, la "copie" n'est pas évaluée sur les différences mais sur la ressemblance.
Zack parle du processus de copie, ce qui me semble hors de propos, si tu retranscrits un texte numérisé en le même texte numérisé ça me semble être simplement du viol de propriété intellectuelle.
Je verrais plus une question sur l'exploitation commerciale, j'ai le droit d'imprimer mon propre Tshirt avec la couverture de Nevermind de Nirvana mais je n'ai pas le droit de le vendre.

**Mathis Lucas** · 05/01/2024, 10h08

OpenAI proposerait aux éditeurs des offres aussi "dérisoires" qu'un million de dollars par an afin d'utiliser leurs articles pour entraîner ses modèles d'IA
selon un rapport

OpenAI chercherait à conclure des accords de licence avec les éditeurs de presse afin d'utiliser leurs articles pour entraîner ses modèles d'IA et échapper aux nombreuses actions en justice pour violation du droit d'auteur dont il fait l'objet. Mais les offres proposées par OpenAI sont jugées dérisoires. La société proposerait aux médias aussi peu qu'un million de dollars par an pour un accès légal à leurs contenus. Des sources indiquent que ces offres peuvent grimper jusqu'à cinq millions de dollars par an, mais les éditeurs sont réticents, car ces licences pourraient être trop avantageuses pour OpenAI. Les revenus annuels d'OpenAI se sont élevés à plus de 1,6 milliard de dollars en 2023.

Les entreprises développant des produits d'IA générative ont utilisé des articles de presse et d'autres données publiques pour entraîner leurs modèles d'IA, mais elles l'ont apparemment fait sans trop se préoccuper des droits de propriété intellectuelle. Résultat, elles sont aujourd'hui poursuivies par de nombreux éditeurs, auteurs et artistes pour utilisation illégale du matériel protégés par le droit d'auteur. Le dernier exemple en date est une action en justice intentée contre OpenAI par le quotidien américain The New York Times. La plainte exige qu'OpenAI supprime tous les articles du média des données d'entraînement de ses grands modèles de langage.

C'est la première fois qu'une grande société de médias traditionnelle américaine s'attaque à la nouvelle technologie devant les tribunaux et les conséquences pourraient être désastreuses pour OpenAI s'il perdait le procès. Ainsi, OpenAI cherche désormais des moyens légaux pour utiliser les contenus de la presse sans prendre le risque d'être poursuivi en justice. Cette semaine, l'on a appris qu'OpenAI est en pourparlers avec des dizaines d'éditeurs de presse en vue de conclure des accords de licence afin de pouvoir utiliser leurs articles pour entraîner ses modèles d'IA. Un représentant d'OpenAI a laissé entendre que les négociations évoluent normalement.

« Nous sommes au milieu de nombreuses négociations et discussions avec de nombreux éditeurs. Ils sont actifs. Ils sont très positifs. Elles progressent bien. Vous avez vu des accords annoncés, et il y en aura d'autres à l'avenir », a déclaré Tom Rubin, responsable de la propriété intellectuelle et du contenu chez OpenAI. Toutefois, les rapports sur le sujet font état d'une hésitation de la part des éditeurs. Selon un rapport de The Information, OpenAI serait prêt à offrir entre 1 et 5 millions de dollars par an à un éditeur afin d'obtenir une licence sur ses articles de presse protégés par le droit d'auteur. OpenAI pourra alors utiliser ces contenus comme il l'entend.

Cependant, des personnes impliquées dans les pourparlers avec OpenAI ont rapporté que les médias, y compris les petits éditeurs, considèrent que ces montants sont "minuscules". OpenAI a déjà conclu un accord de licence pluriannuel avec Axel Springer SE, la société mère de Politico, pour plusieurs dizaines de millions de dollars. En juillet, OpenAI a trouvé un accord avec Associated Press pour un montant non divulgué. Ces accords sont essentiels pour l'avenir d'OpenAI. Il doit trouver un équilibre entre la nécessité de disposer de données actualisées et précises pour élaborer ses modèles et l'attention croissante portée à la provenance de ces données.

Les montants semblent à peu près similaires à certains accords de licence antérieurs non liés à l'IA. Lorsque Meta a lancé l'onglet Facebook News - qui a depuis été supprimé en Europe - il aurait offert jusqu'à 3 millions de dollars par an pour la licence d'articles d'actualité, de titres et d'aperçus. Google a annoncé en 2020 qu'il investirait un milliard de dollars au total pour établir des partenariats avec des organismes de presse, par exemple. Sous la pression d'une nouvelle loi, Google a également accepté récemment de verser aux éditeurs canadiens un total de 100 millions de dollars par an en échange de la création de liens vers leurs articles.

Sur la toile, les réactions sont mitigées. Certains critiques trouvent que les offres proposées par OpenAI sont raisonnables, mais d'autres pas. Par ailleurs, le rapport de The Information révèle que deux des principaux rivaux d'OpenAI, notamment Google et Apple, sont également à la recherche d'accords de contenu avec des éditeurs de presse pour les mêmes raisons. Mais Apple serait en train d'offrir aux entreprises de médias plus d'argent en échange de droits d'utilisation plus étendus. La société veut pouvoir utiliser les articles dans ses futurs produits d'IA de toutes les manières qu'elle jugera nécessaires. L'on ignore à quel stade en sont les négociations.

Google aurait pris du retard sur les deux autres entreprises dans les négociations relatives aux licences sur l'utilisation des articles de presse pour l'entraînement des modèles d'IA, mais le géant de la recherche entretient déjà des relations avec certains médias grâce aux accords de licence qu'il a conclus pour le service Google News. Selon certains analystes, il s'agit probablement d'un avantage concurrentiel pour Google et cela pourrait faciliter la tâche à l'entreprise. Toutefois, les négociations se déroulent dans un contexte où les médias et autres créateurs s'inquiètent de plus en plus de l'utilisation du contenu pour former les grands modèles de langage.

Pour autant que nous sachions ce que contiennent leurs données d'apprentissage, les modèles de langage actuels ont principalement été formés à partir d'informations provenant d'Internet. Si certains modèles d'IA ne révèlent pas comment ils ont obtenu leurs données d'apprentissage, des informations sont souvent disponibles sur les ensembles de données ou les robots d'indexation utilisés. Le prix des ensembles de données d'entraînement varie en fonction du fournisseur, de la taille et du contenu de l'ensemble de données. D'autres jeux de données, comme LAION, sont libres et entièrement gratuits et sont utilisés par des modèles tels que Stable Diffusion.

Les développeurs d'IA mettent également souvent en place des robots d'indexation qui collectent des données sur Internet afin d'entraîner de leurs modèles d'IA. (Les fournisseurs d'IA doivent toujours embaucher des personnes pour vérifier, étiqueter et parfois nettoyer les données d'entraînement, ce qui augmente considérablement les coûts d'exploitation). Mais cette pratique est aujourd'hui confrontée à des défis majeurs. D'une part, plusieurs entreprises, dont le New York Times, empêchent les robots d'accéder à leurs données. D'autre part, plusieurs organisations affirment que la formation sur leurs données constitue une violation du droit d'auteur.

Selon les analystes, le procès du New York Times représente un défi existentiel pour les activités d'OpenAI. Si le média gagne le procès, OpenAI pourrait non seulement devoir des milliards de dollars en guise de dommages-intérêts, mais aussi être forcé de détruire toutes ses données de formation comprenant des travaux de l'éditeur. Cette tâche pourrait être coûteuse et compliquée. Dans l'immédiat, cependant, le procès complique les efforts d'OpenAI pour conclure des accords avec l'industrie des médias. Un porte-parole d'OpenAI a déclaré récemment que l'entreprise était surprise et déçue que le New York Times ait intenté une action en justice.

OpenAI a ajouté qu'il espère néanmoins trouver un moyen mutuellement bénéfique de travailler avec le New York Times. « Nous respectons les droits des créateurs et des propriétaires de contenus et nous nous engageons à travailler avec eux pour qu'ils bénéficient de la technologie de l'IA et de nouveaux modèles de revenus », note un communiqué de l'entreprise. Selon Rubin, la situation actuelle est très différente de celles auxquelles les éditeurs ont été confrontés dans le passé avec les moteurs de recherche et les médias sociaux. Rubin a déclaré que le contenu des articles de presse est utilisé pour entraîner un modèle, pas pour reproduire le contenu.

Mais le Times n'est pas d'accord avec la position d'OpenAI, estimant que ChatGPT copie carrément le travail de ses journalistes sans payer pour cela. Dans son procès, l'éditeur a montré des exemples dans lesquels ChatGPT régurgitait des paragraphes entiers de texte presque mot à mot du New York Times. L'éditeur affirme que c'est la preuve qu'OpenAI a utilisé les données du New York Times. « Si Microsoft et OpenAI veulent utiliser notre travail à des fins commerciales, la loi exige qu'ils obtiennent d'abord notre autorisation. Ils ne l'ont pas fait », a déclaré le New York Times dans un communiqué. Certains ont toutefois critiqué la position du New York Times.

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous du montant proposé par OpenAI aux éditeurs de presse pour accéder à leurs contenus ?

Pensez-vous que ce montant est dérisoire ? Ces accords profiteront-ils davantage à OpenAI qu'aux éditeurs ?

Ces accords de licence risquent-ils d'augmenter les coûts de développement des grands modèles de langage ?

Voir aussi

Le New York Times exige qu'OpenAI supprime toutes ses instances GPT dans une poursuite relative au droit d'auteur, affirmant que des millions de ses articles ont été utilisés pour former ChatGPT

George R.R, romancier de "Game of Thrones", John Grisham et d'autres grands auteurs américains poursuivent OpenAI pour des questions de droits d'auteur

OpenAI et Meta accusés d'avoir utilisé les œuvres de Sarah Silverman et de deux auteurs sans leur consentement, comme données d'entraînements de leurs IA. Les plaintes de ce type se multiplient

**Sandra Coret** · 07/01/2024, 14h41

Microsoft et OpenAI poursuivis en justice par des auteurs pour avoir violé leurs droits d'auteur en incluant plusieurs de leurs livres dans les données utilisées pour entraîner des programmes d'IA

OpenAI et son bailleur de fonds Microsoft ont été poursuivis vendredi devant le tribunal fédéral de Manhattan par deux auteurs d'ouvrages non fictionnels qui affirment que les sociétés ont abusé de leur travail pour former les modèles d'intelligence artificielle à l'origine du populaire chatbot ChatGPT et d'autres services fondés sur l'IA.

Les écrivains Nicholas Basbanes et Nicholas Gage ont déclaré au tribunal, dans une proposition de recours collectif, que les entreprises avaient violé leurs droits d'auteur en incluant plusieurs de leurs livres dans les données utilisées pour former le modèle de langage large GPT d'OpenAI.

Les représentants de Microsoft et d'OpenAI n'ont pas immédiatement répondu aux demandes de commentaires sur la plainte.

Cette plainte fait suite à plusieurs autres déposées par des auteurs de fiction et de non-fiction, de la comédienne Sarah Silverman à l'auteur de "Game of Thrones" George R.R. Martin, contre des entreprises technologiques pour l'utilisation présumée de leurs œuvres afin d'entraîner des programmes d'intelligence artificielle.

La semaine dernière, le New York Times a également intenté un procès à OpenAI et à Microsoft concernant l'utilisation du travail de ses journalistes pour former des applications d'IA.

Basbanes et Gage sont tous deux d'anciens journalistes. Leur avocat, Michael Richter, a déclaré qu'il était "scandaleux" que les entreprises puissent utiliser leurs travaux pour "alimenter une nouvelle industrie de plus d'un milliard de dollars sans aucune compensation".

Source : Plainte déposée par Nicholas Basbanes et Nicholas Gage contre Microsoft et OpenAI

Et vous ?

Quel est votre avis sur la situation ?

Trouvez-vous cette plainte crédible ou pertinente ? pensez-vous qu'elle aboutira ?

Voir aussi :

Microsoft et OpenAI poursuivis pour avoir collectés et divulgués des informations personnelles avec ChatGPT sans consentement, les plaignants leur réclament 3 milliards de dollars

Des auteurs de livres poursuivent OpenAI en justice, affirmant que la société a abusé de leurs travaux pour former ChatGPT, selon eux, les livres sont un « ingrédient clé » du chabot IA

Le New York Times poursuit OpenAI et Microsoft pour violation des droits d'auteur, affirmant que des "millions d'articles" ont été utilisés pour former des chatbots

Le New York Times exige qu'OpenAI supprime toutes ses instances GPT dans une poursuite relative au droit d'auteur, affirmant que des millions de ses articles ont été utilisés pour former ChatGPT

**Stéphane le calme** · 09/01/2024, 08h32

OpenAI affirme que le New York Times a trompé ChatGPT pour qu'il copie ses articles.
Malgré un procès intenté le mois dernier, l'entreprise IA souhaite toujours travailler avec le quotidien

OpenAI a réagi publiquement à une action en justice intentée par le New York Times en matière de droits d'auteur, qualifiant l'affaire de « sans fondement » et déclarant qu'elle espérait toujours un partenariat avec l'organe de presse. Dans un billet de blog, OpenAI a déclaré que le Times « ne raconte pas toute l'histoire ». L'entreprise a particulièrement contesté les affirmations selon lesquelles son outil d'IA ChatGPT reproduisait mot pour mot les articles du Times, arguant que le Times avait manipulé les messages-guides pour y inclure des extraits régurgités d'articles. « Même en utilisant de telles invites, nos modèles ne se comportent généralement pas de la manière dont le New York Times l'insinue, ce qui suggère qu'ils ont soit donné l'ordre au modèle de les régurgiter, soit choisi leurs exemples parmi de nombreuses tentatives », a déclaré OpenAI.

En août, nous avons appris que le New York Times envisageait de rejoindre la légion croissante de créateurs qui poursuivent les sociétés d'IA pour détournement de leur contenu : le quotidien a déclaré être contre l'utilisation de son contenu sans son accord en mettant à jour ses conditions d'utilisation. Le Times affirme avoir tenté de négocier avec OpenAI des accords concernant la possibilité pour l'entreprise d'IA d'obtenir une licence pour son matériel, mais ces négociations ne se sont pas déroulées sans heurts. Quelques mois après que l'entreprise a envisagé des poursuites en justice, puis a décidé de passer à l'acte en déposant une plainte.

Le Times cible diverses entreprises sous l'égide d'OpenAI, ainsi que Microsoft, un partenaire OpenAI qui l'utilise à la fois pour alimenter son service Copilot et a contribué à fournir l'infrastructure pour la formation du grand modèle linguistique GPT. Mais la poursuite va bien au-delà de l'utilisation de matériel protégé par le droit d'auteur dans la formation, alléguant que les logiciels basés sur OpenAI contourneront volontiers le paywall du Times et attribueront au Times des informations erronées hallucinées.

Nom : un.png
Affichages : 1850
Taille : 476,5 Ko

Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge.

La réaction d'OpenAI à la plainte

Dans un billet de blog, OpenAI a assuré que son objectif est de développer des outils d'IA qui permettent aux gens de résoudre des problèmes autrement hors de portée : « Des personnes du monde entier utilisent déjà notre technologie pour améliorer leur vie quotidienne. Des millions de développeurs et plus de 92 % des entreprises du classement Fortune 500 s'appuient sur nos produits aujourd'hui ».

Et de continuer en disant « bien que nous ne soyons pas d'accord avec les affirmations de la plainte du New York Times, nous y voyons une occasion de clarifier notre activité, notre intention et la manière dont nous construisons notre technologie ».

L'entreprise indique que sa position peut être résumée en quatre points :

Nous collaborons avec les organismes de presse et créons de nouvelles opportunités.
La formation est une utilisation équitable, mais nous offrons une option de refus parce que c'est la bonne chose à faire.
La "régurgitation" est un bogue rare que nous nous efforçons de réduire à zéro.
Le New York Times ne raconte pas toute l'histoire.

Ci-dessous, voici comment OpenAI a développé ces points :

Nous collaborons avec les organismes de presse et créons de nouvelles opportunités

Dans le cadre de notre processus de conception technologique, nous nous efforçons de soutenir les organismes de presse. Nous avons rencontré des dizaines d'entre eux, ainsi que des organisations sectorielles de premier plan telles que la News/Media Alliance, afin d'explorer les possibilités, de discuter de leurs préoccupations et de proposer des solutions. Notre objectif est d'apprendre, d'éduquer, d'écouter les commentaires et de nous adapter.

Notre objectif est de soutenir un écosystème de l'information sain, d'être un bon partenaire et de créer des opportunités mutuellement bénéfiques. C'est dans cette optique que nous avons établi des partenariats avec des organismes de presse afin d'atteindre ces objectifs :

Déployer nos produits pour aider les journalistes et les rédacteurs en les assistant dans des tâches fastidieuses telles que l'analyse de documents publics volumineux et la traduction d'articles.
Apprendre à nos modèles d'IA à connaître le monde en s'entraînant sur des contenus historiques supplémentaires non accessibles au public.
Afficher du contenu en temps réel avec attribution dans ChatGPT, offrant ainsi aux éditeurs de presse de nouveaux moyens de communiquer avec leurs lecteurs.

Nos premiers partenariats avec Associated Press, Axel Springer, American Journalism Project et NYU donnent un aperçu de notre approche.

Nom : deux.png
Affichages : 1194
Taille : 264,5 Ko

La formation est un usage loyal, mais nous proposons une option de refus parce que c'est la bonne chose à faire

L'entraînement de modèles d'IA à l'aide de matériel internet accessible au public est un usage loyal, comme l'attestent des précédents anciens et largement acceptés. Nous considérons que ce principe est équitable pour les créateurs, nécessaire pour les innovateurs et essentiel pour la compétitivité des États-Unis.

Le principe selon lequel la formation de modèles d'IA est autorisée en tant qu'usage loyal est soutenu par un large éventail d'universitaires, d'associations de bibliothèques, de groupes de la société civile, de startups, d'entreprises américaines de premier plan, de créateurs, d'auteurs et d'autres personnes qui ont récemment soumis des commentaires à l'Office américain du droit d'auteur. D'autres régions et pays, dont l'Union européenne, le Japon, Singapour et Israël, ont également des lois qui autorisent les modèles de formation sur des contenus protégés par le droit d'auteur, ce qui constitue un avantage pour l'innovation, le progrès et l'investissement dans l'IA.

Cela étant dit, le droit juridique est moins important pour nous que le fait d'être de bons citoyens. Nous avons pris la tête de l'industrie de l'IA en proposant aux éditeurs une procédure de retrait simple (que le New York Times a adoptée en août 2023) pour empêcher nos outils d'accéder à leurs sites.

La « régurgitation » est un bogue rare que nous nous efforçons de réduire à zéro

Nos modèles ont été conçus et formés pour apprendre des concepts afin de les appliquer à de nouveaux problèmes.

La mémorisation est une défaillance rare du processus d'apprentissage sur laquelle nous progressons continuellement, mais elle est plus fréquente lorsqu'un contenu particulier apparaît plus d'une fois dans les données d'apprentissage, par exemple si des éléments de ce contenu apparaissent sur de nombreux sites web publics différents. Nous avons donc mis en place des mesures pour limiter la mémorisation involontaire et empêcher la régurgitation dans les résultats des modèles. Nous attendons également de nos utilisateurs qu'ils agissent de manière responsable ; manipuler intentionnellement nos modèles pour les régurgiter n'est pas une utilisation appropriée de notre technologie et va à l'encontre de nos conditions d'utilisation.

Tout comme les êtres humains acquièrent une vaste formation pour apprendre à résoudre de nouveaux problèmes, nous voulons que nos modèles d'IA observent l'ensemble des informations disponibles dans le monde, y compris dans toutes les langues, cultures et secteurs d'activité. Étant donné que les modèles apprennent à partir de l'énorme ensemble des connaissances humaines, tout secteur, y compris l'actualité, ne représente qu'une infime partie de l'ensemble des données d'apprentissage, et toute source de données, y compris le New York Times, n'a pas d'importance pour l'apprentissage prévu du modèle.

Le New York Times ne dit pas toute l'histoire

Nos discussions avec le New York Times semblaient progresser de manière constructive jusqu'à notre dernière communication du 19 décembre. Les négociations portaient sur un partenariat de grande valeur autour de l'affichage en temps réel avec attribution dans ChatGPT, dans lequel le New York Times gagnerait un nouveau moyen de se connecter avec ses lecteurs existants et nouveaux, et nos utilisateurs auraient accès à leurs reportages. Nous avions expliqué au New York Times que, comme toute source unique, son contenu ne contribuait pas de manière significative à la formation de nos modèles existants et n'aurait pas non plus suffisamment d'impact pour les formations futures. Le procès qu'ils ont intenté le 27 décembre - dont nous avons pris connaissance en lisant le New York Times - nous a surpris et déçus.

En cours de route, ils ont mentionné avoir constaté une certaine régurgitation de leur contenu, mais ils ont refusé à plusieurs reprises de partager des exemples, malgré notre engagement à enquêter et à résoudre les problèmes. Nous avons montré à quel point nous prenons cette question au sérieux, comme en juillet, lorsque nous avons supprimé une fonction de ChatGPT immédiatement après avoir appris qu'elle pouvait reproduire du contenu en temps réel de manière involontaire.

Il est intéressant de noter que les régurgitations provoquées par le New York Times semblent provenir d’articles vieux de plusieurs années qui ont proliféré sur plusieurs sites Web tiers. Il semble qu’ils aient intentionnellement manipulé les invites, comprenant souvent de longs extraits d’articles, afin de faire régurgiter notre modèle. Même lorsqu’ils utilisent de telles invites, nos modèles ne se comportent généralement pas comme le laisse entendre le New York Times, ce qui suggère qu’ils ont soit demandé au modèle de régurgiter, soit sélectionné leurs exemples parmi de nombreuses tentatives.

Malgré leurs affirmations, cette utilisation abusive ne constitue pas une activité typique ou autorisée des utilisateurs et ne remplace pas le New York Times. Quoi qu’il en soit, nous rendons continuellement nos systèmes plus résistants aux attaques adverses visant à régurgiter les données d’entraînement, et avons déjà fait de nombreux progrès dans nos modèles récents.

Conclusion

La société a récemment présenté un argument similaire à la Chambre des Lords du Royaume-Uni, affirmant qu'aucun système d'IA comme ChatGPT ne peut être construit sans accès à du contenu protégé par le droit d'auteur. Il a déclaré que les outils d’IA doivent incorporer des œuvres protégées par le droit d’auteur pour « représenter toute la diversité et l’étendue de l’intelligence et de l’expérience humaines ».

Mais OpenAI a déclaré qu'il espérait toujours pouvoir poursuivre les négociations avec le Times pour un partenariat similaire à ceux qu'il a signés avec Axel Springer et The Associated Press :

Nous considérons que le procès du New York Times est sans fondement. Néanmoins, nous espérons un partenariat constructif avec le New York Times et respectons sa longue histoire, qui inclut la couverture du premier réseau neuronal fonctionnel il y a plus de 60 ans et la défense des libertés du premier amendement.

Nous sommes impatients de poursuivre notre collaboration avec les organismes de presse, afin de les aider à accroître leur capacité à produire un journalisme de qualité en réalisant le potentiel de transformation de l’IA.

Source : OpenAI

Et vous ?

Que pensez-vous de l'argumentation d'OpenAI ?

« Il est intéressant de noter que les régurgitations provoquées par le New York Times semblent provenir d’articles vieux de plusieurs années qui ont proliféré sur plusieurs sites Web tiers. Il semble qu’ils aient intentionnellement manipulé les invites, comprenant souvent de longs extraits d’articles, afin de faire régurgiter notre modèle. Même lorsqu’ils utilisent de telles invites, nos modèles ne se comportent généralement pas comme le laisse entendre le New York Times, ce qui suggère qu’ils ont soit demandé au modèle de régurgiter, soit sélectionné leurs exemples parmi de nombreuses tentatives ». Qu'en pensez-vous ?

Que pensez-vous du fait que l'article d'OpenAI n'aborde qu'une partie du problème soulevé par le New York Times (une génération de texte qui est la copie conforme d'un article paru chez le quotidien), mais n'aborde pas par exemple les hallucinations de ChatGPT qui indexent le New York Times comme source, entachant sa réputation ou encore la concurrence déloyale ?

Quelle est votre opinion sur l’utilisation du contenu protégé par le droit d’auteur pour entraîner les logiciels d’IA ?

Pensez-vous que les créateurs de contenu devraient être rémunérés pour l’utilisation de leurs œuvres par les entreprises d’IA ?

Quels sont les risques et les opportunités liés à la création de médias par l’IA ?

Comment distinguer le contenu généré par l’IA du contenu original ?

Quelles sont les mesures à prendre pour garantir une utilisation éthique et légale de l’IA ?

**Patrick Ruiz** · 09/01/2024, 19h15

« Il est impossible de créer des outils comme ChatGPT sans contenus sous copyright », selon OpenAI
Qui suscite des réactions dont celles de fermer le service ou de l’amener à rémunérer les auteurs

OpenAI vient de reconnaître qu’il est impossible de créer des outils comme ChatGPT sans s’appuyer sur des contenus sous copyright. Le tableau ravive le débat sur la violation des droits d’auteurs. En effet, OpenAI a suspendu le compte de ByteDance pour usage des données de GPT aux fins d’entraînement d’un modèle d’intelligence artificielle concurrent. En droite ligne avec cette décision d’OpenAI, deux solutions émergent des réactions des internautes. Primo, des observateurs demandent l’arrêt du service. Deuxio, d’autres sont plutôt d’avis qu’OpenAI doit rémunérer les auteurs des contenus sous copyright.

« Nous pensons que les outils d'intelligence artificielle sont à leur summum lorsqu'ils intègrent et représentent toute la diversité et l'étendue de l'intelligence et de l'expérience humaines. Pour ce faire, les technologies d'IA de nos jours requièrent une grande quantité de données d'entraînement et de calcul, car les modèles examinent, analysent et apprennent des modèles et des concepts qui émergent de milliards de milliards de mots et d'images. Les grands modèles de langage d'OpenAI, y compris ChatGPT, sont développés à l'aide de trois sources principales de données d'entraînement : (1) informations disponibles publiquement sur Internet, (2) des informations que nous utilisons sous licence et (3) des informations fournies par nos utilisateurs ou nos formateurs humains. Étant donné que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine - y compris les articles de blog, les photographies, les messages de forum, etc. y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux - il serait impossible d’entraîner les meilleurs modèles d'IA d'aujourd'hui sans utiliser des documents protégés par le droit d'auteur. Limiter les données d'entraînement aux livres et dessins du domaine public et aux dessins créés il y a plus d'un siècle pourrait donner lieu à une expérience intéressante, mais ne permettrait pas d'obtenir des systèmes d'IA répondant aux besoins des citoyens d'aujourd'hui », répond OpenAI dans le cadre d’un questionnaire de la Chambre des Lords du Royaume-Uni.

Pour certains internautes, l’analogie à extraire de la sortie d’OpenAI relève de l’évidence : « Il m'est impossible de devenir multimillionnaire sans braquer une banque, je devrais donc être autorisé à braquer des banques. »

Nom : 1.png
Affichages : 2721
Taille : 50,1 Ko

C’est la raison pour laquelle le New York Times a exigé qu’OpenAI supprime toutes ses instances GPT dans une poursuite relative au droit d’auteur

La plainte cite plusieurs exemples de ChatGPT récitant des extraits de journalistes du New York Times presque entièrement mot pour mot. Un exemple cité dans les documents judiciaires est une enquête en cinq parties sur l'industrie des taxis à New York, publiée en 2019. Le Times affirme que son enquête a porté sur 600 entretiens, plus de 100 demandes de dossiers et l'examen de milliers de pages de documents tels que des relevés bancaires.

« OpenAI n'a joué aucun rôle dans la création de ce contenu, mais avec un minimum d'incitations, il en récitera de grandes parties textuellement », indique la plainte.

Nom : 2.png
Affichages : 2090
Taille : 476,5 Ko

La poursuite allègue qu'il est facile d'amener des systèmes animés par GPT à proposer du contenu qui est normalement protégé par le mur de monétisation du Times. La poursuite montre un certain nombre d'exemples de GPT-4 reproduisant de grandes sections d'articles presque textuellement. La poursuite comprend des captures d'écran de ChatGPT recevant le titre d'un article du New York Times et demandant le premier paragraphe, ce qu'il livre. Obtenir le texte qui suit est apparemment aussi simple que de demander à plusieurs reprises le paragraphe suivant.

ChatGPT a apparemment comblé cette lacune entre la préparation de ce procès et le présent. En entrant certaines des invites affichées dans la poursuite, il est désormais indiqué « Je recommande de consulter le site Web du New York Times ou d'autres sources réputées », bien que nous ne puissions pas exclure que le contexte fourni avant cette invite puisse produire du matériel protégé par le droit d'auteur.

Mais toutes les lacunes n’ont pas été comblées. La combinaison affiche également les résultats de Bing Chat, rebaptisé depuis Copilot. Nous avons pu vérifier que demander le premier paragraphe d’un article spécifique du Times faisait en sorte que Copilot reproduisait le premier tiers de l’article.

La poursuite rejette les tentatives visant à justifier cela comme une forme d’utilisation équitable. « Publiquement, les accusés insistent sur le fait que leur conduite est protégée en tant « qu'usage loyal » parce que leur utilisation sans licence de contenu protégé par le droit d'auteur pour former des modèles GenAI sert un nouvel objectif « transformateur » », note la poursuite. « Mais il n'y a rien de "transformateur" dans le fait d'utiliser le contenu du Times sans paiement pour créer des produits qui remplacent le Times et lui volent du public ».

La presse avait déjà proposé la deuxième solution qui est qu’elle perçoive une rémunération d’OpenAI

Depuis des années, des entreprises technologiques telles qu'Open AI utilisent librement des articles de presse pour constituer des ensembles de données qui permettent à leurs modèles d’IA d'apprendre à reconnaître et à répondre avec fluidité aux questions humaines sur le monde. Mais alors que la quête pour développer des modèles d'IA de pointe est devenue de plus en plus frénétique, les éditeurs de journaux et autres propriétaires de données exigent une part du marché potentiellement gigantesque de l'IA générative, qui devrait atteindre 1300 millions de dollars d'ici à 2032.

Nom : 3.jpg
Affichages : 2060
Taille : 31,9 Ko

Pour de nombreux experts du secteur de la technologie, ChatGPT pourrait changer à jamais l'édition et le journalisme. Ainsi, certains types de journalisme, comme les simples articles de sport et d'affaires, seraient particulièrement sensibles à l'automatisation. ChatGPT pourrait être la technologie numérique la plus importante à avoir un impact sur les éditeurs depuis les années 1980. Le chatbot créé par le laboratoire d'intelligence artificielle (IA) OpenAI peut répondre à des questions complexes et s'appuyer sur des recherches secondaires pour rédiger des textes « originaux ». Si l'information se trouve sur Internet, ChatGPT peut produire du contenu avec.

Mais alors que les chercheurs plongent dans le nouveau monde courageux des chatbots d'IA avancés, Springer Nature a déclaré en début d’année que les éditeurs doivent reconnaître leurs utilisations légitimes et établir des directives claires pour éviter les abus. L'entreprise a annoncé que des logiciels tels que ChatGPT ne pouvaient pas être crédités en tant qu'auteurs dans les articles publiés dans ses milliers de revues. Toutefois, Springer affirme qu'elle n'a aucun problème à ce que les scientifiques utilisent l'IA pour les aider à rédiger ou à générer des idées pour la recherche. Cela dit, cette contribution doit être correctement divulguée par les auteurs.

Deux auteurs américains ont poursuivi OpenAI devant le tribunal fédéral de San Francisco, affirmant dans un recours collectif proposé que la société avait abusé de leurs travaux pour l’entraînement de son populaire système d'intelligence artificielle générative ChatGPT. Dans le même temps, l’union européenne prépare une législation qui obligerait les outils d’intelligence artificielle comme ChatGPT à divulguer le matériel protégé par le droit d’auteur utilisé dans la construction de leurs systèmes, selon un nouveau projet de loi qui serait le premier ensemble de règles complet de l’Occident régissant le déploiement de l’IA.

Cette obligation permettrait aux éditeurs et aux créateurs de contenu de disposer d’une nouvelle arme pour demander une part des bénéfices lorsque leurs œuvres sont utilisées comme matériau source pour le contenu généré par l’IA par des outils comme ChatGPT. Au total, 561 des 1 149 éditeurs de presse interrogés par l'archive "homepages.news" ont demandé à OpenAI, Google AI ou l'organisation à but non lucratif Common Crawl de cesser de scanner leurs sites, ce qui représente 48,8 % de l'échantillon.

Ces trois organisations parcourent systématiquement les sites web pour recueillir les informations qui alimentent les robots de conversation génératifs tels que ChatGPT d'OpenAI et Bard de Google. Les éditeurs peuvent demander que leur contenu soit exclu par le biais de la convention robots.txt. Le système open source géré par "homepages.news" rassemble le fichier robots.txt de chaque site d'actualités deux fois par jour. Cette page est continuellement mise à jour avec les derniers résultats. Voici les totaux actuels pour chaque robot d'exploration.

Nom : 5.jpg
Affichages : 2044
Taille : 22,5 Ko

Depuis le mois d'août, au moins 535 organes de presse - dont le New York Times, Reuters et le Washington Post - ont installé un bloqueur qui empêche que leur contenu soit collecté et utilisé pour former le ChatGPT. Désormais, les discussions portent sur le paiement des éditeurs pour que le chatbot puisse proposer des liens vers des articles individuels dans ses réponses, ce qui profiterait aux journaux de deux manières : en leur fournissant un paiement direct et en augmentant potentiellement le trafic vers leurs sites web.

En juillet, OpenAI a signé un contrat de licence pour le contenu de l’Associated Press, qui lui servira à entraîner ses modèles d’IA. Selon deux sources proches des discussions, qui ont requis l’anonymat pour parler de sujets délicats, cette idée a également été évoquée dans les négociations actuelles, mais l’accent a été mis sur la possibilité de montrer des articles dans les réponses de ChatGPT.

Source : Parlement du Royaume-Uni

Et vous ?

Quelle solution préconiseriez-vous en tant que décideur compte tenu du tableau actuel en matière d’intelligence artificielle générative ? Ordonner la fermeture desdits services ? Les amener à rémunérer les auteurs ?

Voir aussi :

Le New York Times envisage d'initier une action en justice contre OpenAI pour l'obliger à effacer les données d'entraînement de ChatGPT, le média dit non à l'usage de son contenu sans son accord

Musk s'engage à poursuivre Microsoft en justice, l'accusant de s'être « entraînée illégalement avec les données de Twitter », tandis qu'elle abandonne l'intégration de Twitter de sa plateforme pub

Des auteurs de livres poursuivent OpenAI en justice, affirmant que la société a abusé de leurs travaux pour former ChatGPT. Selon eux, les livres sont un « ingrédient clé » du chabot IA

**ManPaq** · 23/01/2024, 05h25

C'est le même problème qui a conduit Google à payer une amende de 500M$ en 21:

La directive européenne de 2019 impose aux plates-formes et aux GAFA (tel YouTube) de conclure avec les ayants droit des accords pour les rémunérer lorsqu’un utilisateur ou les algorithmes du système postent une œuvre (un texte, une chanson, un film…) sur lesquels ces ayants-droit ont des droits. Si la plate-forme ou le géant du net ne concluent pas un accord juste, ils encourent des poursuites pour non-respect de ces droits voisins du fait de la publication d’œuvres protégées sur leur réseau. Les plates-formes en ligne doivent en outre rémunérer les éditeurs de presse dont elles republient les contenus.Contenu soumis à la licence CC-BY-SA 4.0. Source : Article Droits voisins du droit d'auteur en France de Wikipédia en français :auteurs.

**Bruno** · 14/02/2024, 11h15

OpenAI voit une partie de la plainte de Sarah Silverman rejetée dans une décision mitigée, incluant le rejet de violations du DMCA
et de chefs d'accusation pour enrichissement sans cause

Dans une décision judiciaire mitigée, un tribunal californien a partiellement rejeté la plainte pour violation du droit d'auteur déposée contre OpenAI par un groupe d'auteurs, dont la comédienne Sarah Silverman. La juge Araceli Martínez-Olguín a rejeté plusieurs chefs d'accusation, y compris la violation par personne interposée, les violations du Digital Millennium Copyright Act (DMCA), la négligence et l'enrichissement sans cause. Cependant, la plainte principale, accusant OpenAI de violation directe des droits d'auteur avec son logiciel ChatGPT, a été maintenue.

La juge a exprimé son scepticisme face à certaines allégations des auteurs, soulignant le manque de preuves de préjudice économique. Les plaignants ont jusqu'au 13 mars pour apporter des modifications à leur plainte. Bien qu'OpenAI ait obtenu quelques concessions, la plainte centrale demeure, mettant en cause la prétendue utilisation illégale des œuvres des auteurs pour entraîner ChatGPT. Cette affaire s'inscrit dans le contexte de poursuites similaires à l'encontre d'OpenAI, impliquant d'autres auteurs notables comme George R.R. Martin et John Grisham.

Nom : openAI.jpg
Affichages : 4497
Taille : 19,0 Ko

Sarah Silverman, Christopher Golden, et Richard Kadrey, comédienne et auteurs respectivement, intentent des poursuites judiciaires contre OpenAI et Meta devant un tribunal de district américain, accusant les entreprises de violation du droit d'auteur. Selon les plaintes déposées à San Francisco, les deux sociétés auraient acquis illégalement les œuvres des plaignants à partir de sites de "bibliothèques fantômes" proposant des livres numérisés sans respecter les droits d'auteur. Les auteurs soutiennent que leurs œuvres ont été utilisées comme matériau d'entraînement pour les modèles d'IA sans leur consentement ni rémunération.

Les plaignants fournissent comme preuve la capacité des modèles d'IA à résumer leurs livres sur demande. Par exemple, ChatGPT peut résumer "The Bedwetter" de Sarah Silverman, publié en 2010, tandis que LLaMA peut faire de même pour les livres "Ararat" de Christopher Golden et "Sandman Slim" de Richard Kadrey, tous deux des romans fantastiques.

La plainte contre Meta soutient que les livres des auteurs étaient inclus dans les ensembles de données utilisés pour former les modèles LLaMA, une série de modèles d'IA open source introduits par la société. Les plaignants allèguent que les ensembles de données ont des origines illicites, citant un document de Meta détaillant LLaMA, qui mentionne l'utilisation de ThePile, un ensemble de données assemblé par EleutherAI, et identifié comme provenant d'une copie du contenu de la Bibliotik, un "traceur privé". Les "bibliothèques fantômes" mentionnées dans la plainte sont qualifiées d'"incontestablement illégales".

Les deux plaintes font valoir que les auteurs n'ont pas donné leur consentement à l'utilisation de leurs livres protégés par le droit d'auteur comme matériel d'entraînement. Elles comprennent chacune six chefs d'accusation, incluant diverses violations du droit d'auteur, de la négligence, de l'enrichissement sans cause et de la concurrence déloyale. Les auteurs demandent des dommages-intérêts légaux, la restitution des bénéfices, entre autres réparations.

OpenAI a tenté de négocier des accords de licence avec les éditeurs de presse dans le but d'utiliser leurs articles pour entraîner ses modèles d'IA, cherchant ainsi à éviter les multiples poursuites judiciaires pour violation du droit d'auteur auxquelles elle est confrontée. Cependant, les propositions faites par OpenAI ont été considérées comme peu généreuses. La société aurait offert aux médias aussi peu qu'un million de dollars par an pour obtenir un accès légal à leurs contenus. Bien que certaines sources suggèrent que ces offres pouvaient atteindre jusqu'à cinq millions de dollars annuels, les éditeurs ont manifesté leur réticence, craignant que ces licences ne soient trop avantageuses pour OpenAI. Il est important de noter que les revenus annuels d'OpenAI ont dépassé 1,6 milliard de dollars en 2023.

« Nous sommes au milieu de nombreuses négociations et discussions avec de nombreux éditeurs. Ils sont actifs. Ils sont très positifs. Elles progressent bien. Vous avez vu des accords annoncés, et il y en aura d'autres à l'avenir », a déclaré Tom Rubin, responsable de la propriété intellectuelle et du contenu chez OpenAI. Toutefois, les rapports sur le sujet font état d'une hésitation de la part des éditeurs.

OpenAI a récemment demandé à un tribunal fédéral de Californie de rejeter les récentes plaintes pour violation du droit d'auteur portées contre la société. Plusieurs auteurs, dont Sarah Silverman, accusent la startup d'IA d'avoir utilisé des copies non autorisées de leurs livres pour entraîner ses modèles de langage, tels que ChatGPT. Les plaignants allèguent une violation des lois fédérales américaines sur le droit d'auteur et le Digital Millennium Copyright Act (DMCA). Cependant, OpenAI a déposé des motions de rejet demandant au tribunal de Californie de rejeter toutes les plaintes, à l'exception d'une.

La société, soutenue par Microsoft, a qualifié les revendications dans les poursuites de « revendications accessoires », affirmant que le texte généré par ChatGPT ne violait pas les droits d'auteur des auteurs sur leurs livres. OpenAI est confrontée à un nombre important de plaintes de milliers d'auteurs, parmi lesquels figurent des personnalités notables telles que Sarah Silverman, Paul Tremblay, Mona Awad et Richard Kadrey.

Dans ses requêtes en irrecevabilité déposées lundi, OpenAI a demandé le rejet de cinq des six chefs d'accusation formulés dans les poursuites. La société a défendu la nature transformative de sa technologie, soulignant la nécessité d'équilibrer la protection des droits d'auteur et le progrès technologique. OpenAI a l'intention de contester le dernier chef d'accusation, la violation directe du droit d'auteur, devant le tribunal en tant que question de droit, bien qu'aucun calendrier n'ait été fourni.

La communauté a vivement critiqué les arguments avancés par OpenAI devant le tribunal, accusant la société de tenter de redéfinir le droit d'auteur pour exploiter illégalement les œuvres des auteurs. La société a comparé l'impact de ChatGPT à une révolution intellectuelle, évoquant l'invention de la presse à imprimer. OpenAI estime que les auteurs sous-estiment la portée du droit d'auteur en ne tenant pas compte des limitations et exceptions qui permettent des innovations telles que les modèles de langage.

OpenAI a soutenu que l'utilisation de matériel protégé par le droit d'auteur par des innovateurs, même si les livres ne constituaient qu'une petite partie des données massives de ChatGPT, ne violait pas le droit d'auteur. La société a affirmé que son objectif était d'apprendre à ses modèles à dériver les règles du langage humain pour des applications bénéfiques telles que l'amélioration de la productivité, l'aide au codage informatique et la simplification des tâches quotidiennes. La demande d'OpenAI au tribunal souligne que la loi sur le droit d'auteur vise à promouvoir le progrès scientifique et artistique en protégeant la manière dont les auteurs expriment leurs idées.

OpenAI a également contesté les preuves présentées par les plaignants, en affirmant que la loi sur le droit d'auteur ne protège pas l'idée sous-jacente d'une œuvre, les faits incorporés dans le message de l'auteur ou d'autres éléments constitutifs de la création. La société a cité un cas impliquant Google Books pour étayer son argument selon lequel des données statistiques, telles que la fréquence des mots et les schémas syntaxiques, échappent à la protection du droit d'auteur, même si l'auteur détient des droits sur le livre lui-même.

La décision judiciaire contre OpenAI soulève des inquiétudes

La décision du juge fédéral de rejeter une partie, mais pas la totalité, des plaintes déposées dans le cadre de l'action en justice fait écho à une décision rendue dans le cadre d'un autre procès intenté par certains des mêmes auteurs plaignants (dont Mme Silverman) contre Meta au sujet de la manière dont cette société forme ses modèles linguistiques d'intelligence artificielle.

La principale demande rejetée par le juge était l'allégation de violation du droit d'auteur pour le compte d'autrui, qui soutenait essentiellement que chaque réponse générée par ChatGPT devait être considérée comme une contrefaçon parce que le modèle de langage aurait été formé à partir d'éléments protégés par le droit d'auteur et ne faisant pas l'objet d'une licence. Le juge a qualifié cette allégation d'« insuffisante », déclarant que les plaignants « n'expliquent pas ce que les résultats impliquent ou n'allèguent pas qu'un résultat particulier est substantiellement similaire - ou similaire du tout - à leurs livres ».

En outre, le juge a déclaré qu'il n'y avait aucune preuve à l'appui de l'allégation des auteurs selon laquelle OpenAI avait violé le Digital Millennium Copyright Act en supprimant les informations pertinentes sur les droits d'auteur du matériel sur lequel elle formait son modèle afin de dissimuler sa prétendue violation des droits d'auteur. Les plaintes pour négligence et enrichissement sans cause ont également été rejetées.

L'action en justice a cependant encore du mordant. Le juge a refusé de rejeter une plainte pour concurrence déloyale fondée sur l'allégation principale selon laquelle OpenAI a utilisé des œuvres protégées par le droit d'auteur pour entraîner ses modèles de langage à des fins commerciales. La décision judiciaire soulève des préoccupations significatives quant à la protection des droits d'auteur dans le contexte de l'intelligence artificielle. Il suscite des inquiétudes quant à la capacité des tribunaux à traiter efficacement les aspects complexes des litiges liés à l'IA.

Les conséquences néfastes d'une telle décision sur la protection des droits d'auteur sont significatives. Elle pourrait établir un précédent selon lequel les entreprises de l'IA pourraient potentiellement contourner les obligations de rémunération et d'autorisation préalable des créateurs, fragilisant ainsi le principe fondamental du droit d'auteur. En permettant aux entreprises d'IA d'utiliser des œuvres sans le consentement explicite des auteurs, cela pourrait compromettre la juste rémunération des créateurs pour leur travail intellectuel.

Par ailleurs, la décision risque d'avoir des répercussions sur la créativité artistique en décourageant les auteurs d'exprimer librement leurs idées et de partager leur travail, sachant que les entreprises d'IA pourraient potentiellement exploiter leurs œuvres sans une protection adéquate.

Il est crucial que les tribunaux traitent ces affaires avec une compréhension approfondie des enjeux liés à l'IA et au droit d'auteur, afin de garantir une protection adéquate des droits des auteurs dans un paysage technologique en constante évolution. Une jurisprudence claire et équilibrée est nécessaire pour maintenir un juste équilibre entre l'innovation technologique et la protection des droits créatifs.

Source : California court

Et vous ?

Quel est votre avis sur le sujet ?

Comment la décision du tribunal de rejeter certaines parties de la plainte de Sarah Silverman contre OpenAI pourrait-elle influencer la manière dont les litiges liés au droit d'auteur sont traités dans le contexte de l'intelligence artificielle ?

Quelles implications cette décision mitigée pourrait-elle avoir sur la capacité des créateurs de protéger efficacement leurs œuvres contre une utilisation non autorisée par des entreprises d'IA ?

Voir aussi :

OpenAI tente désormais de cacher que ChatGPT a été formé sur des livres protégés par le droit d'auteur, comme la série Harry Poter de J.K Rowling, selon une étude

OpenAI conteste les affirmations des auteurs selon lesquelles chaque réponse de ChatGPT est une œuvre dérivée, l'entreprise affirme que ces plaintes sont irrecevables et demande leur rejet

OpenAI proposerait aux éditeurs des offres aussi "dérisoires" qu'un million de dollars par an afin d'utiliser leurs articles pour entraîner ses modèles d'IA, selon un rapport

**Stéphane le calme** · 21/02/2024, 22h40

Le New York Times pourrait gagner son procès sur les droits d'auteur contre OpenAI
d'après une analyse de James Grimmelmann, professeur de droit, et Timothy Lee

Le New York Times a intenté une action en justice contre OpenAI, la société à l’origine du générateur de texte GPT-4, qu’elle accuse d’avoir utilisé sans autorisation des extraits de ses articles pour entraîner son intelligence artificielle. Le journal affirme que cette pratique constitue une violation de ses droits d’auteur et qu’elle porte atteinte à son intégrité journalistique. OpenAI, de son côté, se défend en invoquant le principe du fair use, qui permet d’utiliser des œuvres protégées à des fins d’éducation, de recherche ou de critique, sans avoir besoin de l’accord des ayants droit. La société soutient que son objectif est de créer une intelligence artificielle bénéfique pour l’humanité et qu’elle ne cherche pas à concurrencer ou à nuire au New York Times.

L'auteur et architecte de systèmes Daniel Jeffries a fait une longue publication sur X/Twitter, comme un essai, dans laquelle il affirme que le Times « a une probabilité quasi nulle de gagner » son procès. Datant d'après la plainte du New York Times contre OpenAI, son message a déjà été retweeté 290 fois et a été consulté 886 000 fois.

« Essayer de faire en sorte que tout le monde prenne une licence pour les données de formation ne fonctionnera pas, car ce n'est pas l'objet du droit d'auteur », a écrit Jeffries. « La loi sur le droit d'auteur vise à empêcher les gens de produire des copies exactes ou presque exactes d'un contenu et de les publier à des fins commerciales. C'est tout. Quiconque vous dit le contraire ment ou ne comprend tout simplement pas comment fonctionne le droit d'auteur ».

If you want to understand why the Times case has a near zero probability of winning, then read this thread.

This fellow does a nice write up and he seems sincere in his belief that what he is saying about the suit is accurate and correct when in fact it's basically just a lot… https://t.co/j7deo7fTcA
— Daniel Jeffries (@Dan_Jeffries1) December 28, 2023

Mais cette façon de comprendre le problème n'a pas fait l'unanimité.

Deux auteurs se sont laissés aller à une analyse différente. L'un d'eux est un journaliste qui s'intéresse au droit d'auteur depuis près de 20 ans. L'autre est un professeur de droit qui a donné des dizaines de cours sur la propriété intellectuelle et le droit de l'internet : « Nous sommes à peu près sûrs de comprendre comment fonctionne le droit d'auteur. Et nous sommes ici pour avertir la communauté de l'IA qu'elle doit prendre ces poursuites au sérieux ».

Copie et usage loyal

En 2004, Google a lancé publiquement un projet audacieux visant à numériser des millions de livres pour les utiliser dans un moteur de recherche. Les auteurs et les éditeurs ont intenté un procès, arguant qu'il était illégal de copier sans autorisation un si grand nombre d'œuvres protégées par des droits d'auteur. Google a rétorqué que cela était autorisé par l'usage loyal.

Les tribunaux sont censés prendre en compte quatre facteurs dans les affaires d'usage loyal, mais deux de ces facteurs tendent à être les plus importants. Le premier est la nature de l'utilisation. Une utilisation est plus susceptible d'être équitable si elle est "transformative", c'est-à-dire si la nouvelle utilisation a un objectif et un caractère radicalement différents de l'original.

Google a fait valoir qu'un moteur de recherche de livres est hautement transformatif parce qu'il remplit une fonction très différente de celle d'un livre individuel. Les gens lisent des livres pour les apprécier et en tirer des enseignements. Mais un moteur de recherche ressemble davantage à un catalogue de cartes ; il aide les gens à trouver des livres.

L'autre facteur clé est l'impact de l'utilisation sur le marché de l'œuvre originale. Ici aussi, Google disposait d'un argument de poids puisqu'un moteur de recherche de livres aide les gens à trouver de nouveaux livres à acheter.

Google a soigneusement conçu son moteur de recherche pour maximiser ses chances de gagner sur ce point. Google Book Search n'affiche qu'un court "extrait" d'une page donnée dans un résultat de recherche, et l'entreprise a veillé à ce que les utilisateurs ne puissent pas reconstituer un livre entier en effectuant plusieurs recherches. Google a également exclu les dictionnaires, les livres de cuisine et d'autres ouvrages de référence des résultats de recherche, car les utilisateurs pourraient rechercher des mots individuels sur Google au lieu d'acheter le dictionnaire entier.

En 2015, le deuxième circuit a tranché en faveur de Google. Un thème important de l'avis de la Cour est que le moteur de recherche de Google fournissait aux utilisateurs des informations factuelles, non soumises au droit d'auteur, plutôt que de reproduire une grande partie de l'expression créative des livres eux-mêmes. Comme l'a expliqué le tribunal :

Un étudiant qui rédige un travail sur Franklin D. Roosevelt pourrait avoir besoin d'apprendre l'année où Roosevelt a été frappé par la polio. En tapant "Roosevelt polio" dans une recherche Google Books, l'étudiant serait dirigé (parmi de nombreux sites) vers un extrait de la page 31 de l'ouvrage de Richard Thayer Goldberg, The Making of Franklin D. Roosevelt (1981), indiquant que l'attaque de polio s'est produite en 1921. Le chercheur aurait ainsi satisfait son besoin de connaître le livre, sans avoir à l'acheter ou à l'acquérir auprès d'une bibliothèque. Mais ce que le chercheur a tiré de cet extrait est un fait historique. Le droit d'auteur de l'auteur Goldberg ne s'étend pas aux faits communiqués par son livre.

Le deuxième circuit a conclu que « la réalisation par Google d'une copie numérique pour fournir une fonction de recherche est une utilisation transformative, qui augmente la connaissance du public en rendant disponibles des informations sur les livres des plaignants sans fournir au public un substitut substantiel des livres ».

Les défenseurs d'OpenAI, de Stability AI et d'autres sociétés d'IA ont fait valoir qu'elles faisaient la même chose que Google : apprendre des informations sur les œuvres dans les données d'apprentissage, mais ne pas reproduire l'expression créative dans les œuvres elles-mêmes.

Mais contrairement au moteur de recherche de Google, les modèles d'IA générative produisent parfois des œuvres créatives qui entrent directement en concurrence avec les œuvres sur lesquelles ils ont été formés. Cela place ces défendeurs dans une position juridique plus faible que celle de Google il y a dix ans.

L'IA générative a un problème du « plombier italien »

Les auteurs indiquent avoir récemment visité le site Web de Stability AI et demandé à son modèle d'image Stable Diffusion de générer l'image d'un « plombier italien de jeu vidéo ». Tout comme leur essai avec GPT-4, la première image générée est celle d'un personnage ressemblant à Mario, avec un "M" sur sa casquette.

Il est clair que ces modèles n'ont pas seulement appris des faits abstraits sur les plombiers - par exemple, qu'ils portent une salopette et des clés à molette. Ils ont appris des faits sur un plombier italien fictif spécifique qui porte des gants blancs, une salopette bleue avec des boutons jaunes et un chapeau rouge avec un "M" sur le devant.

Il ne s'agit pas de faits sur le monde qui sont hors de portée du droit d'auteur. Au contraire, les choix créatifs qui définissent Mario sont probablement couverts par les droits d'auteur détenus par Nintendo.

En fait, certains ont commencé à noter que DALL-E reproduisait des œuvres protégées. Par exemple, cet internaute qui déclare : « Il devrait être clair désormais que même des invites très vagues conduisent systématiquement à des violations de droits d'auteur et/ou de marques déposées. Comment la responsabilité peut-elle être imputée à l’utilisateur alors que le modèle genAI s’efforce de commettre des infractions sans y être invité ? »

Adding a simple term like 'kissing' provides only questionable renditions of Mario and Sonic. Did the user ask for these copyrighted characters to engage in this way?
It seems the genAI model insists that this is what the users prompt intended. pic.twitter.com/uM3k7eACAH
— Blanketman (@Blanketman_01) December 29, 2023

Ou encore Justine Moore de A16Z qui déclare : « Nous gagnons définitivement la bataille du droit d’auteur, les gars. Ces frères italiens ne ressemblent en rien à Mario et Luigi ».

We’re definitely winning the copyright battle, guys.

These Italian brothers look nothing like Mario and Luigi. pic.twitter.com/qemYuGsXGm
— Justine Moore (@venturetwins) December 29, 2023

Reid Southern, concepteur et illustrateur de films, a déclaré avoir trouvé une « preuve irréfutable de la violation flagrante du droit d'auteur de Midjourney ».

I consider this a smoking gun for Midjourney's flagrant copyright infringement. A 6-word prompt can replicate a Dune still nearly 1:1 every time. These aren't variations, it's the same prompt run repeatedly.

Try it yourself. Merry Christmas Midjourney. pic.twitter.com/2wpeTwxS0Q
— Reid Southen (@Rahll) December 24, 2023

Dans son procès contre OpenAI, le New York Times a fourni 100 exemples de GPT-4 générant de longs extraits quasi verbatim d'articles du Times :

Nom : un.png
Affichages : 5218
Taille : 476,5 Ko

Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge

De nombreux membres de la communauté de l'IA ont sous-estimé l'importance de ces exemples

Les partisans de l'utilisation équitable aiment diviser l'analyse en deux étapes, ce que l'on peut voir dans le billet de blog d'OpenAI sur le procès du New York Times. OpenAI affirme d'abord catégoriquement que « l'entraînement de modèles d'intelligence artificielle à l'aide de matériel Internet accessible au public constitue un usage loyal ». Puis, dans une section distincte, OpenAI affirme que « la régurgitation » est « un bogue rare que nous nous efforçons de réduire à zéro ».

Mais les tribunaux ont tendance à analyser une telle question de manière globale ; la légalité de la copie initiale dépend des détails de l'utilisation finale des données copiées.

Par exemple, lorsque le deuxième circuit a examiné la légalité de la numérisation de livres par Google, il a examiné de près le fonctionnement du moteur de recherche de livres de Google. La décision a noté que les utilisateurs ne voyaient jamais que de courts extraits et ne pouvaient jamais récupérer de plus longs passages d'un livre protégé par le droit d'auteur.

OpenAI considère les résultats régurgités comme un « rare bogue » - et c'est peut-être le cas. Mais Google a pu dire aux tribunaux que son moteur de recherche ne reproduit jamais plus qu'une petite fraction d'un livre protégé par le droit d'auteur sans autorisation, parce qu'il ne le peut pas.

Conclusion

Les développeurs d'IA générative disposent d'arguments solides pour répondre aux poursuites en matière de droit d'auteur. Ils peuvent mettre en avant la valeur que leurs systèmes d'IA apportent aux utilisateurs, les façons créatives dont l'IA générative s'appuie sur des œuvres existantes et les remixe, ainsi que leurs efforts continus pour réduire la mémorisation.

Mais tous ces bons arguments ont un point commun : ils prennent au sérieux les questions de droit d'auteur. Ces réponses reconnaissent que l'IA générative repose sur une base de données d'apprentissage, dont une grande partie est protégée par le droit d'auteur, et tentent ensuite de montrer que toutes ces copies sont justifiées plutôt que non pertinentes.

Sources : OpenAI, l'IA générative a un problème de plagiat visuel, Timothy Lee et James Grimmelmann

Et vous ?

Quelle est votre opinion sur l’utilisation des articles du New York Times par OpenAI pour entraîner son intelligence artificielle ?

Pensez-vous que le fair use soit un argument valable pour justifier cette pratique ?

Quels sont les risques et les bénéfices potentiels de l’intelligence artificielle pour le journalisme et la société en général ?

Quelles seraient les conséquences d’une victoire du New York Times ou d’OpenAI ?

Comment protéger les droits d’auteur des créateurs de contenu tout en favorisant l’innovation technologique ?

OpenAI aurait transcrit plus d'un million d'heures de vidéos YouTube pour entraîner son modèle d'IA GPT-4

Discussions similaires

Partager

Partager