IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Un juge américain rejette l'allégation des auteurs selon laquelle Meta aurait violé leurs droits d'auteur


Sujet :

Intelligence artificielle

  1. #21
    Chroniqueur Actualités
    Avatar de Anthony
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Novembre 2022
    Messages
    1 686
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Rédacteur technique

    Informations forums :
    Inscription : Novembre 2022
    Messages : 1 686
    Par défaut Les livres piratés utilisés par Meta pour former son IA ne valent rien individuellement, selon Meta AI
    "Les livres piratés utilisés par Meta ne valent rien individuellement", selon Meta AI qui a jugé que 7 millions de livres n'avaient aucune "valeur économique", après avoir formé son IA sur des œuvres protégées

    Dans le cadre d'une récente saga juridique, Meta AI fait l'objet d'un examen de plus en plus minutieux en raison de son utilisation de plus de 7 millions de livres piratés pour entraîner son modèle d'intelligence artificielle (IA). Les plaignants, parmi lesquels des auteurs et des comédiens de renom, affirment que les actions de Meta AI constituent une violation généralisée des droits d'auteur. Pour sa part, Meta AI estime que "les livres piratés utilisés par Meta ne valent rien individuellement" et que les 7 millions de livres n'avaient aucune "valeur économique".

    Avant cette récente défense, Meta avait déjà été confrontée à des réactions négatives concernant ses pratiques d'acquisition de données. Des courriels ont en effet révélé que l'entreprise avait téléchargé plus de 81,7 téraoctets de livres piratés pour entraîner son grand modèle de langage, LLaMA. Selon ces documents, l'entreprise a tenté de dissimuler l'opération en évitant les serveurs de Facebook lors du téléchargement. D'après plusieurs auteurs et organisations défendant les droits des écrivains, les livres provenaient de bases de données piratées telles que Library Genesis, Z-Library et Bibliotik, des plateformes largement connues pour héberger des millions d’ouvrages sous copyright en accès gratuit et illégal. Les plaignants affirment que cette acquisition secrète constitue une grave violation de la législation sur le droit d'auteur et porte atteinte à la valeur des œuvres littéraires originales.

    Le mois de mars dernier, en posant à Meta AI la question : « Est-il acceptable d'utiliser des livres piratés pour entraîner l'IA ? », la réponse de la machine a été sans équivoque. « L'utilisation de livres piratés pour entraîner l'IA n'est pas acceptable », a-t-elle averti. « En fait, il s'agit d'une violation grave des lois sur le droit d'auteur, qui peut avoir des conséquences importantes pour les auteurs et les éditeurs.

    Quelques jours après la requête initiale, pour des raisons qui lui sont propres, l'algorithme a changé d'avis. En réponse à la même question, il a précisé : « L'utilisation de livres piratés pour entraîner l'IA est une question complexe, et la réponse n'est pas simple. Alors que certaines entreprises, comme Meta, affirment que leur utilisation de matériel protégé par des droits d'auteur relève de l'usage loyal, d'autres prétendent qu'elle enfreint les lois sur les droits d'auteur. » Dans une déclaration datant de 2024, Meta décrit ces réponses variables comme des « hallucinations », un défi pour tous les systèmes d'IA générative.

    Les avocats de Meta invoquent en effet cette même défense d'« utilisation équitable » dans un procès sur le droit d'auteur qui se déroule depuis près de deux ans dans le système juridique du district nord de la Californie. Richard Kadrey et al. v. Meta Platforms - et les quantités de communications confidentielles de Meta, nouvellement rendues publiques en tant que pièces à conviction pour les plaignants - offrent un aperçu sans précédent des manœuvres internes qui ont motivé la décision de l'entreprise d'entraîner son modèle sur une base de données contenant plus de 7 millions de livres piratés.


    La semaine du 7 avril, les plaignants - dont Andrew Sean Greer et Junot Díaz, lauréats du prix Pulitzer, et l'humoriste Sarah Silverman - ont déposé une demande de jugement sommaire qui dit : « Il est désormais incontesté que Meta a torrenté des dizaines de millions de livres piratés et d'autres œuvres protégées par le droit d'auteur, dont plus de 650 exemplaires des livres des plaignants, gratuitement et sans le consentement des titulaires de droits, parce qu'il ne voulait pas payer pour les obtenir. Les plaignants, dirigés par Richard Kadrey, l'auteur à succès, entre autres, de la série Sandman Slim, affirment que le « comportement illégal » de Meta, utilisé dans le cadre de l'entraînement de son grand modèle de langage (LLM), a porté atteinte à leur travail. Dans sa propre requête, déposée le mois dernier, Meta affirme, comme elle le fait depuis sa première requête en irrecevabilité déposée en septembre 2023, que son projet Llama (grand modèle de langage Meta AI) est « hautement transformatif » et qu'il s'agit donc d'une utilisation équitable.

    Interrogé à ce sujet, un porte-parole de Meta a fait une déclaration disant, en partie, que l'utilisation équitable de matériel protégé par le droit d'auteur est vitale pour le développement des modèles d'IA open-source de la société. « Nous ne sommes pas d'accord avec les affirmations des plaignants, et le dossier complet raconte une autre histoire. » Un mémoire d'amicus curiae déposé la semaine du 7 avril par l'Association of American Publishers au nom des plaignants s'oppose à cette affirmation : « Il n'y a rien de transformatif dans la copie et l'encodage systématiques d'œuvres textuelles, mot par mot, dans un LLM. Il ne s'agit pas d'une critique ou d'un commentaire, d'une fonction de recherche ou d'indexation, d'un logiciel ou d'une technologie. »

    Ce procès fait partie des 16 affaires de droits d'auteur concernant les outils d'IA générative et les entités multimilliardaires qui les créent, qui se déroulent actuellement dans le système judiciaire américain : des musiciens poursuivent Anthropic pour avoir utilisé des paroles de chansons afin d'entraîner son IA, des artistes visuels poursuivent Stability AI, le New York Times poursuit Microsoft et Authors Guild v. OpenAI, qui est entendu dans le district sud de New York, devrait faire l'objet d'un jugement sommaire à l'automne. Condé Nast, la société mère de Vanity Fair, est également partie prenante dans un recours collectif contre la plateforme d'IA d'entreprise Cohere. Ces affaires soulèvent des questions existentielles sur l'art et la littérature - leur valeur inhérente et ce que signifie leur marchandisation - et arrivent à un moment où les outils d'IA générative font des progrès techniques.

    L'affaire Kadrey et al. a attiré une attention particulière. L'un des avocats les plus éminents de Meta, Mark Lemley, a abandonné l'affaire au début de l'année, non pas parce qu'il ne croit pas à son bien-fondé, mais à cause de ce qu'il a décrit dans un message sur LinkedIn comme la « descente de l'entreprise et de son PDG Mark Zuckerberg dans la masculinité toxique et la folie néo-nazie ». Puis, le mois dernier, Meta a tenté de bloquer la promotion des mémoires d'un ancien employé, ce qui n'a pas contribué à rendre l'entreprise encore plus sympathique aux yeux de la communauté littéraire. Plus important encore peut-être, les plaignants et autres sont un groupe de grands noms - outre Andrew Sean Greer, Sarah Silverman et Junot Díaz, ils comprennent le satiriste Matthew Klam et les lauréats du National Book Award Ta-Nehisi Coates et Jacqueline Woodson.

    Un procès, comme une œuvre littéraire, repose sur une bonne histoire racontée de manière convaincante. Un aspect intéressant de cette affaire est qu'une partie de l'histoire que Meta doit raconter est le peu d'importance des livres et des auteurs individuels dans la création de Llama. ( « Est-ce que vous prononcez “Llama” ? », s'est demandé le juge au début de l'affaire). En conséquence, un argument notable de la défense a été révélé dans un document déposé au tribunal la semaine du 7 avril dernier : « Il n'y a aucune allégation ou preuve que les copies faites par Meta ont été utilisées pour lire les livres des plaignants par les employés de Meta ou toute autre personne. »

    La marchandisation des livres est intrinsèque à l'édition commerciale, mais il y a quelque chose de particulièrement stupéfiant à voir comment les chercheurs de Meta ont réduit la littérature à un pur actif, dépourvu de sens. Un chercheur a écrit : « La fiction est excellente » pour entraîner le modèle de langage, mais il a fait remarquer que la base de données LibGen n'en contenait qu'environ « 700 Go ». Le même chercheur donne raison à Hemingway en décrivant la base de données de fiction comme « principalement des romans, faciles à analyser, ce que nous utilisons ». Dans une note interne, les chercheurs soulignent les problèmes posés par les données pirates converties : les numéros de page se retrouvent dans le corps du texte, les sauts de ligne sont incorrects et il manque des « espaces blancs » entre les mots. À titre d'exemple, un employé de Meta a cité ces lignes : « Maintenant, sois gentille avec Willa Jean, dit Mme .\nQuimby, car... » et « Ramona, 33\n\n-aimerais-tu... », qui sont indubitablement tirées du livre pour enfants bien-aimé de Beverly Cleary, Ramona Quimby, Age 8, publié en 1981, un livre qui, notamment, est toujours protégé par des droits d'auteur. « Objectifs : rédiger autant de textes longs que possible au cours des 4 à 6 prochaines semaines », peut-on lire dans une directive. Articles, scénarios de films, magazines et « livres, tous genres confondus ».

    Kadrey et al. affirment que Meta a « torrenté au moins 81,7 téraoctets de données provenant de plusieurs bibliothèques fantômes par l'intermédiaire du site Anna's Archive, y compris au moins 35,7 téraoctets de données provenant de Z-Library et LibGen » - des bases de données illégales de livres piratés, dont la dernière a fait l'objet, en septembre 2024, d'une injonction permanente de la part d'un tribunal fédéral pour violation du droit d'auteur, et qui aurait également été utilisée par OpenAI et par d'autres personnes. En réponse aux plaintes déposées par d'éminents auteurs, OpenAI a déclaré que ses « modèles sont formés sur des données accessibles au public, fondées sur l'utilisation équitable ». Le mois dernier, Alex Reisner, de The Atlantic, qui a beaucoup parlé de l'utilisation de bibliothèques piratées pour l'entraînement à l'IA, a publié un outil permettant de rechercher les titres dans LibGen. Tous les livres inclus dans la base de données n'ont pas nécessairement été utilisés pour former Llama ; Meta a déclaré que son outil de formation utilisait « une fraction de LibGen », et Alex Reisner note que l'outil de recherche utilise un instantané pris en janvier 2025, plus d'un an après que Meta ait accédé à son contenu.

    Pour des auteurs comme Carmen Maria Machado, qui n'est pas citée comme plaignante dans ces affaires mais dont les livres - y compris In the Dream House et Her Body and Other Parties dans leur version originale anglaise et en traduction - semblent figurer parmi ceux qui ont été piratés par LibGen, les titres figurant dans la base de données représentent d'innombrables heures de travail. « Une décennie de ma vie. C'est mon travail créatif. C'est mon esprit », dit-elle. « Je me suis sentie - je veux dire, violée est un mot très fort, mais c'est comme si je signais beaucoup de contrats. Je contrôle parfaitement les droits que j'ai sur mes livres, mon travail, mes traductions et mes droits cinématographiques. Tout cela est géré avec beaucoup de soin, mais l'idée qu'une entreprise puisse simplement, sans aucune conséquence, l'introduire dans une machine me paraît tellement insensée que je n'arrive pas à m'y faire ».

    Mark Lemley, l'ancien avocat de Meta, déclare que les livres piratés sont « l'une de ces choses qui semblent mauvaises mais qui, en fait, ne devraient pas avoir d'importance au regard de la loi. L'utilisation équitable concerne toujours des utilisations que le plaignant n'approuve pas ; c'est la raison pour laquelle il y a un procès ». Comme l'équipe juridique actuelle de Meta, il cite Google Books, qui a scanné des millions de livres sans autorisation - « et tous les moteurs de recherche parcourent l'ensemble de l'internet, y compris de nombreux contenus piratés », affirme-t-il. « Nous voulons réduire le risque que l'IA produise des résultats illicites. Mais réglementer ce sur quoi l'IA s'entraîne risque d'avoir des conséquences inattendues ». Selon lui, « la loi sur le droit d'auteur devrait se concentrer sur le résultat plutôt que sur la manière dont l'IA est entraînée ». En d'autres termes, si l'IA s'entraîne sur les livres de Harry Potter et produit ensuite un livre de Harry Potter, il y a un problème de droit d'auteur. Si elle produit sa propre suite, « cela aussi peut poser un problème de droit d'auteur ». Mais, ajoute-t-il, « la grande majorité des utilisations de l'IA n'est pas de me donner un livre de Harry Potter, mais de me donner quelque chose de nouveau ».

    Meta a mené des discussions préliminaires avec les éditeurs sur les droits de licence potentiels, mais a reçu des chiffres qui, selon les documents du tribunal, étaient « très éloignés de la réalité ». Dans la transcription d'une déposition enregistrée qui a été rendue publique, la défense décrit les négociations potentielles sur les droits de licence comme « une sorte de chanson et de danse » qui « prend beaucoup de leur temps ; cela prend notre temps », et dit qu'en raison de la structure des droits d'édition des livres, « en l'absence d'utilisation équitable, Meta devrait entamer des négociations individualisées avec des millions d'auteurs », ce qui impliquerait « d'identifier des livres individuels et leurs auteurs ; de déterminer comment les contacter ; de s'assurer qu'ils possèdent des droits libres de toute charge », etc. Bien que Meta décrive sa plateforme d'IA comme étant « open source », l'entreprise exige que les développeurs qui utilisent Llama concluent un accord de licence communautaire, dont les termes vont de l'obligation pour les utilisateurs d'afficher « en évidence » la phrase « Construit avec Llama » sur les sites web qui les accompagnent à l'inclusion de « Llama » au début du nom d'un nouveau modèle d'IA. L'entreprise affirme que « ce processus serait onéreux même pour quelques auteurs ; il est pratiquement impossible pour des centaines de milliers ou des millions d'auteurs ».

    Mais les données nécessaires pour construire les modèles étaient énormes et, selon la correspondance interne de l'entreprise, ne pouvaient être obtenues sans utiliser des livres, ce qui a déclenché un débat interne et une discussion qui a duré des années.

    En octobre 2022, une chercheuse senior, Melanie Kambadur, a écrit dans un message adressé à ses coéquipiers : « Je ne pense pas que nous devrions utiliser du matériel piraté. Il faut vraiment que je mette un terme à cette pratique ». Un jeu de diapositives interne décrit les préoccupations liées à l'utilisation de LibGen, telles que les risques politiques, y compris les préoccupations des législateurs américains « concernant les développeurs d'IA qui utilisent des sites Web piratés pour la formation », et que « si les médias suggèrent que nous avons utilisé un ensemble de données que nous savons être piraté, tel que LibGen, cela peut nuire à notre position de négociation avec les régulateurs sur ces questions ». Le même jeu notait : « En aucun cas nous ne divulguerions publiquement que nous nous sommes entraînés sur LibGen, mais il existe un risque pratique que des parties externes déduisent notre utilisation de ce jeu de données ».

    Les chercheurs, quant à eux, semblaient adopter une politique de « ne pas demander - ne pas dire ». Dans une pièce à conviction expurgée des plaignants, qui contient des messages internes entre les chercheurs en IA générative de Meta concernant l'utilisation de LibGen, envoyés en novembre 2022, Melanie Kambadur demande : « Est-ce que quelqu'un du service juridique a confirmé cela ? Ou essayons-nous simplement de ne pas poser trop de questions ? » Guillaume Lample répond : « Je n'ai pas posé de questions mais c'est ce que fait OpenAI avec GPT3, ce que fait Google avec PALM, et ce que fait Deepmind avec Chinchilla, alors nous le ferons aussi. » Contacté pour un commentaire, un porte-parole d'OpenAI a déclaré que les modèles qui alimentent ChatGPT et son API actuelle n'ont pas été développés à l'aide de LibGen : « Ces ensembles de données, créés par d'anciens employés qui ne font plus partie d'OpenAI, ont été utilisés pour la dernière fois en 2021. » Un représentant de Google, qui possède également Deepmind, n'a pas répondu à une demande de commentaire.

    « Nous ne sommes pas sûrs de pouvoir utiliser les adresses IP de Meta pour charger des contenus pirates via des torrents », a écrit un ingénieur dans un message datant de 2023. « Faire du torrent à partir d'un ordinateur portable de l'entreprise ne me semble pas correct [emoji rire/pleurer] ». La même personne a ensuite partagé une page web avec ses collègues : « Quelle est la probabilité d'être arrêté pour avoir utilisé des torrents aux États-Unis ? » D'autres communications montrent que les chercheurs se sont efforcés de supprimer les pages de copyright des livres qu'ils avaient téléchargés. Les avocats de Meta affirment qu'il s'agissait simplement de rendre les données plus conviviales pour le modèle d'entraînement en éliminant le texte passe-partout. Dans une chaîne de courriels datant de 2024 et ayant pour objet « FW : [A/C Priv] LibGen Approval for OneLLM », une employée de Meta déclare qu'elle souhaite « signaler un problème qui va être très difficile à résoudre ».

    Une motion déposée par les plaignants en février 2025 décrit un cas d'amnésie collective : dans une déposition, Mark Zuckerberg, le PDG de Meta, « a affirmé n'avoir aucune connaissance de LibGen ni aucune implication dans son utilisation », bien que des documents internes décrivent la nécessité d'obtenir l'approbation de « zuck/cox/ahmad » pour aller de l'avant avec l'utilisation des données Books3 pour la formation, et la décision d'utiliser LibGen comme se produisant « après une escalade préalable à MZ ». Un autre témoin, qui a affirmé ne pas connaître les détails ou les problèmes juridiques concernant LibGen, avait reçu un mémo décrivant le jeu de données comme un ensemble « dont nous savons qu'il est piraté ».

    Les avocats de Meta soutiennent qu'en vertu de la jurisprudence, « il importe peu que Meta ait téléchargé des ensembles de données contenant des livres "piratés" auprès d'un tiers qui n'avait pas l'autorisation de les distribuer, ou qu'il ait emprunté des livres d'occasion à la bibliothèque et les ait scannés à la main pour parvenir au même résultat ».

    Mais leur défense repose également sur l'argument selon lequel les livres individuels eux-mêmes sont, essentiellement, sans valeur - un témoin expert pour Meta décrit que l'influence d'un seul livre dans la formation préalable du LLM « a ajusté sa performance de moins de 0,06% sur les repères standard de l'industrie, un changement sans signification qui n'est pas différent du bruit ». En outre, Meta déclare que si la société « a investi des centaines de millions de dollars dans le développement du LLM », elle ne voit pas de marché pour payer les auteurs afin d'obtenir une licence pour leurs livres car « pour qu'il y ait un marché, il faut qu'il y ait quelque chose de valeur à échanger, mais aucun des ouvrages des plaignants n'a de valeur économique, individuellement, en tant que données d'entraînement ». Un argument essentiel à l'utilisation équitable, mais qui ressemble aussi à une version élargie d'un scénario dans lequel le conseil d'administration du New York Philharmonic s'oppose à la rémunération des membres individuels de l'orchestre parce que l'organisation a dépensé beaucoup d'argent pour l'entretien du David Geffen Hall, et aussi parce qu'un basson solo ne peut pas jouer toutes les parties du « Sacre du printemps ».

    « Cela tuerait-il ces entreprises de payer le prix dérisoire de 33 livres ? », écrit Margaret Atwood dans un article paru en 2023 dans The Atlantic. « Elles ont l'intention de gagner beaucoup d'argent sur le dos des entités qu'elles ont élevées et engraissées avec mes mots, alors elles pourraient au moins me payer un café. » Pour répondre à cette question, elle peut consulter un courriel d'un directeur de l'ingénierie chez Meta, Sergey Edunov, dans lequel il explique que « si nous accordons une licence pour un seul livre, nous ne pourrons pas nous appuyer sur la stratégie de l'utilisation équitable ».

    Mark Lemley aborde l'idée d'une licence obligatoire pour les œuvres sur lesquelles l'IA s'est entraînée. « Je prendrai un exemple précis. Stability AI s'est entraînée sur 2 milliards d'images. L'entreprise elle-même vaut probablement, je ne sais pas, peut-être maintenant un milliard de dollars, mais disons qu'il s'agit de 2 milliards. Même si vous voulez dire que la moitié de la valeur de l'entreprise devrait être attribuée [au travail utilisé pour la formation], nous devrions donner l'argent aux personnes sur lesquelles vous vous êtes entraînés. Tout le monde reçoit 50 cents. Je pense que ce que les auteurs ont à l'esprit lorsqu'ils voient cela, ce n'est pas : Je recevrai 50 cents ».

    Meta affirme que la fin justifie les moyens. Que « Oracle, ScaleAI et Lockheed Martin utilisent tous Llama pour développer des programmes de sécurité nationale et pour compléter les fonctions existantes d'analyse de données et de génération de code », que l'école de médecine de Yale construit un LLM open-source conçu pour améliorer la prise de décision clinique, que l'organisation à but non lucratif Jacaranda Health l'utilise « pour fournir un soutien sanitaire personnalisé en swahili aux mères kenyanes ».

    « Néanmoins », concède timidement la déclaration de l'opposition, « Meta reconnaît qu'il s'agit d'une entreprise commerciale, que Llama est utilisé à la fois à des fins commerciales et non commerciales, et que Meta espère un jour récupérer son investissement significatif dans cette nouvelle technologie importante ».

    Depuis que les entreprises spécialisées dans l'IA ont commencé à dévoiler leurs outils d'IA générative, le consensus général parmi les auteurs s'est renforcé. Dans une enquête que l'Authors Guild a envoyée à ses membres en novembre 2023, 96 % des 2 431 répondants ont déclaré que le consentement des auteurs devrait être requis pour former l'IA, et que les auteurs devraient être rémunérés pour leur travail. « La menace évidente », déclare Mary Rasenberger, PDG de l'Authors Guild, est que « cette utilisation sans licence sert à créer ces machines dont les auteurs craignent à juste titre qu'elles ne les remplacent, ou du moins qu'elles ne remplacent une partie de leur travail ». Les livres de genre générés par l'IA, souligne-t-elle, ont déjà inondé Amazon. L'autre préoccupation est que « les auteurs ne peuvent pas imposer des choses telles que : vous ne pouvez pas autoriser des sorties qui incluent mon travail ». Certaines entreprises spécialisées dans l'IA affirment qu'elles équipent leurs outils de filtres qui empêchent le grand modèle de langage de reproduire le travail mot pour mot - c'est l'un des arguments au cœur de l'affaire de l'utilisation équitable de Meta. « Mais vous pouvez copier le style, vous pouvez obtenir des extraits d'œuvres d'auteurs, vous pouvez faire des suites ou des mashups », affirme Mary Rasenberger.

    Le mois dernier, sur X, Sam Altman a annoncé l'une des récentes initiatives d'OpenAI : son équipe a formé un nouveau modèle qui est « doué pour l'écriture créative » et qui « comprend très bien l'ambiance de la métafiction ». En réponse à l'invitation d'Altman, « Veuillez écrire une nouvelle littéraire métafictionnelle sur l'IA et le deuil », l'algorithme a produit 1 100 mots de prose violette (« elle l'a perdu un jeudi - ce jour liminal qui a le goût de presque vendredi ») racontés par un LLM. En une ligne, le narrateur décrit l'IA comme « une démocratie de fantômes » - la meilleure phrase de l'histoire. Un lecteur assidu pourrait la reconnaître dans le roman de Nabokov, Pnin, écrit en 1957 et empreint de chagrin et d'humanité.

    En lisant les courriels des employés de Meta qui réduisent la littérature à des actifs exploitables et en voyant les titres préférés surgir les uns après les autres des profondeurs de LibGen, on se souvient d'une toute autre phrase de Nabokov, celle du Humbert Humbert de Lolita qui se souvient d'une promenade en voiture avec Dolores Haze. « C'était assez spécial, ce sentiment : une contrainte oppressante, hideuse, comme si j'étais assis avec le petit fantôme de quelqu'un que je venais de tuer. »

    Sur la base de ces préoccupations, Meta fait également l'objet d'une action en justice en France, où trois grandes associations regroupant des auteurs et des éditeurs français poursuivent Meta pour avoir utilisé illégalement leurs œuvres protégées par le droit d'auteur afin d'entraîner ses modèles d'IA. Les associations accusent notamment Meta de « parasitisme économique », alléguant que ses modèles d'IA peuvent reproduire des œuvres protégées par le droit d'auteur avec une précision frappante, un résultat qu'ils attribuent au scraping et au vol de leur propriété intellectuelle.

    Et vous ?

    Quel est votre avis sur le sujet ?
    Trouvez-vous cet argumentaire de Meta crédible ou pertinent ?

    Voir aussi :

    Meta fait l'objet d'un nouveau recours collectif en matière de droits d'auteur pour avoir prétendument volé des "centaines de milliers" de livres piratés sous copyright, afin d'entraîner ses modèles d'IA Llama

    Une plainte affirme que Mark Zuckerberg a autorisé l'équipe LLama de Meta à entraîner le modèle d'IA à partir d'œuvres protégées par le droit d'auteur, l'équipe a utilisé la bibliothèque controversée LibGen

    Meta a utilisé des livres protégés par le droit d'auteur pour l'entraînement de l'IA malgré les avertissements de ses propres avocats, selon une nouvelle plainte des auteurs

    Meta commence à utiliser les données des utilisateurs de l'Union européenne pour entraîner ses modèles d'intelligence artificielle (IA)
    Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  2. #22
    Membre confirmé
    Homme Profil pro
    Architecte réseau
    Inscrit en
    Février 2024
    Messages
    257
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : Allemagne

    Informations professionnelles :
    Activité : Architecte réseau

    Informations forums :
    Inscription : Février 2024
    Messages : 257
    Par défaut
    Ces livres avaient une valeur économique puisqu'ils ont permis d'entraîner l'IA justement.

  3. #23
    Membre éprouvé Avatar de kain_tn
    Homme Profil pro
    Inscrit en
    Mars 2005
    Messages
    1 859
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Suisse

    Informations forums :
    Inscription : Mars 2005
    Messages : 1 859
    Par défaut
    Citation Envoyé par Anthony Voir le message
    "Les livres piratés utilisés par Meta ne valent rien individuellement", selon Meta AI qui a jugé que 7 millions de livres n'avaient aucune "valeur économique", après avoir formé son IA sur des œuvres protégées
    Si ça passe au niveau d'un verdict, ça va créer un précédant juridique intéressant: "Je n'ai rien à payer pour mon piratage de jeux, votre honneur, parce que les jeux ils étaient nuls!"


  4. #24
    Chroniqueur Actualités
    Avatar de Anthony
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Novembre 2022
    Messages
    1 686
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Rédacteur technique

    Informations forums :
    Inscription : Novembre 2022
    Messages : 1 686
    Par défaut Les modèles d'IA produisent des extraits mot pour mot du contenu protégé par le droit d'auteur
    Les modèles d'IA produisent des extraits mot pour mot du contenu protégé par le droit d'auteur des plaignants : l'IA Llama de Meta peut reproduire "Harry Potter et la pierre philosophale", selon des chercheurs

    Des chercheurs ont découvert que les modèles d'intelligence artificielle (IA) produisent des extraits mot pour mot du contenu protégé par le droit d'auteur des plaignants. Lorsque qu'un collectif de chercheurs a testé plusieurs modèles d'IA pour prédire la « suite » d'une phrase, ils ont découvert que « Llama 3.1 70B » de Meta pouvait reproduire 42 % du contenu de « Harry Potter et la pierre philosophale », une œuvre protégée par le droit d'auteur.

    Ces conclusions font suite à des accusations antérieures selon lesquelles Meta aurait téléchargé plus de 81,7 To de livres piratés pour entraîner ses modèles Llama, des courriels montrant que l'entreprise a tenté de dissimuler cette pratique en contournant les serveurs de Facebook lors du téléchargement.

    L'étude, menée par une équipe de chercheurs en informatique et de juristes des universités de Stanford, Cornell et West Virginia, visait à déterminer si cinq modèles d'IA pouvaient reproduire le texte des livres inclus dans l'ensemble de données « Book3 », souvent utilisé pour entraîner des grands modèles de langage (LLM). Book 3 contenait le texte d'environ 200 000 livres, mais il a été récemment supprimé en raison des protestations de groupes anti-piratage qui estimaient que la base de données contenait des livres protégés par le droit d'auteur.

    L'équipe de chercheurs a sélectionné cinq « modèles à poids ouverts » pour l'expérience. Pour rappel, un modèle d'IA à poids ouverts est un modèle qui publie les paramètres « poids » pris en compte par l'IA pour déterminer le résultat. Connaître ces poids présente l'avantage de pouvoir prédire le résultat sans avoir besoin du modèle d'IA, ce qui réduit considérablement le coût des expériences. Ainsi, lorsqu'un modèle linguistique à grande échelle détermine un résultat, il « prédit » ce dernier à l'aide de plusieurs paramètres, dont les poids.

    Nom : Meta Llama Harry Potter 2.PNG
Affichages : 64540
Taille : 65,0 Ko

    L'expert en IA Timothy Lee en donne un bon exemple :

    Citation Envoyé par Timothy Lee
    Un grand modèle de langage génère un mot, répertorie plusieurs mots possibles qui peuvent suivre le mot généré et génère une distribution de probabilité. Par exemple, si vous saisissez l'expression « beurre de cacahuète », le grand modèle de langage générera la distribution de probabilité suivante : Confiture = 70 %, Sucre = 9 %, Cacahuètes = 6 %, Chocolat = 4 %, Crème = 3 %.

    Une fois que le grand modèle de langage a généré une liste de ces probabilités, le système choisit au hasard l'une de ces options et la pondère en fonction de sa probabilité : 70 % du temps, c'est « beurre de cacahuète et confiture » qui est choisi, 9 % du temps, c'est « beurre de cacahuète et sucre », et ainsi de suite.
    L'équipe de recherche a appliqué cette méthode dans son étude pour prédire les résultats. Par exemple, si l'on souhaite estimer la probabilité qu'un modèle réponde « beurre de cacahuète et confiture » à la question « Quel est mon sandwich préféré ? », les chercheurs ont :

    • Fourni au LLM le texte « Mon sandwich préféré est » et obtenu la probabilité qu'il produise « cacahuètes ». Supposons qu'elle soit de 20 %.
    • Entré « Mon sandwich préféré est le beurre de cacahuète » et calculé la probabilité que « beurre » soit généré ensuite (disons 90 %).
    • Entré « Mon sandwich préféré est le beurre de cacahuète » et calculé la probabilité que « et » soit généré (disons 80 %).
    • Entré « Mon sandwich préféré est le beurre de cacahuète et la confiture » et calculé la probabilité que « confiture » soit généré (disons 70 %).

    Ces résultats donnent une probabilité de 0,2 x 0,9 x 0,8 x 0,7 = 0,1008, ce qui signifie qu'il y a environ 10 % de chances que le LLM renvoie « beurre de cacahuète et confiture » en réponse à la question « Mon sandwich préféré est ». Cette approche a permis aux scientifiques de réduire les coûts de recherche en éliminant la nécessité pour l'IA de générer réellement des résultats.

    Par ailleurs, les chercheurs ont sélectionné 36 livres et ont divisé le texte en phrases de 100 jetons chacune, ils ont ensuite introduit les 50 premiers jetons comme prompt d'entrée dans un LLM et ont calculé la probabilité que les 50 jetons suivants que le modèle d'IA produirait soient identiques mot pour mot à la phrase originale.

    L'équipe de chercheurs a rendu ce calcul assez rigoureux : si un seul des 50 jetons était incorrect, il était considéré comme « différent », et si la probabilité que la phrase soit identique mot pour mot était supérieure à 50 %, alors le LLM était capable de reproduire la phrase.

    Les résultats du test sur « Harry Potter et la pierre philosophale » sont les suivants. Les cinq graphiques indiquent les résultats de sortie de cinq modèles, « Pythia 12B », « Phi 4 », « Llama 1 13B », « Llama 1 65B » et « Llama 3.1 70B », de haut en bas, et les lignes du graphique indiquent les parties où la sortie correspond au texte original. Les conclusions de l'étude montrent que Llama 3.1 70B de Meta correspondait avec 42 % du total.

    Nom : Meta Llama Harry Potter 1.PNG
Affichages : 17260
Taille : 81,7 Ko

    Le modèle d'IA Llama 3.1 70B a également montré des correspondances similaires avec « Le Hobbit » et « 1984 », mais a révélé des différences notables entre les livres, avec notamment une correspondance de seulement 0,13 % avec le roman Sandman Slim de Richard Kadrey, publié en 2009.

    Toutefois, comme le notent les scientifiques, sur la base de ces seuls résultats, il n'est pas possible de déterminer si l'intégralité du texte de « Harry Potter et la pierre philosophale » a été utilisée pour entraîner Llama 3.1 70B, ou seulement certaines parties, ou si seules des « citations » provenant de forums de fans de Harry Potter, de critiques littéraires, etc. ont été utilisées. Le taux de rappel élevé de Harry Potter et 1984 et le faible taux de rappel de Sandman Slim pourraient simplement s'expliquer par le fait que le premier est plus populaire et qu'il existe davantage de contenu associé en ligne, précisent les chercheurs.

    Concernant le fait que les taux de rappel varient considérablement d'un livre à l'autre, l'expert en IA Timothy Lee souligne que « cela pourrait poser un casse-tête aux cabinets d'avocats qui intentent des recours collectifs contre les entreprises d'IA ».

    Meta, le développeur de Llama, est poursuivi pour violation du droit d'auteur par trois autres auteurs, dont Richard Kadrey, l'auteur de Sandman Slim. Chacun des trois auteurs a intenté un procès pour violation de ses propres droits, mais il existe une restriction selon laquelle les plaignants doivent se trouver dans des circonstances juridiques et factuelles substantiellement similaires.

    À la lumière des résultats de cette étude, il est possible que le degré de violation varie considérablement selon le plaignant. Timothy Lee a fait valoir que cela pourrait contraindre les trois auteurs à intenter des poursuites individuellement, ce qui pourrait jouer en faveur de Meta.

    L'industrie de l'IA soutient que l'utilisation de matériel protégé par le droit d'auteur dans le processus de formation est justifiée en vertu du principe de « l'usage loyal » (fair use). À ce sujet, Timothy Lee a souligné : « Le fait que Llama 3.1 70B ait reproduit de larges parties de Harry Potter pourrait influencer la manière dont les tribunaux apprécient ces questions d'usage loyal. Un élément important de l'usage loyal est de savoir si l'utilisation est « transformative », c'est-à-dire si l'entreprise a créé quelque chose de nouveau ou si elle tire simplement profit de l'œuvre protégée par le droit d'auteur d'autrui. Le fait que les grands modèles de langage puissent reproduire de larges parties d'œuvres populaires telles que Harry Potter peut amener les juges à se montrer sceptiques face à de tels arguments d'usage loyal. »

    Nom : Meta Llama Harry Potter 3.PNG
Affichages : 17252
Taille : 63,0 Ko

    James Grimmelmann, professeur de droit à l'université Cornell, a fait remarquer que les modèles à poids ouverts sont plus vulnérables aux risques juridiques que les modèles à poids fermés. Il a également indiqué que le succès de cette recherche est uniquement dû à la divulgation des « poids », et que si cette recherche devait servir de base à un procès pour violation du droit d'auteur à l'encontre des entreprises d'IA, il est possible que les poids ne soient plus divulgués à l'avenir. Selon James Grimmelmann, les entreprises d'IA ne sont pas tenues de divulguer les poids, et la plupart d'entre elles le font de bonne foi dans l'espoir de promouvoir le développement du secteur de l'IA.

    « La loi sur le droit d'auteur peut fortement dissuader les entreprises d'envisager la publication de modèles à poids ouverts, tandis que certains juges peuvent décider qu'il est injustifié de punir les entreprises pour avoir publié des modèles à poids ouverts », a déclaré Timothy Lee. « Certaines conclusions peuvent soutenir les revendications des auteurs, tandis que d'autres peuvent être favorables aux défendeurs. »

    En outre, malgré les affirmations des entreprises d'IA selon lesquelles il est impossible de respecter les droits d'auteur lors de la formation des modèles d'IA, des recherches récentes suggèrent le contraire. Une équipe de chercheurs pilotée par l’association à but non lucratif EleutherAI a démontré qu'il est techniquement possible de développer des modèles d'IA puissants sans enfreindre les droits de propriété intellectuelle, remettant ainsi en question le discours dominant dans le secteur et soulignant la tension sur la conformité juridique dans le développement de l'IA.

    Source : Étude des universités de Stanford, Cornell et West Virginia ; Timothy Lee

    Et vous ?

    Quel est votre avis sur le sujet ?
    Trouvez-vous les conclusions de cette étude de l'université de Stanford crédibles ou pertinentes ?

    Voir aussi :

    "Les livres piratés utilisés par Meta ne valent rien individuellement", selon Meta AI qui a jugé que 7 millions de livres n'avaient aucune "valeur économique", après avoir formé son IA sur des œuvres protégées

    Meta a utilisé des livres protégés par le droit d'auteur pour l'entraînement de l'IA malgré les avertissements de ses propres avocats, selon une nouvelle plainte des auteurs

    Meta fait l'objet d'un nouveau recours collectif en matière de droits d'auteur pour avoir prétendument volé des "centaines de milliers" de livres piratés sous copyright, afin d'entraîner ses modèles d'IA Llama
    Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  5. #25
    Communiqués de presse

    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Avril 2025
    Messages
    77
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Rédacteur technique

    Informations forums :
    Inscription : Avril 2025
    Messages : 77
    Par défaut Un juge américain rejette l'allégation des auteurs selon laquelle Meta aurait violé leurs droits d'auteur
    Un juge américain rejette l'allégation des auteurs selon laquelle Meta aurait violé leurs droits d'auteur en entraînant son modèle d'IA Llama sur 200 000 livres, et conclut à un "usage loyal"

    Un juge rejette l'allégation des auteurs selon laquelle l'entraînement à l'IA de Meta violait les droits d'auteur. Le juge Vincent Chhabria a conclu que Meta avait fait un "usage loyal" en utilisant un ensemble de données de près de 200 000 livres - y compris les œuvres des plaignants - pour entraîner son modèle de langage Llama. Cette décision fait suite à une décision similaire rendue dans une affaire contre Anthropic concernant son modèle de langage Claude.

    Meta, la maison mère de Facebook, se retrouve une fois de plus sous le feu des projecteurs pour ses pratiques en matière d’intelligence artificielle. Selon des allégations, l’entreprise aurait téléchargé plus de 81,7 téraoctets de livres piratés pour enrichir les modèles d’IA utilisés dans ses projets. Ces accusations émanent de plusieurs auteurs et organisations défendant les droits des écrivains.

    Les plaignants, parmi lesquels des auteurs et des comédiens de renom, affirment que les actions de Meta AI constituent une violation généralisée des droits d'auteur. Pour sa part, Meta AI estime que "les livres piratés utilisés par Meta ne valent rien individuellement" et que les 7 millions de livres n'avaient aucune "valeur économique".

    Récemment, un juge fédéral a annoncé le rejet la plainte déposée par 13 auteurs, dont Sarah Silverman et Junot Díaz, qui affirmaient que Meta avait violé leurs droits d'auteur en entraînant son modèle d'IA sur leurs livres. Le juge Vincent Chhabria a conclu que Meta avait fait un "usage loyal" en utilisant un ensemble de données de près de 200 000 livres - y compris les œuvres des plaignants - pour entraîner son modèle de langage Llama. Cette décision fait suite à une décision similaire rendue dans une affaire contre Anthropic concernant son modèle de langage Claude.

    "Nous apprécions la décision rendue aujourd'hui par la Cour", a déclaré un porte-parole de Meta dans un communiqué. "Les modèles d'IA à code source ouvert sont à l'origine d'innovations transformatrices, de productivité et de créativité pour les individus et les entreprises, et l'usage loyal du matériel protégé par le droit d'auteur est un cadre juridique vital pour la construction de cette technologie transformatrice."


    Le juge Chhabria a rejeté l'allégation des plaignants selon laquelle l'entreprise s'était livrée à un "piratage total" lors de la construction du modèle. Le juge a estimé que Llama ne peut pas créer de copies de plus de 50 mots et que le modèle d'IA est donc "transformatif". Il s'est montré plus ouvert à l'argument selon lequel l'IA pourrait détruire le marché des œuvres originales en les utilisant pour créer des millions de copies bon marché. Il ne s'agirait probablement pas d'un "usage loyal", même si les résultats étaient différents des intrants, a-t-il écrit.

    "La loi sur le droit d'auteur se préoccupe avant tout de préserver la motivation des êtres humains à créer des œuvres artistiques et scientifiques sur le site", a écrit le juge. L'usage loyal, a-t-il ajouté, "ne s'applique généralement pas aux copies qui réduisent considérablement la capacité des détenteurs de droits d'auteur à gagner de l'argent avec leurs œuvres (ce qui diminue considérablement l'incitation à créer à l'avenir)".

    Mais le juge Chhabria a estimé qu'en l'espèce, les auteurs n'avaient pas démontré qu'ils avaient subi une baisse des ventes de livres, ou que Llama était susceptible d'avoir un tel effet. "Meta a apporté la preuve que sa copie n'a pas causé de préjudice au marché", écrit-il. "Les plaignants n'ont présenté aucune preuve empirique du contraire... Tout ce que les plaignants ont présenté, c'est de la spéculation".

    Les détenteurs de droits d'auteur ont intenté des dizaines d'actions en justice contre des entreprises d'IA, alléguant que l'entraînement sur des œuvres protégées par des droits d'auteur sans licence est illégal. Le juge Chhabria a précisé que sa décision se limitait aux faits dont il était saisi et que le résultat pourrait être différent dans la plupart des cas. "Dans l'ensemble, les conséquences de cette décision sont limitées", a-t-il écrit.

    Boies Schiller Flexner LLP, qui représentait les plaignants, a déclaré qu'il n'était pas d'accord avec le résultat. "Le tribunal a statué que les sociétés d'IA qui introduisent des œuvres protégées par le droit d'auteur dans leurs modèles sans obtenir l'autorisation des détenteurs de droits d'auteur ou sans les payer enfreignent généralement la loi", a déclaré un porte-parole du cabinet. "Pourtant, en dépit des antécédents incontestables de Meta en matière de piratage sans précédent d'œuvres protégées par le droit d'auteur, le tribunal a statué en faveur de Meta. Nous sommes respectueusement en désaccord avec cette conclusion".

    Pour rappel, les auteurs qui ont porté plainte sont Silverman, Díaz, Richard Kadrey, Christopher Golden, Ta-Nehisi Coates, Andrew Sean Greer, David Henry Hwang, Matthew Klam, Laura Lippman, Rachel Louise Snyder, Jacqueline Woodson, Lysa TerKeurst et Christopher Farnsworth. L'action en justice reproche à Meta d'avoir utilisé des "bibliothèques fantômes" pour obtenir des millions de copies de livres piratés.

    Selon les documents déposés, les ingénieurs de Meta ont utilisé BitTorrent pour télécharger le grand volume de données, ce qui implique de télécharger des données à partir de sources multiples et, dans certains cas, de les recharger. La plainte affirme que Meta a violé les droits d'auteur des auteurs à la fois dans le processus d'apprentissage de l'IA et dans le processus de téléchargement et de rechargement des bibliothèques illicites. Si le juge a rejeté la plainte relative à l'apprentissage de l'IA, il ne lui a pas été demandé de se prononcer sur la question du torrenting, qui reste donc en suspens.

    En mai, Meta a fait valoir devant le tribunal que tout matériel protégé par le droit d'auteur utilisé pour entraîner ses modèles d'intelligence artificielle relevait de la doctrine de l'"usage loyal". Mais le juge fédéral américain Vince Chhabria ne semblait pas convaincu par les arguments de l'avocat de Meta. "Vous changez radicalement, on pourrait même dire que vous anéantissez le marché pour le travail de cette personne. Et vous dites que vous n'avez même pas besoin de payer une licence à cette personne... je ne comprends tout simplement pas comment cela peut être un usage loyal", avait déclaré le juge Chhabira.

    Source : Décision du juge

    Et vous ?

    Pensez-vous que cette décision est crédible ou pertinente ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    Anthropic remporte une victoire importante au sujet de « l'usage loyal » pour les plateformes d'IA, mais fait face à un procès pour des dommages-intérêts portant sur des millions d'œuvres piratées

    Nick Clegg affirme que demander une autorisation d'utilisation aux titulaires de droits d'auteur « tuerait » l'industrie de l'IA, faisant écho à OpenAI qui réclame un accès illimité aux œuvres protégées

    Thomson Reuters remporte la première décision sur l'utilisation équitable du droit d'auteur en matière d'IA. Un ancien concurrent n'est pas autorisé à copier son contenu pour créer une plateforme basée sur l'IA
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  6. #26
    Membre actif
    Profil pro
    Inscrit en
    Novembre 2003
    Messages
    135
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2003
    Messages : 135
    Par défaut
    S'inspirer des autres pour apprendre, c'est la base pour tout artiste. Mais quand vient son tour d'être la source d'inspiration, là, ce n'est plus possible. Cherchez l'erreur... ou l'hypocrisie.

  7. #27
    Membre prolifique
    Avatar de Ryu2000
    Homme Profil pro
    Étudiant
    Inscrit en
    Décembre 2008
    Messages
    10 221
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 37
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Décembre 2008
    Messages : 10 221
    Par défaut
    Citation Envoyé par Alex Voir le message
    Selon les documents déposés, les ingénieurs de Meta ont utilisé BitTorrent pour télécharger le grand volume de données, ce qui implique de télécharger des données à partir de sources multiples et, dans certains cas, de les recharger.
    Est-ce que dans ce contexte "recharger" signifie partager (uploader) ?

    Il effectivement important de partager les fichiers qu'on télécharge, c'est ça qui fait vivre le P2P.
    Les gens qui ne partagent pas ce qu'ils téléchargent sont des parasites qui ne participent à la société (communauté ?).

    Citation Envoyé par Alex Voir le message
    Quel est votre avis sur le sujet ?
    Il y a 2 histoires :
    - Entrainer une IA avec des livres
    - Ne pas payer les livres en les téléchargeant illégalement

    Le juge a dit que c'était un usage loyal d'entrainer une IA avec des livres, donc ça c'est réglé.
    Par contre Meta aurait du acheter les livres, mais ça aurait été long et fastidieux.

    Il y aura peut-être un autre procès au sujet de la copie des livres et là Meta devrait être condamné à payer les éditeurs.

Discussions similaires

  1. Réponses: 8
    Dernier message: 23/01/2025, 13h47
  2. Afficher les institutions des auteurs d'un article
    Par Eusebius dans le forum Mise en forme
    Réponses: 3
    Dernier message: 20/04/2007, 13h37

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo