Des auteurs intentent un recours collectif contre Salesforce, l'accusant de violer les droits d'auteur en entraînant ses modèles d'IA xGen à partir de livres piratés provenant du jeu de données "The Pile"

Salesforce fait l'objet d'un recours collectif intenté par les romancières Molly Tanzer et Jennifer Gilmore. Ces dernières accusent l'entreprise d'avoir enfreint leurs droits d'auteur et utilisé leurs œuvres, ainsi que celles de milliers d'autres auteurs, pour entraîner ses modèles d'intelligence artificielle (IA) xGen sans leur autorisation. L'action en justice affirme que Salesforce a utilisé le contenu linguistique de copies piratées des livres des autrices issues de l'ensemble de données « The Pile ». Cette affaire s'ajoute à la liste croissante des contestations judiciaires relatives aux pratiques de formation de l'IA des entreprises technologiques et aux droits de propriété intellectuelle.

Cette affaire s’inscrit dans un débat plus large sur l’usage des œuvres protégées par le droit d'auteur pour l’entraînement de l’IA. OpenAI a récemment soutenu que restreindre cet accès mettrait fin à la « course à l’IA » et désavantagerait les États-Unis face à la Chine. L’entreprise a plaidé pour que l’exploitation de contenus soumis au droit d’auteur soit couverte par le principe du « fair use », tandis que les créateurs dénoncent une violation de leurs droits et une menace pour leur subsistance.

Pourtant, certaines initiatives académiques démontrent qu’il est possible de concilier innovation et respect du droit d’auteur. Une équipe de chercheurs rassemblée autour d’EleutherAI a constitué un jeu de données de 8 To composé uniquement de contenus libres ou appartenant au domaine public. À partir de ce corpus, ils ont entraîné Comma v0.1, un modèle de 7 milliards de paramètres aux performances comparables à celles de LLaMA 2-7B de Meta, prouvant qu’une IA performante peut être développée sans recourir à des données piratées.

Dans un geste qui souligne les tensions croissantes entre les industries créatives et les développeurs d'IA, le géant du cloud computing Salesforce Inc. se retrouve dans le collimateur d'un recours collectif intenté par les romancières Molly Tanzer et Jennifer Gilmore.

La plainte, déposée devant le tribunal fédéral de San Francisco, accuse l'entreprise d'avoir enfreint les droits d'auteur en utilisant sans autorisation des milliers de livres pour entraîner ses modèles d'IA xGen. Les auteures affirment que le logiciel de Salesforce a traité le langage provenant de copies piratées de leurs œuvres, notamment « Creatures of Will and Temper » de Molly Tanzer et « The Mothers » de Jennifer Gilmore, dans le cadre d'un ensemble de données plus large qui proviendrait de bibliothèques en ligne non autorisées.

Le procès met en évidence l'aveu de Salesforce dans un document de recherche publié en 2023, selon lequel l'entreprise aurait entraîné son IA à partir d'un ensemble de données appelé « The Pile », qui contiendrait plus de 800 gigaoctets de texte provenant de livres obtenus par le biais de bibliothèques parallèles telles que Bibliotik. Les plaignantes affirment qu'il s'agit là d'une violation délibérée et réclament des dommages-intérêts ainsi qu'une injonction visant à mettre fin à l'utilisation de tels modèles.

Nom : salesforce copyright ia.PNG
Affichages : 6494
Taille : 240,2 Ko

Les implications plus larges pour les pratiques de formation de l'IA

Cette affaire s'inscrit dans une vague de contestations judiciaires similaires à l'encontre d'entreprises technologiques, notamment des poursuites contre OpenAI et Meta Platforms Inc., où les créateurs allèguent une utilisation non autorisée de matériel protégé par le droit d'auteur pour alimenter l'IA générative. Selon un rapport, les auteurs affirment que Salesforce a non seulement utilisé des livres piratés pour la formation, mais a également tenté de dissimuler cette pratique en supprimant les références des divulgations publiques après les premières révélations.

Les spécialistes du secteur soulignent que les modèles xGen de Salesforce, conçus pour le traitement du langage naturel dans des applications d'entreprise telles que la gestion de la relation client, s'appuient sur de vastes ensembles de données pour atteindre des performances élevées. Pourtant, la plainte détaille comment l'entreprise aurait ingéré près de 200 000 livres provenant de sources illicites, soulevant des questions sur l'éthique de l'approvisionnement en données à une époque où l'IA fait partie intégrante des opérations commerciales.

Preuves et aveux sous les projecteurs

Les documents judiciaires citent des communications internes de Salesforce, notamment un message GitHub d'un employé reconnaissant l'utilisation de l'ensemble de données The Pile, connu pour contenir des œuvres protégées par le droit d'auteur sans licence. Les plaignants, représentés par d'éminents avocats spécialisés dans la propriété intellectuelle, ont pour objectif de représenter un groupe pouvant compter plusieurs milliers d'auteurs dont les livres ont été exploités de la même manière.

Le procès exige non seulement une compensation financière, mais aussi la destruction de tous les modèles d'IA entraînés à partir de données contrefaites. Les détails de la plainte soulignent l'ampleur de la contrefaçon présumée impliquant des outils d'IA basés sur le cloud qui alimentent la plateforme Einstein de Salesforce.

Parallèles avec les batailles juridiques en cours sur les droits d'auteur liés à l'IA

Ce litige fait écho à des débats plus larges au sein du secteur, tels que le procès intenté par le New York Times contre Microsoft et OpenAI concernant l'utilisation d'articles de presse. Selon les experts juridiques, si elle aboutit, l'affaire Tanzer-Gilmore pourrait contraindre les entreprises spécialisées dans l'IA à adopter des modèles de licence transparents ou à faire face à des responsabilités croissantes.

Pour Salesforce, leader des logiciels CRM avec une capitalisation boursière dépassant les 250 milliards de dollars, ce procès représente un risque pour sa réputation alors qu'il se lance dans l'analyse basée sur l'IA. Les publications en ligne des observateurs reflètent le sentiment des créateurs, avec des utilisateurs comme Ed Newton-Rex soulignant la vague « inspirante » de tels procès comme preuve de la résistance contre la formation incontrôlée de l'IA.

Conséquences potentielles et changements dans le secteur

Les analystes prévoient que le règlement de cette affaire pourrait prendre des années et être porté devant la Cour suprême si elle repose sur les doctrines d'utilisation équitable prévues par la loi américaine sur le droit d'auteur. La plainte fait référence aux propres documents de recherche de Salesforce, qui ont initialement divulgué l'ensemble de données, mais qui ont ensuite été modifiés.

Dans le même temps, les auteurs et les éditeurs se montrent de plus en plus vigilants, des organisations telles que l'Authors Guild soutenant des actions similaires. Ce litige pourrait accélérer les appels en faveur d'une réglementation fédérale sur les pratiques en matière de données d'IA, obligeant les entreprises à négocier des redevances ou à demander des autorisations explicites pour les supports de formation.

Perspectives d'avenir : trouver l'équilibre entre innovation et droits

Alors que l'IA s'impose dans tous les secteurs, de la finance à la santé, des affaires comme celle-ci testent les limites entre innovation et protection de la propriété intellectuelle. La réponse de Salesforce sera suivie de près, car elle pourrait influencer la manière dont les entreprises intègrent l'IA tout en respectant les droits des créateurs.

Avec des dommages-intérêts pouvant se chiffrer en millions, l'issue de cette affaire pourrait également redéfinir l'éthique des données dans le domaine technologique, en veillant à ce que la course à la construction de machines plus intelligentes ne bafoue pas les fondements de la créativité humaine.

Alors que Salesforce fait l'objet d'une surveillance accrue concernant l'utilisation d'œuvres protégées par le droit d'auteur pour former ses modèles d'IA, l'ensemble du secteur technologique est confronté aux préoccupations liées à l'impact de l'IA sur l'emploi. Invité de l'émission The Logan Bartlett Show, Marc Benioff, le PDG de Salesforce, a déclaré que l'IA a déjà remplacé 4 000 emplois, faisant référence à la décision de l'entreprise de réduire son personnel d'assistance de près de moitié. « Je suis passé de 9 000 à environ 5 000 employés, car j'ai besoin de moins de personnel », a-t-il déclaré. Le PDG a par ailleurs qualifié les huit derniers mois de « plus passionnants » de sa carrière, alors même que l'entreprise a supprimé des milliers d'emplois.

Source : Plainte déposée devant la cour fédérale de San Francisco

Et vous ?

Quel est votre avis sur le sujet ?
Trouvez-vous l'initiative de ces auteures justifiée et pertinente ?

Voir aussi :

Salesforce n'embauchera plus d'ingénieurs pour 2025 après avoir investi dans des outils de codage IA qui ont permis d'augmenter la productivité de 30 %, a affirmé son PDG Marc Benioff

Des milliers d'auteurs s'opposent à l'exploitation de leur travail sans permission ni rémunération par l'IA générative, certains ont déjà intenté des actions en justice contre OpenAI

L'industrie de l'IA au bord du précipice ? La plus grande action collective en matière de droits d'auteur contre Anthropic pourrait ruiner l'industrie de l'IA, selon les associations professionnelles

Apple et d'autres ont formé leurs modèles d'IA sur un ensemble de données compilé à partir des transcriptions de 173 536 vidéos réparties sur plus de 48 000 chaînes YouTube, sans le consentement des créateurs