OpenAI aurait transcrit plus d'un million d'heures de vidéos YouTube pour entraîner son modèle d'IA GPT-4

**Stéphane le calme** · 28/02/2024, 11h24

OpenAI affirme que le New York Times a « piraté » ChatGPT pour générer des preuves trompeuses et intenter un procès sur les droits d'auteur,
une activité qui équivaut à des « attaques fabriquées » par un « tueur à gages » selon OpenAI

Dans une requête déposée lundi, OpenAI affirme que le New York Times a utilisé des méthodes de hacking pour générer des preuves trompeuses dans le cadre de son procès en contrefaçon de droits d’auteur. Selon OpenAI, un tiers engagé par le Times a effectué des dizaines de milliers de tentatives pour obtenir des résultats hautement anormaux à partir de ChatGPT et d’autres systèmes d’intelligence artificielle. Le journal aurait utilisé des instructions trompeuses qui enfreignent clairement les conditions d’utilisation d’OpenAI pour inciter la technologie à reproduire son contenu.

OpenAI a accusé le New York Times d'avoir payé quelqu'un pour "pirater" ChatGPT afin de générer des paragraphes textuels à partir d'articles de son journal. Par piratage, l'entreprise entend sans doute : se connecter comme d'habitude et lui poser des questions visant à piéger le chatbot IA.

En décembre, le NYT a intenté un procès à OpenAI et à son bailleur de fonds Microsoft, les accusant de s'être emparés sans autorisation du site web du journal pour entraîner de grands modèles de langage. L'action en justice comprenait ce qui était censé être la preuve que ChatGPT reproduisait des passages entiers d'articles du New York Times à la suite d'invites envoyées par les utilisateurs.

La plainte du New York Times citait plusieurs exemples où les chatbots d’OpenAI et de Microsoft donnaient aux utilisateurs des extraits quasi textuels de ses articles lorsqu’ils étaient sollicités. Elle accusait OpenAI et Microsoft de vouloir « profiter gratuitement de l’énorme investissement du Times dans le journalisme » et de créer un substitut au journal.

L'éditeur estime que les utilisateurs de la technologie d'OpenAI - que Microsoft applique à l'ensemble de son empire logiciel et cloud - pourraient effectivement contourner le paywall du journal et lire des articles gratuitement en demandant au chatbot de générer des morceaux de texte qu'il a couvert, privant ainsi l'entreprise de l'argent de ses abonnements.

Nom : un.png
Affichages : 4729
Taille : 476,5 Ko

Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge.

Mais OpenAI n'est pas d'accord et demande au tribunal de rejeter l'affaire

OpenAI a toutefois riposté cette semaine à ces allégations en demandant au tribunal de rejeter l'affaire. La startup a estimé que les preuves fournies par le journal « semblent avoir été des efforts prolongés et étendus pour pirater les modèles d'OpenAI », et a nié que ChatGPT puisse détourner les gens des paywall, ajoutant que les gens n'utilisent pas le chatbot pour lire des articles publiés de toute façon.

OpenAI a allégué que « 100 exemples dans lesquels une version du modèle GPT-4 d'OpenAI a soi-disant généré plusieurs paragraphes du contenu du Times en réponse à des invites de l'utilisateur » ne reflètent pas la façon dont les gens normaux utilisent ChatGPT.

Au contraire, il aurait fallu au Times « des dizaines de milliers de tentatives pour générer » ces supposés « résultats hautement anormaux » en « ciblant et en exploitant un bogue » qu'OpenAI affirme s'être maintenant « engagée à corriger ».

Selon OpenAI, cette activité équivaut à des « attaques fabriquées » par un « tueur à gages », qui aurait piraté les modèles OpenAI jusqu'à ce qu'ils hallucinent du faux contenu du NYT ou régurgitent des données d'entraînement pour reproduire les articles du NYT. Le NYT aurait payé pour ces « attaques » afin de recueillir des preuves à l'appui des affirmations du Times selon lesquelles les produits d'OpenAI mettent en péril son journalisme en régurgitant prétendument des reportages et en volant l'audience du Times.

OpenAI n’a pas nommé la personne qu’elle qualifie de « tueur à gages » et n’a pas accusé le journal d’enfreindre les lois anti-piratage.

Dans une précédente tentative de décrédibiliser le New York Times, OpenAI avait indiqué :

Envoyé par OpenAI

Nos discussions avec le New York Times semblaient progresser de manière constructive jusqu'à notre dernière communication du 19 décembre. Les négociations portaient sur un partenariat de grande valeur autour de l'affichage en temps réel avec attribution dans ChatGPT, dans lequel le New York Times gagnerait un nouveau moyen de se connecter avec ses lecteurs existants et nouveaux, et nos utilisateurs auraient accès à leurs reportages. Nous avions expliqué au New York Times que, comme toute source unique, son contenu ne contribuait pas de manière significative à la formation de nos modèles existants et n'aurait pas non plus suffisamment d'impact pour les formations futures. Le procès qu'ils ont intenté le 27 décembre - dont nous avons pris connaissance en lisant le New York Times - nous a surpris et déçus.

En cours de route, ils ont mentionné avoir constaté une certaine régurgitation de leur contenu, mais ils ont refusé à plusieurs reprises de partager des exemples, malgré notre engagement à enquêter et à résoudre les problèmes. Nous avons montré à quel point nous prenons cette question au sérieux, comme en juillet, lorsque nous avons supprimé une fonction de ChatGPT immédiatement après avoir appris qu'elle pouvait reproduire du contenu en temps réel de manière involontaire.

Il est intéressant de noter que les régurgitations provoquées par le New York Times semblent provenir d’articles vieux de plusieurs années qui ont proliféré sur plusieurs sites Web tiers. Il semble qu’ils aient intentionnellement manipulé les invites, comprenant souvent de longs extraits d’articles, afin de faire régurgiter notre modèle. Même lorsqu’ils utilisent de telles invites, nos modèles ne se comportent généralement pas comme le laisse entendre le New York Times, ce qui suggère qu’ils ont soit demandé au modèle de régurgiter, soit sélectionné leurs exemples parmi de nombreuses tentatives.

« Contrairement aux allégations de la plainte, ChatGPT n'est en aucun cas un substitut à un abonnement au New York Times », a déclaré OpenAI dans une requête visant à rejeter la majorité des demandes du Times. « Dans le monde réel, les gens n'utilisent pas ChatGPT ou tout autre produit d'OpenAI à cette fin. Ils ne le pourraient pas non plus. Dans le cours normal des choses, on ne peut pas utiliser ChatGPT pour servir des articles du Times à volonté ».

Dans sa plainte, OpenAI a décrit le Times comme ayant rendu compte avec enthousiasme de ses développements en matière de chatbot pendant des années, sans soulever la moindre inquiétude quant à la violation des droits d'auteur. OpenAI affirme avoir révélé que les articles du Times étaient utilisés pour entraîner ses modèles d'IA en 2020, mais que le Times ne s'en est préoccupé qu'après l'explosion de la popularité de ChatGPT après ses débuts en 2022.

Selon OpenAI, « ce n'est qu'après cette adoption rapide, ainsi que des rapports sur la valeur débloquée par ces nouvelles technologies », que le Times a prétendu qu'OpenAI avait « violé ses droits d'auteur » et a pris contact avec lui pour demander des « conditions commerciales ». Après des mois de discussions, le Times a intenté une action en justice deux jours après Noël, réclamant des « milliards de dollars ».

Nom : nyt.png
Affichages : 1323
Taille : 263,9 Ko

Des arguments sans fondements, pour les avocats du New York Times

Ian Crosby, associé de Susman Godfrey et avocat principal du New York Times, a déclaré que « ce qu'OpenAI qualifie bizarrement à tort de "piratage" consiste simplement à utiliser les produits d'OpenAI pour chercher des preuves qu'ils ont volé et reproduit les œuvres protégées par le droit d'auteur du Times. Et c'est exactement ce que nous avons trouvé. En fait, l'ampleur de la copie d'OpenAI est bien plus importante que la centaine d'exemples présentés dans la plainte ».

Crosby a déclaré que le dépôt d'OpenAI, notamment, « ne conteste pas - ni ne peut contester - le fait qu'ils ont copié des millions d'œuvres du Times pour construire et alimenter leurs produits commerciaux sans notre permission ». « Construire de nouveaux produits n'est pas une excuse pour violer la loi sur le droit d'auteur, et c'est exactement ce qu'OpenAI a fait à une échelle sans précédent », a déclaré Crosby.

OpenAI a fait valoir que le tribunal devrait « rejeter les plaintes relatives au droit d'auteur direct, à la contrefaçon contributive, aux violations du Digital Millennium Copyright Act et à l'appropriation illicite, qu'elle qualifie toutes d'"infirmes d'un point de vue juridique ». Certaines échouent parce qu'elles sont prescrites - la demande de dommages-intérêts sur les données de formation pour les anciens modèles d'OpenAI - a affirmé OpenAI. D'autres échouent parce qu'elles ne comprennent pas l'utilisation équitable ou parce que les lois fédérales l'emportent sur elles.

Si la requête d'OpenAI est acceptée, il ne restera probablement que les plaintes pour violation du droit d'auteur par personne interposée et pour dilution de marque.

Mais si le Times gagne - et c'est possible - OpenAI pourrait être obligée d'effacer ChatGPT et de repartir à zéro.

« OpenAI, qui a fait preuve de discrétion et a délibérément caché le fonctionnement de ses produits, affirme aujourd'hui qu'il est trop tard pour déposer une plainte pour infraction ou pour lui demander des comptes. Nous ne sommes pas d'accord », a déclaré Crosby. « Il est intéressant de noter qu'OpenAI ne conteste pas le fait qu'elle a copié les œuvres de Times sans autorisation dans le délai de prescription pour former ses modèles les plus récents et les plus actuels ».

Conclusion

Le Times fait partie des propriétaires de droits d’auteur qui ont intenté des poursuites contre des entreprises technologiques pour l’utilisation présumée abusive de leurs œuvres dans l’entraînement de l’intelligence artificielle. Les entreprises technologiques ont affirmé que leurs systèmes d’IA font un usage équitable du matériel protégé par le droit d’auteur et que les poursuites menacent la croissance de cette industrie potentiellement multitrillionnaire. Les tribunaux n’ont pas encore tranché la question clé de savoir si l’entraînement de l’IA constitue un usage équitable en vertu du droit d’auteur. Jusqu’à présent, les juges ont rejeté certaines accusations de violation du droit d’auteur concernant les résultats des systèmes d’IA génératifs, faute de preuves que le contenu créé par l’IA ressemble à des œuvres protégées par le droit d’auteur.

Source : OpenAI

Et vous ?

Pensez-vous que l’utilisation de modèles d’IA comme ChatGPT pour générer du contenu à partir d’articles protégés par le droit d’auteur constitue une violation des droits d’auteur ?

Devrions-nous revoir les lois sur les droits d’auteur pour tenir compte de l’entraînement de l’IA ?

Quelle est votre opinion sur la notion d’« usage équitable » en matière de droits d’auteur ? Devrait-elle s’appliquer différemment aux systèmes d’IA ?

Comment pouvons-nous équilibrer les droits des créateurs avec l’innovation technologique ?

Les entreprises technologiques devraient-elles être plus responsables de l’utilisation de leurs modèles d’IA par des tiers ?

Comment pouvons-nous encourager une utilisation éthique et responsable de l’IA ?

Devrions-nous exiger davantage de transparence de la part des entreprises qui développent des modèles d’IA ?

Comment pouvons-nous garantir que les utilisateurs comprennent les limites et les implications de ces technologies ?

**irrmichael** · 28/02/2024, 22h54

c'est un peu gros non?

**Matthieu Vergne** · 29/02/2024, 02h24

Plus c'est gros, plus ça passe. C'est un principe de base. {^_^}

**Mathis Lucas** · 29/02/2024, 12h57

The Intercept, Raw Story et AlterNet poursuivent OpenAI et Microsoft en justice pour violation du droit d'auteur
ils exigent des dommages-intérêts et le retrait de leurs contenus des modèles d'IA

Microsoft et OpenAI sont à nouveau poursuivis pour avoir prétendument récupéré et reproduit des articles de presse. The Intercept et Raw Story et AlterNet ont déposé des plaintes distinctes dans le district sud de New York. Ils allèguent une violation de leurs droits d'auteur, notamment la suppression de l'auteur, du titre et d'autres informations relatives aux droits d'auteur lors de l'entraînement des modèles d'IA. Ils demandent des dommages-intérêts et le retrait de leurs contenus des modèles d'IA. Les plaintes de The Intercept et de Raw Story et AlterNet font suite à l'action en justice intentée contre OpenAI par le New York Times à la fin de l'année dernière.

ChatGPT, comme tous les modèles d'IA concurrents, a été entraîné à partir d'énormes quantités de textes récupérés sur Internet, y compris de nombreux articles journalistiques. Les éditeurs de presse ne sont toutefois pas satisfaits qu'OpenAI ait utilisé leurs articles pour entraîner ses modèles sans autorisation ni compensation. Une étude publiée par les chercheurs en IA de ByteDance l'année dernière a révélé qu'OpenAI tente de mettre en place un mécanisme pour éviter que ChatGPT révèle qu’il a été entraîné sur des livres protégés par le droit d’auteur. Mais OpenAI peine à y arriver et doit faire à de nombreux procès.

Mercredi, The Intercept, Raw Story et AlterNet ont déposé des plaintes distinctes devant le tribunal fédéral de Manhattan. Les plaintes allèguent que les produits d'IA générative développés par OpenAI violent les lois sur les droits d'auteur. Ils affirment que Microsoft et OpenAI ont en fait plagié des articles protégés par le droit d'auteur pour développer et exploiter ChatGPT. Selon ces trois médias numériques, ChatGPT a été formé pour ne pas respecter les droits d'auteur, ignore les attributions appropriées et n'avertit pas les utilisateurs lorsque ses réponses sont générées à partir de travaux protégés de journalistes.

Nom : 42155.png
Affichages : 5334
Taille : 193,6 Ko

Dans un communiqué, Raw Story et John Byrne, PDG d'AlterNet, ont déclaré : « Raw Story estime que les organisations d'information doivent s'opposer à OpenAI, qui viole le Digital Millennium Copyright Act et profite du travail acharné des journalistes dont les emplois sont menacés. Il est important pour la démocratie qu'un large éventail de sites d'information continue de prospérer. Les violations d'OpenAI, si elles ne sont pas contrôlées, décimeront encore plus l'industrie de l'information, et avec elle, les journalistes critiques qui influencent les changements positifs ». Ces deux médias ne s'attaquent qu'à OpenAI.

En effet, la plainte déposée par The Intercept cite à la fois OpenAI et son principal investisseur, Microsoft, comme défendeurs, tandis que la plainte conjointe déposée par Raw Story et AlterNet ne cite qu'OpenAI. Les plaintes sont par ailleurs presque identiques, et le cabinet d'avocats Loevy & Loevy représente les trois médias dans les procès. Selon les déclarations de Byrne, le procès intenté par Raw Story et AlterNet n'inclut pas Microsoft en raison d'un partenariat avec le portail Web MSN qui contribue à financer leurs reportages d'investigation. OpenAI et Microsoft n'ont pas répondu aux demandes de commentaires.

« Les défendeurs avaient le choix : ils pouvaient former ChatGPT en utilisant des œuvres journalistiques avec les informations de gestion du droit d'auteur protégées par le DMCA intactes, ou ils pouvaient les supprimer. Les défendeurs ont choisi cette dernière solution et, ce faisant, ont formé ChatGPT à ne pas reconnaître ou respecter le droit d'auteur, à ne pas avertir les utilisateurs lorsque les réponses qu'ils recevaient étaient protégées par les droits d'auteur des journalistes, et à ne pas fournir d'attribution lorsqu'ils utilisaient les œuvres de journalistes humains », indique la plainte déposée par Raw Story et AlterNet.

Les avocats représentant The Intercept, Raw Story et AlterNet ont déclaré qu'ils ignorent précisément quel texte OpenAI et Microsoft utilisent pour entraîner leurs modèles d'IA. Mais ils ont indiqué trois ensembles de données (WebText, WebText2 et Common Crawl) qui, selon eux, comprennent le contenu des plaignants. Ils estiment que des articles des trois éditeurs ont été grattés et soutiennent que ChatGPT génère un contenu qui imite d'énormes quantités de documents journalistiques protégés par le droit d'auteur au moins une partie du temps. D'autres médias ont également avancé les mêmes arguments.

« Sur la base des informations publiques décrites ci-dessus, des milliers d'œuvres protégées par le droit d'auteur des plaignants ont été incluses dans les jeux de formation des défendeurs sans les informations relatives à l'auteur, au titre et au droit d'auteur que les plaignants ont communiquées en les publiant », peut-on lire dans les documents judiciaires de l'équipe juridique de The Intercept. Les deux plaignants demandent des dommages-intérêts et une injonction obligeant les développeurs de chatbots à supprimer toutes les copies de leurs œuvres protégées par le droit d'auteur. Ils réclament un procès avec jury.

Les plaintes déposées mercredi sont les dernières d'une série d'actions en justice contre OpenAI pour violation présumée des droits d'auteur. La liste comprend notamment une plainte déposée en décembre par New York Times qui exige qu'OpenAI détruise tous les chatbots ou les données de formation qui utilisaient le matériel protégé de l'organe de presse. Cette semaine, les avocats d'OpenAI ont déposé une requête visant à rejeter certaines parties de cette action en justice et ont fait valoir que ses services ne constituaient pas une véritable concurrence pour le journal. Le média n'est toutefois pas du même avis.

Cette vague d'actions en justice reflète l'inquiétude de l'ensemble du secteur des médias, qui craint que l'IA générative ne concurrence les éditeurs établis en tant que source d'information pour les internautes, tout en réduisant les recettes publicitaires et en compromettant la qualité de l'information en ligne. L'IA générative a déjà inondé Internet d'informations peu fiables et des sites de piètre qualité qui imitent les organes d'information, et des publications telles que Sports Illustrated ont utilisé de faux auteurs générés par l'IA à la place de journalistes humains. Le paysage de l'information est confronté à de gros risques.

Par ailleurs, d'autres secteurs comme le cinéma sont aussi concernés. Dans une affaire californienne, la comédienne Sarah Silverman et plusieurs auteurs ont allégué de la même manière qu'OpenAI avait intentionnellement supprimé les informations relatives au droit d'auteur de leurs œuvres écrites lors de l'entraînement de ses modèles. Un juge a finalement rejeté ce chef d'accusation, déclarant que les plaignants n'avaient pas intentionnellement supprimé les données. (Toutefois, le cœur du procès, à savoir l'allégation selon laquelle OpenAI a violé les droits d'auteur des plaignants, est toujours d'actualité).

OpenAI et Microsoft ne sont pas les seuls à faire l'objet de litiges en matière de droits d'auteur dans ce domaine. Getty Images poursuit Stability AI pour avoir prétendument entraîné des modèles en utilisant ses images protégées, et Universal Music Group poursuit Anthropic, affirmant qu'il distribue et recrée des paroles de chansons sans attribution.

Sources : plainte de Raw Story et AlterNet (PDF), plainte de The Intercept (PDF)

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des allégations portées contre OpenAI par The Intercept, Raw Story et AlterNet ?

Ces actions en justice ont-elles une chance d'aboutir ? Que pensez-vous des revendications des plaignants ?

Voir aussi

OpenAI affirme que le New York Times a « piraté » ChatGPT pour générer des preuves trompeuses et intenter un procès sur les droits d'auteur, une activité qui équivaut à des « attaques fabriquées »

OpenAI et Meta accusés d'avoir utilisé les œuvres de Sarah Silverman et de deux auteurs sans leur consentement, comme données d'entraînements de leurs IA. Les plaintes de ce type se multiplient

OpenAI tente désormais de cacher que ChatGPT a été formé sur des livres protégés par le droit d'auteur, comme la série Harry Poter de J.K Rowling, selon une étude

**Stéphane le calme** · 06/03/2024, 12h36

Microsoft accuse le New York Times de propager une « futurologie apocalyptique » dans le cadre du procès OpenAI,
et demande de rejeter des éléments clés du procès intenté pour violation du droit d'auteur

Microsoft a déposé une requête visant à rejeter des éléments clés d’une plainte déposée par le New York Times contre l’entreprise et OpenAI, les accusant de violation du droit d’auteur. Pour rappel, le Times a poursuivi les deux sociétés pour avoir utilisé ses articles publiés pour former leurs modèles de langage GPT (large language models, LLM) sans autorisation ni compensation. Dans sa requête, Microsoft accuse le Times de propager une « futurologie apocalyptique » en affirmant que les technologies d’intelligence artificielle (IA) représentent une menace pour le journalisme indépendant. Cette démarche fait suite au dépôt d’OpenAI fin février, qui cherchait également à rejeter certains éléments clés de l’affaire.

Microsoft a déposé lundi une requête auprès d'un tribunal fédéral visant à rejeter certaines parties d'un procès intenté par la New York Times Company.

Le 27 décembre, le Times a intenté un procès à Microsoft et à son partenaire OpenAI, accusant les deux sociétés de violer ses droits d'auteur en utilisant ses articles pour former des technologies d'intelligence artificielle telles que le chatbot IA ChatGPT. Les chatbots concurrencent l'organe d'information en tant que source d'information fiable, selon la plainte.

La plainte du New York Times citait plusieurs exemples où les chatbots d’OpenAI et de Microsoft donnaient aux utilisateurs des extraits quasi textuels de ses articles lorsqu’ils étaient sollicités. Elle accusait OpenAI et Microsoft de vouloir « profiter gratuitement de l’énorme investissement du Times dans le journalisme » et de créer un substitut au journal.

L'éditeur estime que les utilisateurs de la technologie d'OpenAI - que Microsoft applique à l'ensemble de son empire logiciel et cloud - pourraient effectivement contourner le paywall du journal et lire des articles gratuitement en demandant au chatbot de générer des morceaux de texte qu'il a couvert, privant ainsi l'entreprise de l'argent de ses abonnements.

Dans sa requête, déposée auprès du tribunal de district des États-Unis pour le district sud de New York, Microsoft a fait valoir que les grands modèles de langage, ou L.L.M. - les technologies qui alimentent les chatbots - ne supplantaient pas le marché des articles d'actualité et des autres documents sur lesquels ils ont été formés.

Nom : nyt.png
Affichages : 4618
Taille : 262,3 Ko

La requête de Microsoft était similaire à celle déposée par OpenAI la semaine dernière

Dans une motion demandant le rejet de l'affaire, OpenAI a estimé que les preuves fournies par le journal « semblent avoir été des efforts prolongés et étendus pour pirater les modèles d'OpenAI », et a nié que ChatGPT puisse détourner les gens des paywall, ajoutant que les gens n'utilisent pas le chatbot pour lire des articles publiés de toute façon.

OpenAI a allégué que « 100 exemples dans lesquels une version du modèle GPT-4 d'OpenAI a soi-disant généré plusieurs paragraphes du contenu du Times en réponse à des invites de l'utilisateur » ne reflètent pas la façon dont les gens normaux utilisent ChatGPT.

Au contraire, il aurait fallu au Times « des dizaines de milliers de tentatives pour générer » ces supposés « résultats hautement anormaux » en « ciblant et en exploitant un bogue » qu'OpenAI affirme s'être maintenant « engagée à corriger ».

Selon OpenAI, cette activité équivaut à des « attaques fabriquées » par un « tueur à gages », qui aurait piraté les modèles OpenAI jusqu'à ce qu'ils hallucinent du faux contenu du NYT ou régurgitent des données d'entraînement pour reproduire les articles du NYT. Le NYT aurait payé pour ces « attaques » afin de recueillir des preuves à l'appui des affirmations du Times selon lesquelles les produits d'OpenAI mettent en péril son journalisme en régurgitant prétendument des reportages et en volant l'audience du Times.

OpenAI n’a pas nommé la personne qu’elle qualifie de « tueur à gages » et n’a pas accusé le journal d’enfreindre les lois anti-piratage.

Tout comme OpenAI avant elle, Microsoft accuse le Times d’avoir créé des « instructions irréalistes » pour inciter les outils basés sur GPT à générer des réponses correspondant à son contenu.

L’entreprise compare également la plainte du Times aux efforts des studios hollywoodiens pour « stopper une nouvelle technologie révolutionnaire » : le magnétoscope (VCR). Plus précisément, Microsoft a comparé les L.L.M. aux enregistreurs à vidéocassette, arguant que les deux sont autorisés par la loi. « Malgré les affirmations du Times, la loi sur le droit d'auteur n'est pas plus un obstacle pour le L.L.M. qu'elle ne l'était pour le magnétoscope (ou le piano mécanique, la photocopieuse, l'ordinateur personnel, l'internet ou le moteur de recherche) », peut-on lire dans la motion.

À la fin des années 1970, les studios de cinéma ont poursuivi Sony pour son magnétoscope Betamax, arguant qu'il permettrait aux gens de copier illégalement des films et des émissions de télévision. Mais les tribunaux ont finalement estimé que la réalisation de ces copies à des fins de visionnage personnel constituait un usage loyal au regard de la loi.

En effet, au lieu de nuire à Hollywood, le VCR a contribué à l’essor de l’industrie du divertissement en ouvrant de nouvelles sources de revenus. Le fabricant de Windows estime alors que les LLM constituent une avancée majeure en matière d’intelligence artificielle, et Microsoft a collaboré avec OpenAI pour « mettre leur extraordinaire puissance à la portée du public », car elle « croit fermement en leur capacité à améliorer la vie et le travail des gens ».

Microsoft a déclaré que trois parties du procès devraient être rejetées en partie parce que le Times n'a pas démontré de préjudice réel

L’entreprise demande au tribunal de rejeter trois chefs d’accusation, dont celui affirmant qu’elle est responsable de la violation du droit d’auteur par les utilisateurs finaux via l’utilisation d’outils basés sur GPT, ainsi que celui alléguant une violation du Digital Millennium Copyright Act. Microsoft souhaite également que le tribunal rejette l’élément de l’affaire dans lequel le Times l’accuse d’avoir détourné des actualités urgentes et des recommandations d’achats pour les consommateurs. À titre d’exemple, le Times a soutenu dans sa plainte qu’il perdra des revenus si les utilisateurs demandent à ChatGPT de rechercher des articles sur Wirecutter, propriété du journal, car les acheteurs potentiels ne cliqueront plus sur ses liens de recommandation. Cependant, Microsoft considère que cela relève de la « spéculation sur ce que le Times craint apparemment qu’il se produise », et le journal n’a fourni aucun exemple concret dans sa plainte.

« Microsoft ne conteste pas avoir travaillé avec OpenAI pour copier des millions d’œuvres du Times sans autorisation afin de construire ses outils », a déclaré Ian Crosby, avocat principal du Times. « Au lieu de cela, elle compare étrangement les LLM au VCR, même si les fabricants de VCR n’ont jamais prétendu qu’il était nécessaire de se livrer à une violation massive du droit d’auteur pour construire leurs produits. »

Conclusion

Comme d'autres entreprises d'I.A., Microsoft et OpenAI ont construit leur technologie en l'alimentant avec d'énormes quantités de données numériques, dont certaines sont probablement protégées par des droits d'auteur. Les entreprises d'I.A. ont affirmé qu'elles pouvaient légalement utiliser ces données pour former leurs systèmes sans avoir à les payer, parce qu'elles sont publiques et qu'elles ne les reproduisent pas dans leur intégralité.

Le Times est le premier grand média américain à poursuivre Microsoft et OpenAI pour des questions de droits d'auteur liés à ses œuvres écrites. Des écrivains, des codeurs informatiques et d'autres groupes ont également intenté des actions en justice pour violation des droits d'auteur contre des entreprises qui développent des technologies d'IA générative, c'est-à-dire des technologies qui génèrent du texte, des images et d'autres médias.

OpenAI et Microsoft font face à d'autres poursuites judiciaires liées au contenu utilisé pour former leurs LLM. Des écrivains de non-fiction et des auteurs de fiction, dont Michael Chabon, George R.R. Martin, John Grisham et Jodi Picoult, ont accusé les entreprises d'avoir volé leur travail pour entraîner l'IA. Plus récemment, The Intercept, Raw Story et AlterNet ont intenté des actions en justice distinctes contre l'entreprise, car ChatGPT reproduirait leur contenu « mot pour mot ou presque » tout en supprimant les attributions appropriées.

Source : motion de Microsoft

Et vous ?

Quelle est votre opinion sur l’utilisation d’articles de presse pour former des modèles de langage comme GPT ? Pensez-vous que les entreprises devraient obtenir une autorisation explicite avant d’utiliser du contenu protégé par le droit d’auteur ?

Les technologies d’intelligence artificielle (IA) menacent-elles réellement le journalisme indépendant ? Ou bien est-ce une exagération ? Quels sont les avantages et les inconvénients de l’utilisation de l’IA dans le domaine du journalisme ?

Le Times a-t-il raison de poursuivre Microsoft et OpenAI ? Quelles sont les implications plus larges de cette affaire pour l’avenir de l’IA et du droit d’auteur ?

Pensez-vous que les LLM (large language models) devraient être soumis à des règles plus strictes en matière d’utilisation de contenu protégé par le droit d’auteur ? Si oui, quelles mesures devraient être prises ?

Quelles sont les responsabilités des entreprises technologiques lorsqu’il s’agit d’utiliser des œuvres protégées par le droit d’auteur pour former des modèles d’IA ?

**Stéphane le calme** · 13/03/2024, 13h54

Le New York Times rejette l'allégation de « piratage » évoqué par OpenAI dans le cadre d'un litige sur les droits d'auteur,
la qualifiant « d'aussi hors de propos que fausse »

Dans un récent développement juridique, le New York Times a nié les allégations d’OpenAI selon lesquelles le journal aurait « piraté » les systèmes d’intelligence artificielle de l’entreprise pour créer des preuves trompeuses de violation du droit d’auteur. Cette déclaration intervient en réponse à une accusation qualifiée par le Times « d’aussi hors de propos que fausse »

OpenAI a accusé le New York Times d'avoir payé quelqu'un pour "pirater" ChatGPT afin de générer des paragraphes textuels à partir d'articles de son journal. Par piratage, l'entreprise entend sans doute : se connecter comme d'habitude et lui poser des questions visant à piéger le chatbot IA.

En décembre, le NYT a intenté un procès à OpenAI et à son bailleur de fonds Microsoft, les accusant de s'être emparés sans autorisation du site web du journal pour entraîner de grands modèles de langage. L'action en justice comprenait ce qui était censé être la preuve que ChatGPT reproduisait des passages entiers d'articles du New York Times à la suite d'invites envoyées par les utilisateurs.

La plainte du New York Times citait plusieurs exemples où les chatbots d’OpenAI et de Microsoft donnaient aux utilisateurs des extraits quasi textuels de ses articles lorsqu’ils étaient sollicités. Elle accusait OpenAI et Microsoft de vouloir « profiter gratuitement de l’énorme investissement du Times dans le journalisme » et de créer un substitut au journal.

L'éditeur estime que les utilisateurs de la technologie d'OpenAI - que Microsoft applique à l'ensemble de son empire logiciel et cloud - pourraient effectivement contourner le paywall du journal et lire des articles gratuitement en demandant au chatbot de générer des morceaux de texte qu'il a couvert, privant ainsi l'entreprise de l'argent de ses abonnements.

Nom : un.png
Affichages : 7733
Taille : 476,5 Ko

Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge.

Mais OpenAI n'est pas d'accord et demande au tribunal de rejeter l'affaire

OpenAI a toutefois riposté cette semaine à ces allégations en demandant au tribunal de rejeter l'affaire. La startup a estimé que les preuves fournies par le journal « semblent avoir été des efforts prolongés et étendus pour pirater les modèles d'OpenAI », et a nié que ChatGPT puisse détourner les gens des paywall, ajoutant que les gens n'utilisent pas le chatbot pour lire des articles publiés de toute façon.

OpenAI a allégué que « 100 exemples dans lesquels une version du modèle GPT-4 d'OpenAI a soi-disant généré plusieurs paragraphes du contenu du Times en réponse à des invites de l'utilisateur » ne reflètent pas la façon dont les gens normaux utilisent ChatGPT.

Au contraire, il aurait fallu au Times « des dizaines de milliers de tentatives pour générer » ces supposés « résultats hautement anormaux » en « ciblant et en exploitant un bogue » qu'OpenAI affirme s'être maintenant « engagée à corriger ».

Selon OpenAI, cette activité équivaut à des « attaques fabriquées » par un « tueur à gages », qui aurait piraté les modèles OpenAI jusqu'à ce qu'ils hallucinent du faux contenu du NYT ou régurgitent des données d'entraînement pour reproduire les articles du NYT. Le NYT aurait payé pour ces « attaques » afin de recueillir des preuves à l'appui des affirmations du Times selon lesquelles les produits d'OpenAI mettent en péril son journalisme en régurgitant prétendument des reportages et en volant l'audience du Times.

OpenAI n’a pas nommé la personne qu’elle qualifie de « tueur à gages » et n’a pas accusé le journal d’enfreindre les lois anti-piratage.

Dans une précédente tentative de décrédibiliser le New York Times, OpenAI avait indiqué :

Nos discussions avec le New York Times semblaient progresser de manière constructive jusqu'à notre dernière communication du 19 décembre. Les négociations portaient sur un partenariat de grande valeur autour de l'affichage en temps réel avec attribution dans ChatGPT, dans lequel le New York Times gagnerait un nouveau moyen de se connecter avec ses lecteurs existants et nouveaux, et nos utilisateurs auraient accès à leurs reportages. Nous avions expliqué au New York Times que, comme toute source unique, son contenu ne contribuait pas de manière significative à la formation de nos modèles existants et n'aurait pas non plus suffisamment d'impact pour les formations futures. Le procès qu'ils ont intenté le 27 décembre - dont nous avons pris connaissance en lisant le New York Times - nous a surpris et déçus.

En cours de route, ils ont mentionné avoir constaté une certaine régurgitation de leur contenu, mais ils ont refusé à plusieurs reprises de partager des exemples, malgré notre engagement à enquêter et à résoudre les problèmes. Nous avons montré à quel point nous prenons cette question au sérieux, comme en juillet, lorsque nous avons supprimé une fonction de ChatGPT immédiatement après avoir appris qu'elle pouvait reproduire du contenu en temps réel de manière involontaire.

Il est intéressant de noter que les régurgitations provoquées par le New York Times semblent provenir d’articles vieux de plusieurs années qui ont proliféré sur plusieurs sites Web tiers. Il semble qu’ils aient intentionnellement manipulé les invites, comprenant souvent de longs extraits d’articles, afin de faire régurgiter notre modèle. Même lorsqu’ils utilisent de telles invites, nos modèles ne se comportent généralement pas comme le laisse entendre le New York Times, ce qui suggère qu’ils ont soit demandé au modèle de régurgiter, soit sélectionné leurs exemples parmi de nombreuses tentatives.

Nom : nyt.png
Affichages : 1255
Taille : 263,9 Ko

Le New York Times réplique

Ci-dessous un extrait du dépôt du New York Times.

Ne disposant d'aucun motif réel de rejet, OpenAI consacre une grande partie de son dossier à des déclarations grandiloquentes sur des questions qu'elle n'a pas abordées. Sa requête introduit pas moins de 19 documents extrinsèques, dont aucun ne peut être correctement pris en compte dans le cadre d'une motion de rejet, dans une soumission qui, sur près de 10 pages, ressemble plus à une pirouette qu'à un mémoire juridique.

Il est évident que l'affirmation d'OpenAI, qui attire l'attention, selon laquelle le Times a « piraté » ses produits est aussi peu pertinente que fausse. Comme le montre clairement la pièce J de la plainte, le Times a obtenu des exemples de mémorisation en demandant à GPT-4 d'écrire les premiers mots ou les premières phrases des articles du Times. Ce travail n'était nécessaire que parce qu'OpenAI ne divulgue pas le contenu qu'elle utilise pour entraîner ses modèles et alimenter ses produits destinés aux utilisateurs. Pourtant, selon OpenAI, le Times a commis un acte répréhensible en détectant le vol par OpenAI de son propre contenu protégé par le droit d'auteur. Le véritable grief d'OpenAI ne porte pas sur la manière dont le Times a mené son enquête, mais plutôt sur ce que cette enquête a révélé : que les défendeurs ont construit leurs produits en copiant le contenu du Times à une échelle sans précédent - un fait qu'OpenAI ne conteste pas et ne peut pas contester.

Bien qu'elle cherche à justifier ce comportement par tous les moyens possibles, OpenAI ne demande pas le rejet de l'allégation principale selon laquelle elle aurait violé les droits d'auteur du Times pour former et faire fonctionner ses derniers modèles. Contre les revendications qu'elle conteste, OpenAI avance principalement des arguments factuels qui ne peuvent être tranchés sur la base des plaidoiries. Tout d'abord, pour appuyer son argument de prescription pour les réclamations basées sur des modèles développés avant décembre 2020, OpenAI demande à cette Cour de faire une constatation factuelle que la composition des ensembles de données utilisés pour former ces modèles était « de notoriété publique » en 2020 - même si le chatbot "viral" ChatGPT d'OpenAI n'a été publié qu'en novembre 2022.

Deuxièmement, la demande d'OpenAI de rejeter la plainte pour violation contributive repose sur des faits contestés concernant le comportement des utilisateurs et exigerait que la Cour accepte son affirmation selon laquelle « dans le monde réel, les gens n'utilisent pas ChatGPT ou tout autre produit d'OpenAI dans ce but », malgré l'utilisation largement rapportée de ChatGPT pour contourner les paywalls.

Troisièmement, l'attaque d'OpenAI sur la plainte DMCA repose sur des questions de fait contestées concernant la « conception » du processus de formation de modèle d'OpenAI, qui ne peuvent pas être résolues avant la découverte de cette conception.

Quatrièmement, OpenAI demande à la Cour de rejeter la plainte pour concurrence déloyale par appropriation illicite en ignorant les allégations du Times concernant le parasitisme des défendeurs et en décidant que les recommandations de produits du Times ne sont pas générées par des « efforts semblables à des reportages », encore un autre argument prématuré. La découverte, et non le rejet, est justifiée pour résoudre chacune de ces réclamations bien déposées.

Source : plainte

Et vous ?

Quelle est votre opinion sur l’utilisation du contenu protégé par le droit d’auteur pour entraîner des modèles d’intelligence artificielle ?

Pensez-vous que les actions d’OpenAI constituent une utilisation équitable du contenu du New York Times ? Pourquoi ou pourquoi pas ?

Comment les entreprises technologiques devraient-elles équilibrer l’innovation avec le respect des droits d’auteur ?

Quelles mesures les éditeurs de contenu devraient-ils prendre pour protéger leurs œuvres contre l’utilisation non autorisée par des tiers ?

Le ‘piratage’ allégué par OpenAI change-t-il votre perspective sur la sécurité et l’éthique des technologies d’intelligence artificielle ?

Quel impact pensez-vous que cette affaire aura sur l’avenir des relations entre les médias et les entreprises d’IA ?

**Mathis Lucas** · 03/04/2024, 17h59

Les entreprises d'IA sont-elles à court de données pour entraîner leurs modèles après avoir englouti l'ensemble de l'Internet ?
Un rapport alerte sur une potentielle pénurie de données à l'avenir

Un récent rapport sur les évolutions dans le domaine de l'IA alerte sur un problème potentiel : Internet pourrait s'avérer trop petit pour répondre aux besoins des entreprises en matière de données destinées à l'entraînement des modèles. Le rapport suggère qu'une pénurie de données se profile à l'horizon, avec des conséquences dévastatrices pour les entreprises et un ralentissement l'innovation. Mais cette inquiétude n'est pas partagée par tous. Certains affirment qu'il reste de larges pans d'Internet encore peu exploités ou inexplorés, en particulier la vidéo et les données synthétiques. La disponibilité des données reste une préoccupation majeure pour le secteur.

L'intelligence artificielle est gourmande en données. Tous les aspects de l'IA - modèles d'apprentissage automatique, apprentissage continu, généralisation et analyses prédictives et descriptives - nécessitent de vastes ensembles de données. Plus les données sont diverses et complètes, plus l'IA est performante. C'est pourquoi les données sont souvent considérées comme le "carburant d'entraînement" de l'IA. Les progrès réalisés dans le domaine de l'IA ces dernières années ont été rendus possibles grâce aux données collectées ici et là sur Internet. Mais que se passerait-il si cette denrée précieuse venait à manquer à l'avenir ?

Selon un rapport publié récemment par le Wall Street Journal (WSJ), le problème pourrait se poser bien plus tôt qu'on ne le pense. La demande de données est de plus en plus importante, ce qui met à rude épreuve le réservoir de données publiques de qualité disponibles en ligne. Dans le même temps, certains propriétaires de banques de données bloquent l'accès à leurs ressources aux entreprises spécialisées dans l'IA. Le rapport explore la manière dont les entreprises spécialisées dans l'IA commencent à prendre en compte la pénurie potentielle de données sur lesquelles entraîner leurs prochains grands modèles de langage.

Tout d'abord, seule une partie des données en ligne est généralement adaptée à l'apprentissage de l'IA. La plupart des informations publiques sur le Web contiennent des fragments de phrases et d'autres défauts textuels qui peuvent empêcher l'IA de produire des réponses acceptables. Ensuite, les principaux organes d'information, les plateformes de médias sociaux et d'autres sources d'information ont restreint l'accès à leur contenu en raison de préoccupations liées aux droits d'auteur, à la protection de la vie privée et à la rémunération équitable. Enfin, les particuliers sont très peu enclins à partager leurs données privées.

Maintenant qu'Internet devient trop petit, certaines entreprises recherchent d'autres sources d'entraînement aux données, avec comme options des transcriptions de vidéos accessibles au public et même des données synthétiques générées à partir de moteurs de jeux en 3D ou de robots en laboratoire. D'autres entreprises explorent la possibilité d'utiliser des données générées par l'IA elle-même. Toutefois, l'utilisation de données générées par l'IA pour former d'autres modèles d'IA constitue un problème en soi : les risques d'hallucinations des modèles sont plus élevés. Cette approche pourrait à terme éloigner l'IA de la réalité.

En d'autres termes, les experts en IA affirment qu'une très forte dépendance à l'égard des données générées par l'IA conduit à ce qu'ils appellent "une consanguinité numérique". Cela pourrait à terme entraîner l'effondrement du modèle d'IA sur lui-même. Un groupe de chercheurs du Royaume-Uni et du Canada a étudié la question. Dans le rapport de l'étude, les chercheurs expliquent : « nous constatons que l'utilisation d'un contenu généré par un modèle d'IA dans la formation entraîne des défauts irréversibles dans les modèles qui en résultent ». En outre, Ilia Shumailov, l'un des principaux auteurs de cette étude, a ajouté :

« Au fil du temps, les erreurs dans les données générées s'accumulent et finissent par forcer les modèles qui apprennent à partir des données générées à percevoir la réalité de manière encore plus erronée. Nous avons été surpris d'observer la rapidité avec lequel l'effondrement du modèle se produit : les modèles peuvent rapidement oublier la plupart des données originales à partir desquelles ils ont appris ». Shumailov affirme que lorsqu'un modèle d'IA est exposé à davantage de données générées par l'IA, ses performances se dégradent. Cette approche ne semble donc pas être la solution idéale à une pénurie de données.

Des startups comme Dataology, fondée par Ari Morcos, ancien chercheur de Meta et de Google DeepMind, explorent des méthodes pour former des modèles expansifs avec moins de données et de ressources. Mais la plupart des grands acteurs s'appuient sur des approches non conventionnelles et controversées de la formation des données. Ainsi, OpenAI envisagerait d'entraîner GPT-5 à l'aide de transcriptions de vidéos YouTube accessibles au public. Le laboratoire d'IA est déjà critiqué pour avoir utilisé de telles vidéos pour entraîner Sora et pourrait faire l'objet de poursuites judiciaires de la part des créateurs de ces vidéos.

OpenAI et Anthropic prévoient de remédier à ce problème en développant des données synthétiques de qualité supérieure, bien que les spécificités de leurs méthodologies restent encore floues. Le mois dernier, lors de la présentation de son grand modèle de langage Claude 3, Anthropic a admis que le modèle a été entraîné sur des données que l'entreprise génère en interne. En outre, Jared Kaplan, scientifique en chef d'Anthropic, a déclaré qu'il existe également de bons cas d'utilisation pour les données synthétiques. Pour l'instant, Claude 3 affiche les meilleures performances sur les benchmarks d'évaluation des modèles d'IA.

Selon le rapport du WSJ, OpenAI a également discuté de la création d'un marché de données où les fournisseurs peuvent être payés pour fournir des contenus de qualité destinés à la formation des modèles d'IA. Google envisagerait une méthode similaire, bien que les chercheurs n'aient pas encore mis au point un système permettant de l'appliquer correctement. Malgré les prédictions selon lesquelles l'IA pourrait épuiser ses données d'entraînement utilisables dans les années à venir, certains critiques ont déclaré que des percées significatives pourraient atténuer ces craintes. La nature même de ces percées reste encore floue.

Les inquiétudes concernant la rareté des données surviennent alors que les utilisateurs se plaignent de la qualité des chatbots d'IA. Certains utilisateurs de GPT-4 ont rapporté que le modèle a de plus en plus du mal à suivre correctement les instructions et à répondre aux requêtes. Google a mis en pause la fonction de génération d'images par l'IA sur son modèle Gemini après que des utilisateurs se sont plaints qu'elle produisait des images historiquement inexactes des présidents des États-Unis. De plus, les modèles d'IA sont généralement enclins à halluciner de fausses informations qu'ils considèrent comme exactes.

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous d'une éventuelle pénurie de données pour l'entraînement de l'IA ?

Les entreprises d'IA ont-elles pu réellement exploiter toutes les données utilisables de l'Internet ?

Ces craintes sont-elles justifiées ? Comment les entreprises peuvent-elles éviter une pénurie de données à l'avenir ?

L'approche consistant à entraîner l'IA sur plus de données pour plus de performances a-t-elle atteint ses limites ?

Voir aussi

La presse écrite veut être payée pour les articles utilisés pour alimenter l'outil d'IA ChatGPT, elle exige une part du marché qui devrait atteindre 1 300 millions de dollars d'ici à 2032

OpenAI justifie pourquoi les données collectées pour la formation des modèles d'IA constituent selon elle un usage loyal et non une infraction

Des chercheurs mettent en garde contre un "effondrement du modèle" lorsque l'IA s'entraîne sur du contenu généré par l'IA, ils affirment que cela pourrait à terme éloigner l'IA de la réalité

**Mathis Lucas** · 08/04/2024, 10h29

Le New York Times affirme qu'OpenAI a transcrit plus d'un million d'heures de vidéos YouTube pour entraîner son modèle d'IA GPT-4
violant ainsi les droits d'auteur des créateurs de la plateforme

Le New York Times apporte de nouveaux éléments à charge dans le cadre de sa lutte contre les pratiques d'OpenAI en matière de collecte de données pour entraîner ses modèles d'IA. L'organe de presse a publié un nouveau rapport dans lequel il affirme qu'OpenAI a transcrit plus d'un million d'heures de vidéos YouTube pour entraîner son grand modèle de langage GPT-4. Google, qui appartient au même groupe que YouTube, Alphabet, était au courant des actions d'OpenAI, mais n'a pas agi, car il utiliserait également des vidéos YouTube pour entraîner ses propres modèles. Ces actions violent les règles de YouTube et potentiellement les droits d'auteur des créateurs.

L'intelligence artificielle est gourmande en données. Tous les aspects de l'IA - modèles d'apprentissage automatique, apprentissage continu, généralisation et analyses prédictives et descriptives - nécessitent de vastes ensembles de données. Plus les données sont diverses et complètes, plus l'IA est performante. C'est pourquoi les données sont souvent considérées comme le "carburant d'entraînement" de l'IA. Les progrès réalisés dans le domaine de l'IA ces dernières années ont été rendus possibles grâce aux données collectées ici et là sur Internet. Mais que se passerait-il si cette denrée précieuse venait à manquer à l'avenir ?

Des analystes ont récemment alerté sur le fait que les entreprises d'IA pourraient faire face à une potentielle pénurie de données dans un avenir proche. Samedi, le New York Times a publié un rapport détaillant quelques-unes des méthodes utilisées par les entreprises pour résoudre ce problème. Sans surprise, il s'agit de faire des choses qui tombent dans la zone grise de la loi sur les droits d'auteur. Ces différents moyens, non conventionnels et potentiellement condamnables, permettent aux entreprises d'IA d'élargir leur accès aux données, sans avoir à payer une redevance aux créateurs, aux artistes, et bien d'autres encore.

Nom : 142.png
Affichages : 53538
Taille : 96,3 Ko

Par exemple, le rapport indique que lorsqu'OpenAI a épuisé toutes les sources de textes en anglais dignes de confiance sur Internet pour développer son dernier système d'IA, GPT-4, il a décidé de se tourner vers les vidéos YouTube. Les chercheurs de l'entreprise ont alors créé un outil de reconnaissance vocale appelé Whisper. Cet outil peut transcrire l'audio des vidéos YouTube, ce qui permet à l'entreprise d'obtenir un nouveau texte conversationnel qui rendrait le système d'IA plus intelligent. OpenAI était conscient du fait que ce projet pourrait aller à l'encontre des règles de YouTube, mais n'a pas hésité à aller jusqu'au bout.

YouTube interdit l'utilisation de ses vidéos pour des applications indépendantes" de la plateforme vidéo. Le rapport allègue qu'OpenAI savait que cette démarche était juridiquement contestable, mais qu'elle estimait qu'il s'agissait d'une utilisation équitable. Le président d'OpenAI, Greg Brockman, se serait personnellement impliqué dans la collecte des vidéos utilisées. Enfin de compte, OpenAI aurait utilisé son outil de reconnaissance vocale Whisper pour transcrire plus d'un million d'heures de vidéos YouTube, qui ont ensuite été utilisées pour entraîner GPT-4. OpenAI n'a pas obtenu le consentement des créateurs de contenus.

Ce n'est pas la première fois qu'OpenAI fait l'objet de telles allégations. Précédemment, le média The Information avait rapporté qu'OpenAI avait utilisé des vidéos YouTube et des podcasts pour entraîner ses systèmes d'IA. Ce faisant, le laboratoire d'IA de San Francisco viole potentiellement les droits d'auteurs des créateurs de contenu et ne leur propose aucune contrepartie. Lindsay Held, porte-parole d'OpenAI, a déclaré que l'entreprise utilise de nombreuses sources, y compris des données accessibles au public et des partenariats pour des données non publiques, et qu'elle envisage de générer ses propres données synthétiques.

Matt Bryant, porte-parole de Google, a déclaré que l'entreprise interdit "le grattage ou le téléchargement non autorisé du contenu de YouTube". Il a ajouté que l'entreprise n'était pas au courant d'une telle utilisation de la part d'OpenAI. Mais le rapport affirme que certaines personnes chez Google étaient au courant, mais n'ont pas agi contre OpenAI parce que Google utilisait également des vidéos YouTube pour entraîner ses propres modèles d'IA. Google a déclaré qu'il ne le faisait qu'avec des vidéos de créateurs ayant donné leur accord. De son côté, OpenAI n'a jamais précisé les sources des données d'entraînement de GPT-4.

En outre, le rapport allègue que le service juridique de Google a demandé à l'équipe chargée de la protection de la vie privée de l'entreprise de modifier le libellé de sa politique afin d'étendre ce qu'elle pouvait faire avec les données des utilisateurs, comme ses outils de bureautique tels que Google Docs et Google Sheets. La nouvelle politique aurait été intentionnellement publiée le 1er juillet pour profiter de la distraction du week-end de la fête de l'Indépendance des États-Unis. Cependant, Google rejette les allégations selon lesquelles l'entreprise a fait exprès de pousser un changement important lors d'un week-end de fête.

Bryant a déclaré que ce type de données (vidéos) n'est utilisé qu'avec l'autorisation des utilisateurs qui participent aux tests de fonctionnalités expérimentales de Google, et que "l'entreprise n'a pas commencé à s'entraîner sur d'autres types de données à la suite de ce changement de langage". Il convient de rappeler que la mise à jour a ajouté Bard comme exemple d'utilisation de ces données. La semaine dernière, Neal Mohan, directeur de YouTube, a évoqué la possibilité qu'OpenAI ait utilisé YouTube pour entraîner son modèle de génération de vidéos Sora. (Ce dernier peut générer une vidéo à partir d'instructions textuelles.)

Meta se serait également heurté aux limites de la disponibilité des données d'entraînement. D'après le rapport, après avoir parcouru presque tous les livres, essais, poèmes et articles de presse en langue anglaise disponibles sur Internet, Meta aurait envisagé de prendre des mesures telles que le paiement de licences d'exploitation de livres ou même l'achat pur et simple d'un grand éditeur. L'entreprise était aussi apparemment limitée dans la façon dont elle pouvait utiliser les données des consommateurs par les changements axés sur la protection de la vie privée qu'elle a apportés à la suite du scandale Cambridge Analytica.

Google, OpenAI et leurs rivaux sont confrontés à l'évaporation rapide des données de formation pour leurs modèles, qui s'améliorent au fur et à mesure qu'ils absorbent des données. Selon une récente analyse sur le sujet, Internet pourrait s'avérer trop petit pour répondre aux besoins des entreprises en matière de données d'entraînement. Cela signifie qu'une pénurie de données se profile à l'horizon, ce qui pourrait avoir de graves conséquences pour les entreprises d'IA et un ralentissement l'innovation. Bien que cette inquiétude n'est pas partagée par tous, les entreprises recherchent déjà de nouvelles sources de données.

Selon les entreprises d'IA, les solutions possibles à ce problème comprennent l'entraînement des modèles sur des données synthétiques créées par leurs propres modèles. Mais les experts en IA mettent en garde contre cette pratique et affirment qu'une très forte dépendance à l'égard des données générées par l'IA conduit à ce qu'ils appellent "une consanguinité numérique". Cela pourrait à terme entraîner l'effondrement du modèle d'IA sur lui-même.

L'autre option des entreprises consiste à utiliser tout ce qu'elles peuvent trouver, qu'elles en aient l'autorisation ou non, et si l'on en croit les nombreux procès dont elles font l'objet, cette voie semble plus qu'incertaine. Le New York Times exige qu'OpenAI supprime de ses données d'entraînement tous les articles de presse et les autres contenus de l'organe de presse.

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des allégations portées contre OpenAI par le New York Times ?

Que risque OpenAI s'il s'avère qu'il a utilisé sans autorisation des vidéos YouTube pour entraîner ses modèles ?

Comment les entreprises d'IA peuvent-elles faire face à leurs besoins sans cesse croissants en données d'entraînement ?

Voir aussi

Les entreprises d'IA sont-elles à court de données pour entraîner leurs modèles après avoir englouti l'ensemble de l'Internet ? Un rapport alerte sur une potentielle pénurie de données

Le New York Times exige qu'OpenAI supprime toutes ses instances GPT dans une poursuite relative au droit d'auteur, affirmant que des millions de ses articles ont été utilisés pour former ChatGPT

Microsoft accuse le New York Times de propager une « futurologie apocalyptique » dans le cadre du procès OpenAI et demande de rejeter des éléments clés du procès intenté pour violation du copyright

**OrthodoxWindows** · 08/04/2024, 10h48

Tant que GPT-4 ne bloque pas les publicités lors de son visionnage, pour Youtube ça ne devrait pas poser de problèmes.

**Jules34** · 08/04/2024, 11h44

Personne se dit qu'en s'entrainant sur youtube un modele d'IA à plus de chambre de finir par ressembler au cousin dégénéré du moyen-âge qu'à un Leonard de Vinci 3.0 ?

L'IA entrainé à Pewdiepie c'est le début la fin des temps.

**Leruas** · 08/04/2024, 21h24

Heureusement qu'ils n'ont pas entrainé GPT-4 sur des vidéos TikTok

**maxtal** · 10/04/2024, 15h11

si ils viraient leurs brides idéologiques ça irait peut être déjà un peu plus loin

**impopia** · 13/04/2024, 08h19

Évidemment que, lorsque l'"IA" s'inspire de tout contenu digital présent sur Internet ou ailleurs, il ne peut pas y avoir lieu de "générer" qqch si ce n'est pas de copier des morceaux qu'elle a appris et de les mettre ensemble. Vous ne verrez jamais quelque chose de vraiment nouveau, il y aura toujours des morceaux copiés mis ensemble. Donc techniquement c'est une géante "violation des droits d'auteur", même s'il peut s'agir de contenu "libre" qui est utilisé. S'il n'y avait pas ce contenu libre et que tout était protégé par des droit d'auteur, pourrait-on parler d'IA du point de vue légal ?...

**TJ1985** · 13/04/2024, 08h38

Envoyé par impopia

Évidemment que, lorsque l'"IA" s'inspire de tout contenu digital présent sur Internet ou ailleurs, il ne peut pas y avoir lieu de "générer" qqch si ce n'est pas de copier des morceaux qu'elle a appris et de les mettre ensemble. Vous ne verrez jamais quelque chose de vraiment nouveau, il y aura toujours des morceaux copiés mis ensemble.

Dans quelle mesure sommes-nous vraiment libres de nos créations, qu'est-ce qui nous distingue fondamentalement de ces systèmes, hormis le volume d'apprentissage ?
Sûr ce point, il faut reprendre les chiffres de Yann LeCun. Un gosse de quatre ans ridiculise en masse d'information acquise n'importe quel "grand modèle" d'aujourd'hui. Et il continue à apprendre à chaque instant, lui...

OpenAI aurait transcrit plus d'un million d'heures de vidéos YouTube pour entraîner son modèle d'IA GPT-4

Discussions similaires

Partager

Partager