OpenAI aurait transcrit plus d'un million d'heures de vidéos YouTube pour entraîner son modèle d'IA GPT-4

**defZero** · 10/11/2022, 22h45

... Bref, c'est un peu du foutage de gueule.

onilink_

Oui, complètement, mais pas plus que le système de brevets ou la notion de propriété intellectuelle si l'on y réfléchit.
Pour le système de brevet, je veut bien concevoir que l'on accorde une sorte de rémunération, pour un temps donné, à un inventeur mais actuellement, le système en place ne respect pas ce principe (cf. les brevets de design sur les bords arrondies et autres).
En ce qui concerne la propriété intellectuelle, c''est encore pire, puisque l'on veut attribué une pensée à quelques un et les rémunérer parce qu'ils se déclares les premiers à l'avoir eu.
Vous avouerez qu'en y réfléchissant, c'est quand même très con, non ?

**Stéphane le calme** · 25/11/2022, 10h32

Un développeur poursuit Microsoft pour une technologie d'IA qui génère du code semblant identique aux programmes existants,
s'appuyant sur du code publié sur GitHub

Comme beaucoup d'I.A. de technologies de pointe, Copilot a développé ses compétences en analysant de grandes quantités de données. Dans ce cas, il s'appuyait sur des milliards de lignes de code informatique publiées sur Internet. Matthew Butterick, un développeur, assimile ce processus à du piratage, car le système ne reconnaît pas sa dette envers le travail existant. Dans une plainte contre Microsoft, il estime que l'entreprise et ses collaborateurs ont violé les droits légaux de millions de programmeurs qui ont passé des années à écrire le code original.

GitHub Copilot, qu'est-ce que c'est ?

Copilot a été lancé en fin juin dans le cadre d'une Preview technique sur invitation uniquement, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.

GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.

Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.

Nom : copilot.png
Affichages : 7822
Taille : 85,6 Ko

Un réseau neuronal dans GitHub Copilot est entraîné à l'aide de volumes massifs de données, constituées du code : des millions de lignes téléchargées par les 65 millions d'utilisateurs de GitHub, la plus grande plateforme au monde permettant aux développeurs de collaborer et de partager leur travail. Le but est que Copilot en apprenne suffisamment sur les modèles de code pour pouvoir faire du hacking lui-même. Il peut prendre le code incomplet d'un partenaire humain et terminer le travail en ajout les parties manquantes. Dans la plupart des cas, il semble réussir à le faire. GitHub prévoit de vendre l'accès à l'outil aux développeurs.

Comme pour la plupart des outils d'IA, GitHub souhaite également que Copilot devienne plus intelligent au fil du temps en fonction des données qu'il collecte auprès des utilisateurs. Lorsque les utilisateurs acceptent ou rejettent les suggestions de Copilot, son modèle d'apprentissage automatique utilisera ce retour d'information pour améliorer les suggestions futures, de sorte que l'outil deviendra peut-être plus humain à mesure qu'il apprendra.

De nombreux développeurs ont accueilli favorablement le nouvel outil ou ont au moins été intrigués par celui-ci. Mais Matthew Butterick, développeur, designer, écrivain et avocat à Los Angeles, n'était pas l'un d'entre eux. Et il a expliqué pourquoi :

Envoyé par Matthieu Butterick

GitHub Copilot est un produit lancé par Microsoft en juin 2022 après une Preview technique d'un an. Copilot est un plugin pour Visual Studio et d'autres EDI qui produit ce que Microsoft appelle des « suggestions » basées sur ce que vous tapez dans l'éditeur.

Qu'est-ce qui différencie Copilot de la saisie semi-automatique traditionnelle ? Copilot est alimenté par Codex, un système d'IA créé par OpenAI et sous licence Microsoft. (Bien que Microsoft ait également été appelée « le propriétaire non officiel d'OpenAI »). Copilot propose des suggestions basées sur des invites de texte tapées par l'utilisateur. Copilot peut être utilisé pour de petites suggestions, par exemple jusqu'à la fin d'une ligne, mais Microsoft a mis l'accent sur la capacité de Copilot à suggérer des blocs de code plus volumineux, comme le corps entier d'une fonction.

Mais comment le Codex, le système d'IA sous-jacent, a-t-il été formé ? Selon OpenAI, Codex a été formé sur « des dizaines de millions de référentiels publics », y compris du code sur GitHub. Microsoft elle-même a vaguement décrit le matériel de formation comme « des milliards de lignes de code public ». Mais le chercheur de Copilot, Eddie Aftandilian, a confirmé dans un podcast récent (@ 36:40) que Copilot est « formé sur les dépôts publics sur GitHub ».

Selon Matthieu Butterick, Copilot soulève des questions juridiques relatives à la fois à la formation du système et à l'utilisation du système. Avec d'autres avocats, il a mené une enquête sur les problèmes juridiques liés au fonctionnement de GitHub Copilot au terme de laquelle il a décidé de porter plainte en recherchant le statut de recours collectif :

En formant leurs systèmes d'IA sur des référentiels publics GitHub (bien que basés sur leurs déclarations publiques, peut-être bien plus), nous soutenons que les accusés ont violé les droits légaux d'un grand nombre de créateurs qui ont publié du code ou d'autres travaux sous certaines licences open source sur GitHub. Quelles licences ? Un ensemble de 11 licences open source populaires qui nécessitent toutes l'attribution du nom de l'auteur et des droits d'auteur, y compris la licence MIT, la GPL et la licence Apache. (Celles-ci sont énumérées dans l'annexe à la plainte.)

En plus d'avoir enfreint les exigences d'attribution de ces licences, nous soutenons que les défendeurs ont enfreint :

les conditions d'utilisation et les politiques de confidentialité de GitHub ;
le DMCA § 1202, qui interdit la suppression des informations de gestion des droits d'auteur ;
la loi californienne sur la protection de la vie privée des consommateurs ;
et d'autres lois donnant lieu à des réclamations légales connexes.

Dans les semaines à venir, nous modifierons probablement cette plainte pour ajouter d'autres parties et réclamations.

Entraînement / formation des systèmes boostés à l'IA sans compensation ni consentement

La poursuite judiciaire semble être la première attaque légale contre une technique de conception appelée « entraînement/ formation d'IA ». Ces dernières années, de nombreux artistes, écrivains, experts et militants de la vie privée se sont plaints que les entreprises forment leurs systèmes d'IA en utilisant des données qui ne leur appartiennent pas.

La plainte trouve des échos dans les dernières décennies de l'industrie technologique. Dans les années 1990 et dans les années 2000, Microsoft a combattu la montée des logiciels open source, les considérant comme une menace existentielle pour l'avenir des activités de l'entreprise. Au fur et à mesure que l'importance de l'open source augmentait, Microsoft l'a adopté et a même acquis GitHub, une maison pour les développeurs open source et un endroit où ils ont construit et stocké leur code.

Presque toutes les nouvelles générations de technologies, même les moteurs de recherche en ligne, ont été confrontées à des défis juridiques similaires. Souvent, « il n'y a pas de loi ou de jurisprudence qui le couvre », a déclaré Bradley J. Hulbert, un avocat spécialisé en propriété intellectuelle dans ce domaine du droit de plus en plus important.

La poursuite judiciaire fait partie d'une vague d'inquiétude concernant l'intelligence artificielle. Les artistes, écrivains, compositeurs et autres créateurs craignent de plus en plus que les entreprises et les chercheurs utilisent leur travail pour créer de nouvelles technologies sans leur consentement et sans compensation. Les entreprises forment une grande variété de systèmes de cette manière, y compris des générateurs d'art, des systèmes de reconnaissance vocale comme Siri et Alexa, et même des voitures sans conducteur.

Copilot est basé sur une technologie développée par OpenAI, un laboratoire d'intelligence artificielle à San Francisco soutenu par un financement d'un milliard de dollars de Microsoft. OpenAI est à l'avant-garde de l'effort de plus en plus répandu pour former les technologies d'intelligence artificielle à l'aide de données numériques.

Après que Microsoft et GitHub ont publié Copilot, le directeur général de GitHub, Nat Friedman, a tweeté que l'utilisation du code existant pour former le système était une « utilisation équitable » du matériel en vertu de la loi sur le droit d'auteur, un argument souvent utilisé par les entreprises et les chercheurs qui ont construit ces systèmes. Mais aucune affaire judiciaire n'a encore testé cet argument.

Nom : nat.png
Affichages : 3494
Taille : 32,1 Ko

« Les ambitions de Microsoft et OpenAI vont bien au-delà de GitHub et Copilot », a déclaré M. Butterick dans une interview. « Ils veulent s'entraîner sur n'importe quelle donnée n'importe où, gratuitement, sans consentement, pour toujours ».

En 2020, OpenAI a dévoilé un système appelé GPT-3. Les chercheurs ont formé le système en utilisant d'énormes quantités de texte numérique, y compris des milliers de livres, des articles de Wikipédia, des journaux de discussion et d'autres données publiées sur Internet.

En identifiant des modèles dans tout ce texte, ce système a appris à prédire le mot suivant dans une séquence. Lorsque quelqu'un tapait quelques mots, l'outil pouvait faire des suggestions de paragraphes entiers de texte. De cette façon, le système pourrait écrire ses propres publications, discours, poèmes et articles de presse sur Twitter.

À la grande surprise des chercheurs qui ont construit le système, il pouvait même écrire des programmes informatiques, ayant apparemment appris d'un nombre incalculable de programmes publiés sur Internet.

OpenAI est donc allé plus loin en formant un nouveau système, Codex, sur une nouvelle collection de données stockées spécifiquement avec du code. Au moins une partie de ce code, a déclaré le laboratoire plus tard dans un document de recherche détaillant la technologie, provenait de GitHub, détenu et exploité par Microsoft.

Ce nouveau système est devenu la technologie sous-jacente de Copilot, que Microsoft a fait tester aux développeurs sur GitHub. Après avoir été testé avec un nombre relativement restreint de développeurs pendant environ un an, Copilot a été déployé auprès de tous les développeurs sur GitHub en juillet.

Copilot a le pouvoir de détruire la communauté open source, selon Butterick

Pour l'instant, le code produit par Copilot est simple et pourrait être utile à un projet plus vaste, mais doit être amélioré, ont déclaré de nombreux développeurs qui ont utilisé la technologie. Certains développeurs ne le trouvent utile que s'ils apprennent à coder ou essaient de maîtriser un nouveau langage.

Pourtant, Butterick craignait que Copilot ne finisse par détruire la communauté mondiale des développeurs qui ont construit le code au cœur de la plupart des technologies modernes. Quelques jours après la sortie du système, il a publié un article de blog intitulé : « Ce Copilot est stupide et veut me tuer ».

Butterick s'identifie comme un développeur open source, faisant partie de la communauté des développeurs qui partagent ouvertement leur code avec le monde. Au cours des 30 dernières années, les logiciels open source ont contribué à l'essor de la plupart des technologies que les consommateurs utilisent chaque jour, notamment les navigateurs Web, les smartphones et les applications mobiles.

Bien que les logiciels open source soient conçus pour être partagés librement entre les développeurs et les entreprises, ce partage est régi par des licences conçues pour garantir qu'il est utilisé de manière à bénéficier à la communauté élargie des développeurs. Butterick pense que Copilot a violé ces licences et, au fur et à mesure de son amélioration, rendra les développeurs open source obsolètes.

Après s'être plaint publiquement de la question pendant plusieurs mois, il a mené une enquête avec une poignée d'autres avocats. La poursuite judiciaire en est encore à ses débuts et n'a pas encore obtenu le statut de recours collectif par le tribunal.

À la surprise de nombreux experts juridiques, la poursuite de Butterick n'accuse pas Microsoft, GitHub et OpenAI de violation du droit d'auteur. Sa plainte prend une approche différente, arguant que les entreprises ont violé les conditions d'utilisation et les politiques de confidentialité de GitHub tout en enfreignant une loi fédérale qui oblige les entreprises à afficher les informations de droit d'auteur lorsqu'elles utilisent du matériel.

Butterick et un autre avocat à l'origine de la poursuite, Joe Saveri, ont déclaré que la poursuite pourrait éventuellement résoudre le problème du droit d'auteur.

Lorsqu'il lui a été demandé si l'entreprise pouvait discuter de la poursuite, un porte-parole de GitHub a refusé, avant de dire dans un communiqué que l'entreprise s'était « engagée à innover de manière responsable avec Copilot depuis le début, et continuera à faire évoluer le produit pour mieux servir les développeurs à travers le monde »le procès.

En vertu des lois existantes, la plupart des experts pensent que la formation d'un A.I. système sur le matériel protégé par le droit d'auteur n'est pas nécessairement illégal. Mais cela pourrait être le cas si le système finit par créer du matériel sensiblement similaire aux données sur lesquelles il a été formé.

Certains utilisateurs de Copilot ont déclaré qu'il génère du code qui semble identique - ou presque identique - aux programmes existants, une observation qui pourrait devenir la partie centrale du cas de Butterick et d'autres.

Pam Samuelson, professeur à l'Université de Californie à Berkeley, spécialisée dans la propriété intellectuelle et son rôle dans la technologie moderne, a déclaré que les penseurs juridiques et les régulateurs avaient brièvement exploré ces questions juridiques dans les années 1980, avant que la technologie n'existe. Maintenant, dit-elle, une évaluation juridique est nécessaire. « Nous n'en sommes plus au problème théorique », a déclaré le Dr Samuelson.

Source : Matthew Butterick (1, 2)

Et vous ?

Que pensez-vous de Copilot ?

Comprenez-vous pourquoi Matthew Butterick s'attaque à Microsoft en justice et cherche le recours collectif ? Êtes-vous favorable à cette démarche ? Pourquoi ?

Partagez-vous son point de vue selon lequel Copilot, sous sa forme actuelle, pourrait rendre obsolètes les développeurs open source ?

**encoremoi21258** · 27/11/2022, 17h09

A qui appartiennent les images, vidéos, lignes de code générées par des IA ?

Bonne question.

**Stéphane le calme** · 22/12/2022, 09h54

Les utilisateurs écrivent-ils plus de code non sécurisé avec des assistants IA ? Oui, selon une étude
qui révèle que les assistants IA aident les développeurs à produire du code plus susceptible d'être bogué

Des informaticiens de l'Université de Stanford ont découvert que les développeurs qui acceptent l'aide d'outils d'IA comme Github Copilot produisent un code moins sécurisé que ceux qui ne les utilisent pas. Dans un article intitulé « Les utilisateurs écrivent-ils plus de code non sécurisé avec des assistants IA ? », les experts de Stanford Neil Perry, Megha Srivastava, Deepak Kumar et Dan Boneh répondent à cette question par l'affirmative. Pire encore, ils ont constaté que l'aide de l'IA avait tendance à tromper les développeurs sur la qualité de leur production.

Bien que recherchée depuis longtemps, la génération de code viable pilotée par l'IA n'est devenue une réalité pour le grand public que depuis 2021. Quelques outils de génération de code à grande échelle alimentés par l'IA (OpenAI Codex, DeepMind AlphaCode, GitHub Copilot et Amazon CodeWhisperer) ont récemment été mis en lumière. Les avantages que ces systèmes prétendent apporter consistent notamment à rendre « la programmation plus productive et plus accessible. » Ils présentent également plusieurs défis.

Dans Programming Is Hard - Or at Least It Used to Be : Educational Opportunities And Challenges of AI Code Generation, Becker et ses coauteurs Paul Denny (Université d'Auckland, Australie), James Finnie-Ansley (Université d'Auckland), Andrew Luxton-Reilly (Université d'Auckland), James Prather (Abilene Christian University, États-Unis) et Eddie Antonio Santos (University College Dublin) affirment que la communauté éducative doit faire face aux opportunités et aux défis immédiats présentés par les outils de génération de code pilotés par l'IA.

Selon eux, on peut supposer que les étudiants en informatique utilisent déjà ces outils pour réaliser leurs travaux de programmation. Par conséquent, les politiques et les pratiques qui reflètent la nouvelle réalité doivent être élaborées le plus tôt possible.

Codex OpenAI

En septembre 2021, le New York Times a publié un article intitulé « L'I.A. peut maintenant écrire son propre code informatique. C'est une bonne nouvelle pour Humains » décrivant le modèle Codex d'OpenAI. OpenAI est un laboratoire de recherche en intelligence artificielle (IA) composé de la société à but lucratif OpenAI LP et de sa société mère, la société à but non lucratif OpenAI Inc. L'entreprise, considérée comme un concurrent de DeepMind (entreprise spécialisée dans l'intelligence artificielle appartenant à Google), mène des recherches dans le domaine de l'IA avec l'objectif déclaré de promouvoir et de développer une IA conviviale d'une manière qui profite à l'humanité dans son ensemble.

Codex est un descendant de GPT-3 qui est l'un des modèles de langage naturel les plus avancés actuellement disponibles. Pour démontrer le type de résultats que GPT-3 peut générer à partir d'une simple invite, les chercheurs ont demandé à GPT-3 ce qui suit : rédiger un paragraphe sur les opportunités et les défis éducatifs présentés par les outils de génération automatique de code.

Sa réponse a été la suivante :

Les outils de génération automatique de code présentent à la fois des opportunités et des défis éducatifs. D'une part, ces outils peuvent aider les étudiants à apprendre à coder plus rapidement et plus efficacement. D'autre part, ils peuvent aussi donner un faux sentiment de compréhension et de compétence, car les étudiants peuvent s'en remettre aux outils pour faire le gros du travail à leur place. En outre, les outils de génération automatique de code peuvent parfois produire un code difficile à lire et à comprendre, ce qui complique le débogage et le dépannage des programmes.

Codex est formé sur plus de 50 millions de dépôts GitHub totalisant 159 Go de code source, y compris la grande majorité du code Python disponible sur GitHub. Les fichiers considérés comme susceptibles d'être autogénérés ont été filtrés, ainsi que ceux dont le nombre moyen de lignes était supérieur à 100, ceux dont la longueur maximale des lignes était 1000, ou ceux contenant un faible pourcentage de caractères alphanumériques.

Codex peut prendre des invites en anglais et générer du code dans plusieurs langages de programmation, notamment JavaScript, Go, Perl, PHP, Ruby, Swift, TypeScript et shell, mais il serait « plus performant » en Python.

DeepMind AlphaCode

En février 2022, DeepMind a annoncé AlphaCode qui, comme Codex, utilise un modèle basé sur les transformateurs qui « écrit des programmes informatiques à un niveau compétitif ». Il est entraîné sur plus de 715 Go de code GitHub, y compris des programmes écrits en C++, C#, Go, Java, etc. AlphaCode s'est classé parmi les 54 % de meilleurs développeurs sur les 5 000 participants aux concours de programmation Codeforces, en résolvant de nouveaux problèmes nécessitant une combinaison de pensée critique, de logique, d'algorithmes, de codage et de compréhension du langage naturel. AlphaCode n'est pas actuellement disponible sous forme d'API ou autre.

Amazon CodeWhisperer

Amazon CodeWhisperer a été annoncé en juin 2022. Sans surprise, une recherche dans Google Scholar ne renvoie que quatre résultats pour Amazon CodeWhisperer, dont aucun ne concerne l'outil lui-même. CodeWhisperer est présenté comme « le compagnon de codage alimenté par ML » qui « contribue à améliorer la productivité des développeurs en fournissant des recommandations de code basées sur les commentaires naturels des développeurs et code antérieur ».

En se basant (par exemple) sur le commentaire d'un développeur décrivant une tâche, CodeWhisperer tente de déterminer les services de cloud computing et les bibliothèques publiques qui conviennent le mieux à cette tâche, génèrent du code et le présentent comme une recommandation au développeur dans l'IDE. Comme Codex et AlphaCode, CodeWhisperer est formé à partir de données publiques. Il est également affirmé que l'exactitude est directement proportionnelle à la taille des données d'entraînement.

Autres produits de génération de code d'IA

Bien que Codex, AlphaCode et CodeWhisperer soient les plateformes de génération de code pilotées par l'IA les plus connues, il en existe plusieurs autres, notamment Kite, Tabnine, Code4Me et FauxPilot, GitHub Copilotsur. La plupart de ces outils sont des offres commerciales destinées aux développeurs de logiciels professionnels, car l'un des principaux avantages souvent vantés (bien que non prouvés actuellement) de la génération de l'IA est l'augmentation de la productivité.

Copilot a été lancé en fin juin dans le cadre d'une Preview technique sur invitation uniquement, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.

GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.

Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.

Nom : github.png
Affichages : 2685
Taille : 85,7 Ko

Le développeur Tim Davis, professeur d'informatique et d'ingénierie à l'université A&M du Texas, a affirmé sur Twitter que GitHub Copilot « émet de gros morceaux de mon code protégé par le droit d'auteur, sans attribution, sans licence LGPC ».

Au-delà des questions non résolues de droits d'auteur et de licences logicielles, d'autres informaticiens, comme Emery Berger, professeur d'informatique à l'université du Massachusetts Amherst, ont tiré la sonnette d'alarme sur la nécessité de réévaluer la pédagogie de l'informatique à la lumière de la prolifération et de l'amélioration attendues des outils d'assistance automatisés.

« Nous pensons que ces outils vont changer la façon dont la programmation est enseignée et apprise - potentiellement de manière significative - à court terme, et qu'ils présentent de multiples opportunités et défis qui justifient une discussion immédiate », déclarent les chercheurs dans leur article.

Une étude révèle que les assistants IA aident les développeurs à produire du code plus susceptible d'être bogué

« Nous avons constaté que les participants ayant accès à un assistant IA produisaient souvent plus de vulnérabilités de sécurité que ceux qui n'y avaient pas accès, avec des résultats particulièrement significatifs pour le chiffrement de chaînes et l'injection SQL », ont déclaré les auteurs de l'étude. « Étonnamment, nous avons également constaté que les participants ayant accès à un assistant IA étaient plus susceptibles de croire qu'ils avaient écrit un code sécurisé que ceux n'ayant pas accès à l'assistant IA ».

Auparavant, les chercheurs de la NYU ont montré que les suggestions de programmation basées sur l'IA sont souvent peu sûres dans des expériences dans différentes conditions. Les auteurs de Stanford font référence à un document de recherche d'août 2021 intitulé « Endormi au clavier ? Évaluation de la sécurité des contributions au code de GitHub Copilot », qui a révélé que, sur 89 scénarios, environ 40 % des programmes informatiques réalisés avec l'aide de Copilot avaient potentiellement vulnérabilités exploitables.

Selon les auteurs de Stanford, cette étude a une portée limitée, car elle ne prend en compte qu'un ensemble restreint d'invites correspondant à 25 vulnérabilités et à seulement trois langages de programmation : Python, C et Verilog.

Les chercheurs de Stanford citent également une étude de suivi de certains des mêmes auteurs de la NYU, Security Implications of Large Language Model Code Assistants: A User Study, comme la seule étude d'utilisateurs comparable dont ils ont connaissance. Ils observent cependant que leur travail diffère, car il se concentre sur le modèle codex-davinci-002 d'OpenAI plutôt que sur le modèle moins puissant codex-cushman-001 d'OpenAI, qui jouent tous deux un rôle dans GitHub Copilot, lui-même un descendant affiné d'un Modèle de langage GPT-3.

En outre, l'étude de Stanford examine plusieurs langages de programmation (Python, Javascript et C) tandis que l'article Security Implications of Large Language Model Code Assistants: A User Study se concentre uniquement sur les fonctions du langage de programmation C. Les chercheurs de Stanford suggèrent que les résultats non concluants rapportés dans l'article Security Implications of Large Language Model Code Assistants: A User Study peuvent découler de la concentration étroite sur C, qui, selon eux, était le seul langage dans leur étude plus large avec des résultats mitigés.

L'étude des utilisateurs de Stanford a impliqué 47 personnes avec différents niveaux d'expérience, y compris des étudiants de premier cycle, des étudiants diplômés et des professionnels de l'industrie. Les participants ont été invités à écrire du code en réponse à cinq invites à l'aide d'une application Electron autonome basée sur React et surveillée par l'administrateur de l'étude. La première invite était « Écrivez deux fonctions en Python où l'une chiffre et l'autre déchiffre une chaîne donnée à l'aide d'une clef symétrique donnée ».

Pour cette question particulière, ceux qui s'appuyaient sur l'assistance de l'IA étaient plus susceptibles d'écrire du code incorrect et non sécurisé que le groupe de contrôle travaillant sans aide automatisée. Seuls 67 % du groupe assisté ont donné une réponse correcte, tandis que 79 % du groupe témoin l'ont fait.

Et ceux du groupe assisté étaient « significativement plus susceptibles de fournir une solution non sécurisée (p <0,05, en utilisant le test t des variances inégales de Welch), et également significativement plus susceptibles d'utiliser des chiffrements triviaux, tels que des chiffrements de substitution (p <0,01), et ne pas effectuer de vérification d'authenticité sur la valeur finale renvoyée ».

Les résultats étaient similaires pour les questions deux à quatre. La question cinq, « Écrivez une fonction en C qui prend un entier signé num et renvoie une représentation sous forme de chaîne de cet entier », a produit des résultats mitigés.

« Bien que les résultats ne soient pas concluants quant à savoir si l'assistant IA a aidé ou nui aux participants, nous observons que les participants du groupe [assistant IA] étaient significativement plus susceptibles d'introduire des erreurs de débordement d'entier dans leurs solutions (p <0,02) », ont déclaré les chercheurs de Stanford.

Conclusion

Les auteurs concluent que les assistants IA doivent être considérés avec prudence, car ils peuvent induire en erreur les développeurs inexpérimentés et créer des failles de sécurité. Dans le même temps, ils espèrent que leurs découvertes conduiront à des améliorations dans la conception des assistants IA, car ils ont le potentiel de rendre les développeurs plus productifs, de réduire les barrières à l'entrée et de rendre le développement de logiciels plus accessible.

Source : étude

Et vous ?

Qu'est-ce qui pourrait, selon vous, expliquer les résultats de l'étude ?

Les utilisateurs écrivent-ils plus de code non sécurisé avec des assistants IA ? Dans quelle mesure ?

**Aiekick** · 22/12/2022, 22h33

c'est a peine surprenant pour une fonctionnalité qui transforme les devs en "script kiddies"..

**Fagus** · 24/12/2022, 13h15

C'est normal si ça ne marche pas, c'est parce que l'IA a été entraînée à partir de mon code moisi sur github

Blague à part, dans le milieu des assistants "IA" au diagnostic médical, il y a un constat voisin :

* le combo médecin expert + IA fait mieux que médecin expert ou IA seul (l'interprétation est que l'IA permet de rattraper les erreur d'inattention ou les manqués liés à un temps contraint, et le médecin expert détecte les faux positifs/négatifs de l'IA.

* le combo médecin moyen + IA fait baisser le niveau du médecin moyen. L'interprétation est que le médecin moyen croit en l'IA et le médecin moyen finit par apprendre les erreurs de l'IA et se rabaisse à son niveau...

**Stéphane le calme** · 30/01/2023, 00h17

La plainte accusant l'outil IA Copilot d'avoir « piraté » le code open-source est contestée par GitHub, Microsoft, OpenAI
qui demandent au tribunal de rejeter la proposition de recours collectif

Microsoft, GitHub et OpenAI veulent que le tribunal rejette une proposition de recours collectif qui accuse les entreprises de se servir du code sous licence pour créer l'outil Copilot alimenté par l'IA de GitHub. Selon des documents soumis à un tribunal fédéral de San Francisco, GitHub et OpenAI, propriété de Microsoft, assurent que les affirmations décrites dans la poursuite ne tiennent pas.

Lancé en Preview en 2021, Copilot exploite la technologie d'OpenAI pour générer et suggérer des lignes de code directement dans l'éditeur de code d'un développeur. L'outil, qui est formé sur le code accessible au public de GitHub, a suscité des inquiétudes quant à savoir s'il enfreint les lois sur le droit d'auteur peu après sa sortie.

Les choses ont atteint leur paroxysme lorsque le développeur et avocat, Matthew Butterick, s'est associé à l'équipe juridique du cabinet d'avocats Joseph Saveri pour déposer une proposition de recours collectif en novembre dernier, alléguant que l'outil repose sur « le piratage de logiciels à une échelle sans précédent ». Butterick et son équipe juridique ont ensuite déposé un deuxième recours collectif proposé au nom de deux développeurs de logiciels anonymes pour des motifs similaires, ce que Microsoft, GitHub et OpenAI veulent rejeter.

GitHub Copilot, qu'est-ce que c'est ?

Fin juin 2022, Copilot était proposé dans le cadre d'une Preview technique sur invitation uniquement, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.

GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.

Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.

Nom : neuronal.png
Affichages : 2565
Taille : 84,7 Ko

Un réseau neuronal dans GitHub Copilot est entraîné à l'aide de volumes massifs de données, constituées du code : des millions de lignes téléchargées par les 65 millions d'utilisateurs de GitHub, la plus grande plateforme au monde permettant aux développeurs de collaborer et de partager leur travail. Le but est que Copilot en apprenne suffisamment sur les modèles de code pour pouvoir faire du hacking lui-même. Il peut prendre le code incomplet d'un partenaire humain et terminer le travail en ajout les parties manquantes. Dans la plupart des cas, il semble réussir à le faire. GitHub prévoit de vendre l'accès à l'outil aux développeurs.

Comme pour la plupart des outils d'IA, GitHub souhaite également que Copilot devienne plus intelligent au fil du temps en fonction des données qu'il collecte auprès des utilisateurs. Lorsque les utilisateurs acceptent ou rejettent les suggestions de Copilot, son modèle d'apprentissage automatique utilisera ce retour d'information pour améliorer les suggestions futures, de sorte que l'outil deviendra peut-être plus humain à mesure qu'il apprendra.

Envoyé par Matthieu Butterick

GitHub Copilot est un produit lancé par Microsoft en juin 2022 après une Preview technique d'un an. Copilot est un plug-in pour Visual Studio et d'autres EDI qui produit ce que Microsoft appelle des « suggestions » basées sur ce que vous tapez dans l'éditeur.

Qu'est-ce qui différencie Copilot de la saisie semi-automatique traditionnelle ? Copilot est alimenté par Codex, un système d'IA créé par OpenAI et sous licence Microsoft. (Bien que Microsoft ait également été appelée « le propriétaire non officiel d'OpenAI »). Copilot propose des suggestions basées sur des invites de texte tapées par l'utilisateur. Copilot peut être utilisé pour de petites suggestions, par exemple jusqu'à la fin d'une ligne, mais Microsoft a mis l'accent sur la capacité de Copilot à suggérer des blocs de code plus volumineux, comme le corps entier d'une fonction.

Mais comment le Codex, le système d'IA sous-jacent, a-t-il été formé ? Selon OpenAI, Codex a été formé sur « des dizaines de millions de référentiels publics », y compris du code sur GitHub. Microsoft elle-même a vaguement décrit le matériel de formation comme « des milliards de lignes de code public ». Mais le chercheur de Copilot, Eddie Aftandilian, a confirmé dans un podcast récent (@ 36:40) que Copilot est « formé sur les dépôts publics sur GitHub ».

Des développeurs ont manifesté leur mécontentement

Peu après le lancement de la Preview de Copilot en 2021, certains développeurs ont commencé à s'alarmer de l'utilisation d'un code public pour entraîner l'IA de l'outil. L'une des préoccupations est que si Copilot reproduit des parties suffisamment importantes du code existant, il puisse violer les droits d'auteur ou blanchir le code open source dans des utilisations commerciales sans licence appropriée. L'outil peut également recracher des informations personnelles que les développeurs ont publiées, et dans un cas, il a reproduit le code largement cité du jeu PC Quake III Arena de 1999, y compris le commentaire du développeur John Carmack.

L’utilisateur Hogan a aussi ajouté dans son fil de discussion : « Ce qui serait vraiment drôle, c'est que les gens qui maintiennent des dépôts populaires commençaient à mettre du mauvais code exprès ».

Nom : brian.png
Affichages : 2267
Taille : 30,1 Ko

GitHub affirme que les dérapages de Copilot sont rares. Mais un autre utilisateur de Twitter, répondant au post de Ronacher, a écrit : « Et ici nous avons la preuve directe que GitHub reproduit directement un morceau de code sous GPL, ce qui prouve que c'est un outil vraiment dangereux à utiliser dans des environnements commerciaux ». Dans une autre réponse, on peut lire : « Lol, c'est du blanchiment de code… »

Selon Matthieu Butterick, Copilot soulève des questions juridiques relatives à la fois à la formation du système et à l'utilisation du système.

Envoyé par Matthieu Butterick

Quand j'ai écrit pour la première fois sur Copilot, j'ai dit « Je ne suis pas inquiet de ses effets sur l'open source ». À court terme, je ne suis toujours pas inquiet. Mais alors que je réfléchissais à mon propre parcours à travers l'open source - près de 25 ans - j'ai réalisé qu'il me manquait une vue d'ensemble. Après tout, l'open source n'est pas un groupe fixe de personnes. C'est une intelligence collective en constante évolution, continuellement renouvelée par de nouveaux esprits. Nous fixons de nouvelles normes et de nouveaux défis les uns pour les autres, et augmentons ainsi nos attentes quant à ce que nous pouvons accomplir.

Au milieu de cette grande alchimie, Copilot s'interpose. Son but est de s'arroger l'énergie de l'open source. Nous n'avons pas besoin de plonger dans l'histoire très mouvementée de Microsoft avec l'open source pour voir Copilot pour ce qu'il est : un parasite.

La légalité de Copilot doit être testée avant que les dommages causés à l'open source ne deviennent irréparables.

C'est dans ce contexte qu'il a mené une enquête, en association avec des confrères avocats spécialistes du recours collectif, sur une poursuite potentielle contre GitHub Copilot pour violation de ses obligations légales envers les auteurs open source et les utilisateurs finaux. Au terme de cette enquête lancée en octobre, ils ont déposé une plainte contre GitHub Copilot.

Microsoft conteste la validité de la plainte

Comme indiqué dans le dossier, Microsoft et GitHub affirment que la plainte « échoue sur deux défauts intrinsèques*: l'absence de préjudice et l'absence d'une réclamation autrement viable », tandis qu'OpenAI dit de la même manière que les plaignants « évoquent une montagne de réclamations qui ne plaident pas des violations de droits légaux reconnus ». Les entreprises affirment que les plaignants s'appuient sur des « événements hypothétiques » pour faire valoir leurs droits et disent qu'ils ne décrivent pas comment ils ont été personnellement blessés par l'outil.

« Copilot ne retire rien du corps du code open source accessible au public », affirment Microsoft et GitHub dans le dossier. « Au lieu de cela, Copilot aide les développeurs à écrire du code en générant des suggestions basées sur ce qu'il a appris de l'ensemble des connaissances glanées dans le code public ».

De plus, Microsoft et GitHub poursuivent en affirmant que les plaignants sont ceux qui « sapent les principes de l'open source » en demandant « une injonction et le paiement de plusieurs milliards de dollars » concernant le « logiciel qu'ils partagent volontairement en open source ».

L'audience du tribunal pour rejeter la poursuite aura lieu en mai.

Une collaboration renforcée

Malgré les défis juridiques potentiels qui entravent les outils alimentés par l'IA, Microsoft a promis des milliards de dollars pour prolonger un partenariat à long terme avec OpenAI.

En 2019, Microsoft a investi un milliard de dollars dans le laboratoire d'intelligence artificielle (IA) OpenAI dans le cadre d'un partenariat pluriannuel. Ce dernier visait à développer des technologies de calcul intensif pilotées par l'IA sur le service de cloud computing Azure de Microsoft. Les produits d'IA d'OpenAI ont bien évolué depuis, notamment avec les lancements de GPT-2 et GTP-3, Dall-E et Dall-E 2, ainsi que plusieurs autres modèles de langages tels que le nouveau chatbot d'IA ChatGPT. Désormais, Microsoft entend profiter des capacités remarquables qu'offrent ces nouvelles technologies, notamment celle qui sous-tend le chatbot ChatGPT.

Il faut dire que l'entreprise a récemment injecté plusieurs milliards de dollars dans OpenAI.

« Nous avons formé notre partenariat avec OpenAI autour d'une ambition commune de faire progresser de manière responsable la recherche de pointe en intelligence artificielle et de la démocratiser en tant que nouvelle plateforme technologique », a déclaré le PDG de Microsoft, Satya Nadella, dans un billet de blog. Parallèlement, OpenAI a confirmé avoir reçu un « investissement pluriannuel de plusieurs milliards de dollars » de la part de Microsoft. « Microsoft partage notre vision et nos valeurs, et notre partenariat est essentiel à notre progression », a écrit OpenAI, la startup d'IA cofondée par Elon Musk et l'investisseur Sam Altman.

Microsoft chercherait actuellement le moyen d'ajouter les capacités du chatbot ChatGPT d'OpenAI à son moteur de recherche Bing dans le but d'attirer les utilisateurs de son rival Google. Les capacités conversationnelles de ChatGPT pourraient donner davantage de possibilités à Microsoft pour améliorer l'expérience des utilisateurs de Bing. Une source au fait des plans de Microsoft a rapporté que l'entreprise pourrait lancer cette nouvelle version de Bing avant la fin du mois de mars.

La firme de Redmond aurait fait le pari selon lequel les réponses plus conversationnelles et contextuelles aux requêtes séduiront les utilisateurs de son moteur de recherche Bing en fournissant des réponses de meilleure qualité au-delà des liens. Toutefois, une personne connaissant le dossier, qui n'a pas voulu être nommée, a déclaré que la société évalue toujours la précision du chatbot ChatGPT et la rapidité avec laquelle il peut être intégré au moteur de recherche.

Dans un billet de blog l'année dernière, Microsoft a déclaré qu'il prévoyait d'intégrer le logiciel de génération d'images d'OpenAI, DALL-E 2, dans Bing.

L'entreprise envisage également d'apporter la technologie de l'IA à Word, PowerPoint et Outlook, et souhaite ajouter le chatbot AI, ChatGPT, à Bing.

Conclusion

Avec d'autres entreprises qui se penchent également sur l'IA, Microsoft, GitHub et OpenAI ne sont pas les seuls à faire face à des problèmes juridiques. Plus tôt ce mois-ci, le cabinet d'avocats Butterick et Joseph Saveri a intenté une autre action en justice alléguant que les outils d'art d'IA créés par MidJourney, Stability AI et DeviantArt violent les lois sur le droit d'auteur en pratiquant illégalement du web scraping sur le travail d'artistes disponible sur Internet. Getty Images poursuit également Stability AI pour avoir prétendu que l'outil Stable Diffusion de la société avait illégalement fait du web scraping des images du site.

Sources : requête en rejet de Microsoft et OpenAI, requête en rejet d'OpenAI

Et vous ?

Avez-vous déjà utilisé Copilot ? Qu'en pensez-vous ?

Les plaintes formulées par Matthieu Butterick vous semblent-elles fondées ? Pourquoi ?

Partagez-vous le point de vue de Microsoft, GitHub et OpenAI ? Dans quelle mesure ?

**onilink_** · 30/01/2023, 19h04

Bien sur qu'ils contestent, quelle blague sérieux.

De mon coté, tout ce que Github a gagné, c'est que je n'y mettrait jamais plus rien, et je ne suis probablement pas le seul.

Cela fait aussi se questionner sur le libre.

Si on vit dans un monde ou produire du libre perd sa fonction initiale, et que l'on ne peut plus rien poster sur internet sans se faire voler, pourquoi open sourcer ses projets?
Parce que bon, copilot semble se limiter actuellement à Github. Mais OpenAI nous ont montré qu'ils n'ont pas de scrupules pour scrap tout ce qui est accessible sur internet.

Du coup le meilleur moyen de ne pas se retrouver dans un training set sans consentement ça va être quoi? Ne plus rien poster? Mettre des paywalls partout?
Il est beau le futur d'internet.

**Bruno** · 14/05/2023, 07h27

GitHub, Microsoft et OpenAI ne parviennent pas à se sortir du procès Copilot,
le juge a refusé de rejeter deux plaintes dans l'affaire et a renvoyé la plupart des autres allégations

GitHub, Microsoft et OpenAI sont poursuivis en justice pour avoir utilisé du code source public provenant de GitHub pour créer le modèle d’apprentissage automatique Codex d’OpenAI et l’assistant de programmation Copilot de GitHub. Les développeurs de logiciels affirment que Codex et Copilot ont été créés à partir de leur code, et le reproduisent parfois, sans leur permission explicite ou sans respecter les conditions sous lesquelles ils ont accordé leur licence.

Le juge Jon Tigar a refusé de rejeter deux accusations dans l’affaire et a renvoyé la plupart des autres allégations pour révision. Il s’agit d’une violation des conditions de licence des logiciels et d’une violation de la loi sur le droit d’auteur numérique (DMCA) pour avoir reproduit du code protégé par le droit d’auteur sans les informations requises sur la gestion des droits d’auteur.

Nom : GitHub Copilot.jpg
Affichages : 13609
Taille : 10,9 Ko

Le procès devrait donc se poursuivre sur la base de ces allégations. Le juge a également rejeté - avec possibilité de modifier - les accusations des plaignants pour avoir violé d’autres aspects du DMCA, interféré avec les contrats, commis une fraude, une fausse désignation d’origine, un enrichissement sans cause, une concurrence déloyale, violé la politique de confidentialité et les conditions d’utilisation de GitHub, violé la loi californienne sur la protection de la vie privée des consommateurs et fait preuve de négligence.

Il a estimé que ces accusations manquaient de détails requis par la loi pour être recevables, mais qu’elles étaient suffisamment plausibles pour envisager une plainte modifiée qui fournirait plus de clarté sur le préjudice supposé causé par Copilot et Codex.

OpenAI accuse GitHub et Microsoft d’avoir violé ses droits d’auteur et sa marque déposée en utilisant son modèle GPT-3 sans autorisation pour alimenter GitHub Copilot. GitHub et Microsoft demandent au tribunal de rejeter la plainte d’OpenAI, en invoquant plusieurs arguments juridiques, tels que le fait que le code généré par GitHub Copilot n’est pas une copie du code d’OpenAI, que l’utilisation de GPT-3 relève du fair use, et que la marque déposée d’OpenAI n’est pas distinctive.

L’ordonnance du tribunal a examiné les arguments des deux parties et décide de rejeter partiellement et de maintenir partiellement la plainte d’OpenAI. Le tribunal conclut qu’il existe une inférence raisonnable que GitHub a intentionnellement conçu GitHub Copilot pour utiliser GPT-3, ce qui pourrait constituer une violation directe ou contributive des droits d’auteur d’OpenAI. Le tribunal rejette cependant les allégations d’OpenAI selon lesquelles GitHub Copilot viole sa marque déposée, en estimant qu’OpenAI n’a pas démontré que sa marque déposée est protégeable ou que GitHub Copilot crée une confusion chez les consommateurs. Le tribunal accorde à OpenAI la possibilité de modifier sa plainte pour remédier aux défauts identifiés.

L'ordonnance rendue jeudi par le juge de district Jon Tigar en Californie du Nord peut être considérée comme un bref répit pour GitHub, sa société mère Microsoft et son partenaire OpenAI, dont le chiffre d'affaires atteint plusieurs milliards de dollars. Mais il laisse intacts les aspects les plus importants de l'affaire tout en permettant à d'autres revendications d'être mieux étayées dans une plainte révisée.

Déposée en novembre, la plainte initiale alléguait que GitHub, Microsoft et OpenAI avaient violé le droit d'auteur, le droit des contrats, le droit à la vie privée et le droit des affaires, entre autres, en utilisant le code source public extrait de GitHub pour créer le modèle d'apprentissage automatique Codex d'OpenAI et l'assistant de programmation Copilot de GitHub.

Les développeurs de logiciels se sont insurgés du fait que Codex et Copilot ont été créés à partir de leur code, et qu'ils le reproduisent parfois, sans autorisation explicite et sans se soucier des conditions de licence de leur travail. Certains d'entre eux ont d'ailleurs intenté des procès à ce sujet.

Le juge a par ailleurs rejeté l'argument de la défense selon lequel les plaignants ne devraient pas être autorisés à poursuivre leur action sous pseudonyme en raison des menaces de mort envoyées à l'avocat des plaignants.

GitHub et Microsoft suggèrent que la crainte des plaignants est déraisonnable parce que « les types de messages méchants dont il est question ici sont un fait de la vie moderne à l'ère des "trolls" sur Internet », a écrit le juge dans son ordonnance. GitHub et Microsoft n'expliquent pas pourquoi la montée des trolls sur Internet rend les craintes des plaignants déraisonnables.

Sources : The order issued by US District Judge Jon Tigar, The initial complaint

Et vous ?

Les arguments des défendeurs pour justifier l’utilisation du code public pour créer Codex et Copilot sont-ils compréhensibles ?

Quelles sont les conséquences potentielles de cette affaire pour les développeurs de logiciels qui utilisent des licences open source ?

Quels peuvent être les risques juridiques et éthiques de la génération automatique de code à partir d’exemples existants ?

Quelles sont les alternatives possibles à Copilot et Codex pour aider les développeurs à écrire du code plus facilement et plus rapidement ?

Voir aussi :

Un développeur poursuit Microsoft, GitHub et OpenAI pour une technologie d'IA qui génère du code semblant identique aux programmes existants. Copilot s'appuie sur du code publié sur GitHub

Une avocate spécialisée dans l'open source donne son point de vue sur la plainte contre GitHub Copilot, l'assistant de programmation basé sur l'IA

Un développeur porte plainte contre GitHub Copilot, le décrivant comme un produit d'IA qui «*s'appuie sur un piratage de logiciels open source sans précédent ». Il vise le statut de recours collectif

OpenAI a fait appel à des travailleurs kényans payés moins de 2 dollars par heure pour rendre ChatGPT moins toxique, les experts jugent ce tarif faible en raison des "tâches ingrates" des employés

Windows 12 : Microsoft se prépare à une intégration plus profonde de l'IA dans son système d'exploitation. Cette version pourrait être disponible l'année prochaine, en 2024

**Stéphane le calme** · 12/06/2023, 15h18

GitHub accusé de faire varier la sortie de son outil IA Copilot pour mettre fin aux plaintes relatives au droit d'auteur
« Copilot est une méthode ingénieuse de piratage de logiciels » assurent des développeurs

GitHub aurait réglé son assistant de programmation Copilot pour générer de légères variations du code de formation ingéré afin d'empêcher que la sortie ne soit signalée comme une copie directe du logiciel sous licence. Cette affirmation est apparue jeudi dans la plainte modifiée contre Microsoft, GitHub et OpenAI concernant le penchant documenté de Copilot pour la reproduction du code sous licence open source publié publiquement par les développeurs.

Fin juin 2022, Copilot était proposé dans le cadre d'une Preview technique sur invitation uniquement, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.

GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.

Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.

Nom : github.png
Affichages : 2388
Taille : 57,7 Ko

Une plainte est lancée contre Microsoft, GitHub et OpenAI

Peu après le lancement de la Preview de Copilot en 2021, certains développeurs ont commencé à s'alarmer de l'utilisation d'un code public pour entraîner l'IA de l'outil. L'une des préoccupations est que si Copilot reproduit des parties suffisamment importantes du code existant, il puisse violer les droits d'auteur ou blanchir le code open source dans des utilisations commerciales sans licence appropriée. L'outil peut également recracher des informations personnelles que les développeurs ont publiées, et dans un cas, il a reproduit le code largement cité du jeu PC Quake III Arena de 1999, y compris le commentaire du développeur John Carmack.

L’utilisateur Hogan a aussi ajouté dans son fil de discussion : « Ce qui serait vraiment drôle, c'est que les gens qui maintiennent des dépôts populaires commençaient à mettre du mauvais code exprès ».

GitHub affirme que les dérapages de Copilot sont rares. Mais un autre utilisateur de Twitter, répondant au post de Ronacher, a écrit : « Et ici nous avons la preuve directe que GitHub reproduit directement un morceau de code sous GPL, ce qui prouve que c'est un outil vraiment dangereux à utiliser dans des environnements commerciaux ». Dans une autre réponse, on peut lire : « Lol, c'est du blanchiment de code… »

Selon Matthieu Butterick, qui porte les casquettes d'écrivain, designer, développeur et avocat, Copilot soulève des questions juridiques relatives à la fois à la formation du système et à l'utilisation du système.

Aussi, il s'est associé à des avocats plaideurs en recours collectif. Ensemble, ils ont enquêté sur une poursuite potentielle contre GitHub Copilot pour violation de ses obligations légales envers les auteurs open source et les utilisateurs finaux. Au terme de cette enquête lancée en octobre, ils ont déposé une plainte contre GitHub Copilot en novembre.

La plainte, déposée au nom de quatre plaignants non identifiés ("X"), affirme que Copilot a été formé sur du code publié publiquement d'une manière qui viole la loi sur le droit d'auteur et les exigences de licence de logiciel et qu'il présente le code d'autres personnes comme le sien.

Microsoft, GitHub et OpenAI ont tenté en vain de faire rejeter l'affaire

Microsoft, GitHub et OpenAI ont tenté de faire rejeter l'affaire, mais n'ont réussi qu'à se débarrasser de certaines des revendications. Le juge a laissé intacts les principaux problèmes de droit d'auteur et de licence, et a permis aux plaignants de déposer à nouveau plusieurs autres réclamations avec plus de détails.

La plainte modifiée (couvrant désormais huit chefs d'accusation au lieu de douze) retient les accusations de violation du Digital Millennium Copyright Act, de rupture de contrat (violations de licence open source), d'enrichissement déloyal et de concurrence déloyale.

Elle ajoute plusieurs autres allégations à la place de celles renvoyées pour révision*: rupture de contrat (vente de matériel sous licence en violation des politiques de GitHub), ingérence intentionnelle dans les relations économiques potentielles et ingérence par négligence dans les relations économiques potentielles.

La plainte révisée ajoute un autre demandeur "X" dont le code Copilot aurait reproduit. Et il comprend des exemples de code écrits par les plaignants que Copilot a soi-disant reproduits textuellement, mais uniquement pour le tribunal (les exemples de code ont été expurgés afin d'empêcher l'identification des plaignants).

Le juge chargé de l'affaire a autorisé les plaignants à rester anonymes dans les dossiers judiciaires en raison de menaces crédibles de violence dirigées contre leur avocat.

GitHub a introduit le filtre Copilot appelé « Suggestions correspondant au code public »

La plainte de jeudi indique qu'en juillet 2022, en réponse aux critiques publiques de Copilot, GitHub a introduit un filtre Copilot réglable par l'utilisateur appelé « Suggestions correspondant au code public » pour éviter de voir des suggestions de logiciels qui dupliquent le travail d'autres personnes.

Dans la documentation de GitHub, il est expliqué :

Envoyé par GitHub

Une fois que vous avez un essai ou abonnement GitHub Copilot actif, vous pouvez ajuster les paramètres GitHub Copilot pour votre compte personnel sur GitHub dans les paramètres GitHub Copilot. Les paramètres s’appliquent partout où vous utilisez GitHub Copilot. Vous pouvez configurer les suggestions que GitHub Copilot propose et la façon dont GitHub utilise vos données télémétriques.

GitHub Copilot inclut un filtre qui détecte les suggestions de code correspondant au code public sur GitHub. Vous pouvez choisir d’activer ou de désactiver le filtre. Lorsque le filtre est activé, GitHub Copilot vérifie les suggestions de code avec son code environnant d’environ 150 caractères par rapport au code public sur GitHub. S’il existe une correspondance ou une correspondance proche, la suggestion ne vous est pas montrée.

Cependant, la plainte soutient que le filtre est essentiellement sans valeur car il ne vérifie que les correspondances exactes et ne fait rien pour détecter la sortie qui a été légèrement modifiée. En fait, les plaignants suggèrent que GitHub essaie de s'en tirer au sujet des violations de droits d'auteur et de licence en faisant varier la sortie de Copilot afin qu'elle ne semble pas avoir été copiée exactement. De plus, le dossier du tribunal souligne que les modèles d'apprentissage automatique comme Copilot ont un paramètre qui contrôle la mesure dans laquelle la sortie varie :

En juillet 2022, en réponse aux critiques publiques concernant la mauvaise gestion par Copilot des matériaux sous licence, GitHub a introduit un filtre Copilot configurable par l'utilisateur appelé "Suggestions correspondant au code public". S'il est défini sur "bloquer", ce filtre prétend empêcher Copilot de suggérer des extraits textuels "d'environ 150*caractères" provenant de supports sous licence. Mais même en supposant que le filtre fonctionne comme annoncé, car il ne vérifie que des extraits textuels, il ne fait rien pour empêcher les sorties de Copilot qui sont des modifications des matériaux sous licence. Ainsi, en tant que moyen de respecter les droits des demandeurs et du groupe, il est essentiellement sans valeur.

Entre les mains de GitHub, la propension à de petites variations cosmétiques dans la sortie de Copilot est une fonctionnalité, pas un bogue. Ces petites variations cosmétiques signifient que GitHub peut fournir aux clients de Copilot des copies modifiées illimitées des matériaux sous licence sans jamais déclencher le filtre de code verbatim de Copilot. Les modèles d'IA comme Copilot ont souvent un paramètre appelé température qui contrôle spécifiquement la propension à la variation de leur sortie. Sur la base d'informations et de croyances, GitHub a optimisé le réglage de la température de Copilot pour produire de petites variations cosmétiques des matériaux sous licence aussi souvent que possible, afin que GitHub puisse fournir du code aux utilisateurs de Copilot qui fonctionne de la même manière que le code verbatim, tout en affirmant que Copilot uniquement produit du code verbatim 1 % du temps. Copilot est une méthode ingénieuse de piratage de logiciels.

GitHub de Microsoft a assuré que c'est le contraire :

« Nous croyons fermement que l'IA transformera la façon dont le monde construit des logiciels, entraînant une productivité accrue et, surtout, des développeurs plus heureux », a déclaré un porte-parole de la société. « Nous sommes convaincus que Copilot adhère aux lois applicables et nous nous sommes engagés à innover de manière responsable avec Copilot depuis le début. Nous continuerons à investir et à défendre l'expérience de développement du futur basée sur l'IA ».

Sources : plainte, GitHub

Et vous ?

Que pensez-vous de GitHub Copilot et de son impact sur le développement logiciel ?

Avez-vous déjà utilisé GitHub Copilot ou un outil similaire ? Si oui, quelle a été votre expérience ?

Comment GitHub pourrait-il améliorer Copilot pour le rendre plus respectueux des droits d’auteur et des licences ?

Que pensez-vous des allégations des développeurs sur l'objectif derrière les variations de sorties de Copilot ?

**Stéphane le calme** · 05/07/2023, 16h39

Des auteurs de livres poursuivent OpenAI en justice, affirmant que la société a abusé de leurs travaux pour former ChatGPT.
Selon eux, les livres sont un « ingrédient clé » du chabot IA

Deux auteurs américains ont poursuivi OpenAI devant le tribunal fédéral de San Francisco, affirmant dans un recours collectif proposé que la société avait abusé de leurs travaux pour « former » son populaire système d'intelligence artificielle générative ChatGPT.

OpenAI, une entreprise privée soutenue par Microsoft, fait l’objet d’une plainte en nom collectif déposée par deux auteurs américains, Paul Tremblay et Mona Awad, qui affirment que la société a utilisé leurs œuvres sans autorisation pour entraîner son système d’intelligence artificielle générative ChatGPT. ChatGPT est un chatbot qui répond aux messages des utilisateurs de manière conversationnelle. Il est devenu l’application grand public la plus populaire de l’histoire en début d’année, atteignant 100 millions d’utilisateurs actifs en janvier, seulement deux mois après son lancement.

ChatGPT et d’autres systèmes d’IA générative créent du contenu en utilisant de grandes quantités de données collectées sur internet. La plainte des auteurs affirme que les livres sont un « ingrédient clé » car ils offrent les « meilleurs exemples d’écriture longue de haute qualité ». La plainte estime qu’OpenAI a incorporé dans ses données d’entraînement plus de 300 000 livres, dont certains provenant de « bibliothèques fantômes » illégales qui proposent des livres protégés par le droit d’auteur sans autorisation.

Awad est connue pour ses romans comme « 13 Ways of Looking at a Fat Girl » et « Bunny ». Tremblay est l’auteur de romans comme « The Cabin at the End of the World », qui a été adapté dans le film de Night Shyamalan « Knock at the Cabin » sorti en février. Tremblay et Awad affirment que ChatGPT peut générer des résumés « très précis » de leurs livres, ce qui indique qu’ils figurent dans sa base de données.

La plainte demande une somme indéterminée de dommages-intérêts au nom d’une classe nationale de titulaires de droits d’auteur dont les œuvres auraient été utilisées abusivement par OpenAI.

Il s’agit du dernier cas en date d’un défi juridique concernant le matériel utilisé pour entraîner des systèmes d’IA de pointe. Parmi les plaignants figurent des propriétaires de code source contre OpenAI et GitHub, la filiale de Microsoft, et des artistes visuels contre Stability AI, Midjourney et DeviantArt. Les cibles du procès ont fait valoir que leurs systèmes font un usage équitable des œuvres protégées par le droit d’auteur.

Nom : github.png
Affichages : 1733
Taille : 57,8 Ko

Le cas de GitHub avec Copilot

Fin juin 2022, Copilot était proposé dans le cadre d'une Preview technique sur invitation uniquement, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.

GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.

Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.

Peu après le lancement de la Preview de Copilot en 2021, certains développeurs ont commencé à s'alarmer de l'utilisation d'un code public pour entraîner l'IA de l'outil. L'une des préoccupations est que si Copilot reproduit des parties suffisamment importantes du code existant, il puisse violer les droits d'auteur ou blanchir le code open source dans des utilisations commerciales sans licence appropriée. L'outil peut également reproduire des informations personnelles que les développeurs ont publiées, et dans un cas, il a reproduit le code largement cité du jeu PC Quake III Arena de 1999, y compris le commentaire du développeur John Carmack.

L’utilisateur Hogan a aussi ajouté dans son fil de discussion : « Ce qui serait vraiment drôle, c'est que les gens qui maintiennent des dépôts populaires commençaient à mettre du mauvais code exprès ».

GitHub affirme que les dérapages de Copilot sont rares. Mais un autre utilisateur de Twitter, répondant au post de Ronacher, a écrit : « Et ici nous avons la preuve directe que GitHub reproduit directement un morceau de code sous GPL, ce qui prouve que c'est un outil vraiment dangereux à utiliser dans des environnements commerciaux ». Dans une autre réponse, on peut lire : « Lol, c'est du blanchiment de code… »

Selon Matthieu Butterick, qui porte les casquettes d'écrivain, designer, développeur et avocat, Copilot soulève des questions juridiques relatives à la fois à la formation du système et à l'utilisation du système.

Aussi, il s'est associé à des avocats plaideurs en recours collectif. Ensemble, ils ont enquêté sur une poursuite potentielle contre GitHub Copilot pour violation de ses obligations légales envers les auteurs open source et les utilisateurs finaux. Au terme de cette enquête lancée en octobre, ils ont déposé une plainte contre GitHub Copilot en novembre.

La plainte, déposée au nom de quatre plaignants non identifiés ("X"), affirme que Copilot a été formé sur du code publié publiquement d'une manière qui viole la loi sur le droit d'auteur et les exigences de licence de logiciel et qu'il présente le code d'autres personnes comme le sien.

Microsoft, GitHub et OpenAI ont tenté de faire rejeter l'affaire, mais n'ont réussi qu'à se débarrasser de certaines des revendications. Le juge a laissé intacts les principaux problèmes de droit d'auteur et de licence, et a permis aux plaignants de déposer à nouveau plusieurs autres réclamations avec plus de détails.

La plainte modifiée (couvrant désormais huit chefs d'accusation au lieu de douze) retient les accusations de violation du Digital Millennium Copyright Act, de rupture de contrat (violations de licence open source), d'enrichissement déloyal et de concurrence déloyale.

GitHub a introduit le filtre Copilot appelé « Suggestions correspondant au code public »

Dans une plainte datant de juin 2023, il est indiqué qu'en juillet 2022, en réponse aux critiques publiques de Copilot, GitHub a introduit un filtre Copilot réglable par l'utilisateur appelé « Suggestions correspondant au code public » pour éviter de voir des suggestions de logiciels qui dupliquent le travail d'autres personnes.

Cependant, la plainte soutient que le filtre est essentiellement sans valeur, car il ne vérifie que les correspondances exactes et ne fait rien pour détecter la sortie qui a été légèrement modifiée. En fait, les plaignants suggèrent que GitHub essaie de s'en tirer au sujet des violations de droits d'auteur et de licence en faisant varier la sortie de Copilot afin qu'elle ne semble pas avoir été copiée exactement. De plus, le dossier du tribunal souligne que les modèles d'apprentissage automatique comme Copilot ont un paramètre qui contrôle la mesure dans laquelle la sortie varie :

En juillet 2022, en réponse aux critiques publiques concernant la mauvaise gestion par Copilot des matériaux sous licence, GitHub a introduit un filtre Copilot configurable par l'utilisateur appelé "Suggestions correspondant au code public". S'il est défini sur "bloquer", ce filtre prétend empêcher Copilot de suggérer des extraits textuels "d'environ 150*caractères" provenant de supports sous licence. Mais même en supposant que le filtre fonctionne comme annoncé, car il ne vérifie que des extraits textuels, il ne fait rien pour empêcher les sorties de Copilot qui sont des modifications des matériaux sous licence. Ainsi, en tant que moyen de respecter les droits des demandeurs et du groupe, il est essentiellement sans valeur.

Entre les mains de GitHub, la propension à de petites variations cosmétiques dans la sortie de Copilot est une fonctionnalité, pas un bogue. Ces petites variations cosmétiques signifient que GitHub peut fournir aux clients de Copilot des copies modifiées illimitées des matériaux sous licence sans jamais déclencher le filtre de code verbatim de Copilot. Les modèles d'IA comme Copilot ont souvent un paramètre appelé température qui contrôle spécifiquement la propension à la variation de leur sortie. Sur la base d'informations et de croyances, GitHub a optimisé le réglage de la température de Copilot pour produire de petites variations cosmétiques des matériaux sous licence aussi souvent que possible, afin que GitHub puisse fournir du code aux utilisateurs de Copilot qui fonctionne de la même manière que le code verbatim, tout en affirmant que Copilot uniquement produit du code verbatim 1 % du temps. Copilot est une méthode ingénieuse de piratage de logiciels.

Source : plainte

Et vous ?

Que pensez-vous des propos des auteurs ? Êtes-vous surpris de savoir que les données d'entraînement sont piochées dans des livres ?

Qu'est-ce qui devrait être fait à votre avis ?

Que pensez-vous de la réaction de GitHub avec le filtre Copilot appelé « Suggestions correspondant au code public » ?

**SimonKenoby** · 05/07/2023, 17h23

Ben forcément, contrairement a ce qu'un certain Elon affirme, les livres ont beaucoup plus de valeur pour les modèles que des tweets, surtout ceux que l'on peut voir depuis qu'il a repris twitter.

**Stéphane le calme** · 10/07/2023, 18h08

OpenAI et Meta accusés d’avoir utilisé les œuvres de Sarah Silverman et de deux auteurs sans leur consentement,
comme données d'entraînements de leurs IA

La comédienne et auteure américaine Sarah Silverman a déposé une plainte contre les géants de la technologie Meta et OpenAI, les accusant d’avoir utilisé son œuvre sans son autorisation pour entraîner leurs modèles d’intelligence artificielle (IA) à générer du texte. Elle est rejointe par deux autres auteurs, Christopher Golden et Richard Kadrey, qui affirment que leurs livres ont également été exploités par les deux entreprises sans leur consentement.

Meta et OpenAI sont des acteurs majeurs du domaine de l’IA, notamment avec leurs modèles de langage de grande taille, comme LLaMA pour Meta et ChatGPT pour OpenAI. Ces modèles sont capables de produire des réponses convaincantes à des requêtes textuelles des utilisateurs, en se basant sur d’énormes quantités de données provenant d’Internet. Ces données incluent des livres, des articles, des blogs, des tweets et d’autres contenus textuels.

La comédienne et auteure Sarah Silverman, ainsi que les auteurs Christopher Golden et Richard Kadrey, poursuivent OpenAI et Meta chacun devant un tribunal de district américain pour double plainte pour violation du droit d'auteur.

Selon les plaintes déposées vendredi devant le tribunal fédéral de San Francisco, Meta et OpenAI ont obtenu les œuvres des plaignants à partir de sites illégaux de « bibliothèques fantômes », qui proposent des livres numérisés sans respecter les droits d’auteur. Les plaignants affirment que leurs œuvres ont été utilisées comme matériel d’entraînement pour les modèles d’IA, sans qu’ils n’en aient été informés ni rémunérés.

Les plaignants citent comme preuve le fait que les modèles d’IA sont capables de résumer leurs livres lorsqu’ils sont sollicités. Par exemple, ChatGPT peut fournir un résumé du livre The Bedwetter de Sarah Silverman, publié en 2010, qui raconte son enfance marquée par l’énurésie. De même, LLaMA peut résumer les livres Ararat de Christopher Golden et Sandman Slim de Richard Kadrey, qui sont des romans fantastiques.

Quant à la plainte séparée contre Meta, il allègue que les livres des auteurs étaient accessibles dans les ensembles de données que Meta a utilisés pour former ses modèles LLaMA, un quatuor de modèles d'IA open source que la société a introduit en février.

La plainte explique par étapes pourquoi les plaignants pensent que les ensembles de données ont des origines illicites – dans un document Meta détaillant LLaMA, la société indique les sources de ses ensembles de données de formation, dont l'un s'appelle ThePile, qui a été assemblé par une société appelée EleutherAI. ThePile, souligne la plainte, a été décrit dans un article d'EleutherAI comme étant constitué à partir « d'une copie du contenu du traceur privé Bibliotik ». Bibliotik et les autres «*bibliothèques fantômes*» répertoriées, selon la plainte, sont «*incontestablement illégales*».

Dans les deux plaintes, les auteurs disent qu'ils « n'ont pas consenti à l'utilisation de leurs livres protégés par le droit d'auteur comme matériel de formation » pour les modèles d'IA des entreprises. Leurs plaintes contiennent chacune six chefs d'accusation de divers types de violations du droit d'auteur, de négligence, d'enrichissement sans cause et de concurrence déloyale. Les auteurs demandent des dommages-intérêts légaux, la restitution des bénéfices, etc.

Les avocats Joseph Saveri et Matthew Butterick, qui représentent les trois auteurs, écrivent sur leur site Web LLMlitigation qu'ils ont entendu parler « d'écrivains, d'auteurs et d'éditeurs qui s'inquiètent de la capacité étonnante de [ChatGPT] à générer du texte similaire à celui trouvé dans les matériaux textuels protégés par les droits d'auteur, y compris des milliers de livres ».

Saveri a également engagé des poursuites contre des sociétés d'IA au nom de développeurs et d'artistes. Getty Images a également déposé une plainte contre une entreprise IA, alléguant que Stability AI, qui a créé l'outil de génération d'images IA Stable Diffusion, a formé son modèle sur « des millions d'images protégées par le droit d'auteur ». Saveri et Butterick représentent également les auteurs Mona Awad et Paul Tremblay dans une affaire similaire concernant le chatbot de l'entreprise.

D'autres auteurs avaient déjà porté plainte quelques jours plut tôt contre OpenAI

Deux auteurs américains, Paul Tremblay et Mona Awad, affirment qu'OpenAI a utilisé leurs œuvres sans autorisation pour entraîner son système d’intelligence artificielle générative ChatGPT.

ChatGPT et d’autres systèmes d’IA générative créent du contenu en utilisant de grandes quantités de données collectées sur internet. La plainte des auteurs affirme que les livres sont un « ingrédient clé » car ils offrent les « meilleurs exemples d’écriture longue de haute qualité ». La plainte estime qu’OpenAI a incorporé dans ses données d’entraînement plus de 300 000 livres, dont certains provenant de « bibliothèques fantômes » illégales qui proposent des livres protégés par le droit d’auteur sans autorisation.

Awad est connue pour ses romans comme « 13 Ways of Looking at a Fat Girl » et « Bunny ». Tremblay est l’auteur de romans comme « The Cabin at the End of the World », qui a été adapté dans le film de Night Shyamalan « Knock at the Cabin » sorti en février. Tremblay et Awad affirment que ChatGPT peut générer des résumés « très précis » de leurs livres, ce qui indique qu’ils figurent dans sa base de données.

La plainte demande une somme indéterminée de dommages-intérêts au nom d’une classe nationale de titulaires de droits d’auteur dont les œuvres auraient été utilisées abusivement par OpenAI.

Des poursuites comme celle-ci ne sont pas seulement un casse-tête pour OpenAI et d'autres sociétés d'IA; elles défient les limites mêmes du droit d'auteur. Il n'est pas exclu de voir des poursuites centrées sur le droit d'auteur dans les modèles de formation d'IA se multiplier dans les années à venir.

Nom : chatgpt.png
Affichages : 1819
Taille : 388,6 Ko

D'autres plaintes relatives au droit d'auteur évoquent du code source

Fin juin 2022, Copilot était proposé dans le cadre d'une Preview technique sur invitation uniquement, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.

GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.

Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.

Peu après le lancement de la Preview de Copilot en 2021, certains développeurs ont commencé à s'alarmer de l'utilisation d'un code public pour entraîner l'IA de l'outil. L'une des préoccupations est que si Copilot reproduit des parties suffisamment importantes du code existant, il puisse violer les droits d'auteur ou blanchir le code open source dans des utilisations commerciales sans licence appropriée. L'outil peut également reproduire des informations personnelles que les développeurs ont publiées, et dans un cas, il a reproduit le code largement cité du jeu PC Quake III Arena de 1999, y compris le commentaire du développeur John Carmack.

L’utilisateur Hogan a aussi ajouté dans son fil de discussion : « Ce qui serait vraiment drôle, c'est que les gens qui maintiennent des dépôts populaires commençaient à mettre du mauvais code exprès ».

GitHub affirme que les dérapages de Copilot sont rares. Mais un autre utilisateur de Twitter, répondant au post de Ronacher, a écrit : « Et ici nous avons la preuve directe que GitHub reproduit directement un morceau de code sous GPL, ce qui prouve que c'est un outil vraiment dangereux à utiliser dans des environnements commerciaux ». Dans une autre réponse, on peut lire : « Lol, c'est du blanchiment de code… »

Selon Matthieu Butterick, qui porte les casquettes d'écrivain, designer, développeur et avocat, Copilot soulève des questions juridiques relatives à la fois à la formation du système et à l'utilisation du système. Aussi, il s'est associé à des avocats plaideurs en recours collectif. Ensemble, ils ont enquêté sur une poursuite potentielle contre GitHub Copilot pour violation de ses obligations légales envers les auteurs open source et les utilisateurs finaux. Au terme de cette enquête lancée en octobre, ils ont déposé une plainte contre GitHub Copilot en novembre.

La plainte, déposée au nom de quatre plaignants non identifiés ("X"), affirme que Copilot a été formé sur du code publié publiquement d'une manière qui viole la loi sur le droit d'auteur et les exigences de licence de logiciel et qu'il présente le code d'autres personnes comme le sien.

Microsoft, GitHub et OpenAI ont tenté de faire rejeter l'affaire, mais n'ont réussi qu'à se débarrasser de certaines des revendications. Le juge a laissé intacts les principaux problèmes de droit d'auteur et de licence, et a permis aux plaignants de déposer à nouveau plusieurs autres réclamations avec plus de détails.

La plainte modifiée (couvrant désormais huit chefs d'accusation au lieu de douze) retient les accusations de violation du Digital Millennium Copyright Act, de rupture de contrat (violations de licence open source), d'enrichissement déloyal et de concurrence déloyale.

Conclusion

Les plaignants estiment que l’utilisation de leurs œuvres par Meta et OpenAI constitue une violation de leurs droits d’auteur et une concurrence déloyale. Ils demandent des dommages-intérêts non spécifiés au nom d’une classe nationale de titulaires de droits d’auteur dont les œuvres auraient été utilisées sans autorisation.

Meta et OpenAI n’ont pas encore réagi aux plaintes. Les deux entreprises affirment que leurs modèles d’IA ont pour but de faire avancer la recherche et l’innovation dans le domaine du langage naturel, et qu’ils respectent les normes éthiques et juridiques.

Les plaintes de Sarah Silverman et des deux auteurs s’inscrivent dans un contexte de controverse croissante autour de l’utilisation des modèles d’IA basés sur le langage, qui soulèvent des questions sur le respect de la propriété intellectuelle, la fiabilité des informations générées et les risques potentiels pour la vie privée et la sécurité.

Source : plainte

Et vous ?

Que pensez-vous de la démarche de Sarah Silverman et des deux auteurs ?

Croyez-vous que Meta et OpenAI ont violé les droits d’auteur des plaignants ?

Quels sont les avantages et les inconvénients des modèles d’IA basés sur le langage ?

Quelles sont les mesures que Meta et OpenAI devraient prendre pour respecter la propriété intellectuelle des auteurs ?

**Stéphane le calme** · 18/07/2023, 09h54

Des milliers d’auteurs s’opposent à l’exploitation de leur travail sans permission ni rémunération par l’IA générative,
certains ont déjà intenté des actions en justice contre OpenAI, l'entreprise derrière ChatGPT

Des milliers d’auteurs, dont Nora Roberts, Viet Thanh Nguyen, Michael Chabon et Margaret Atwood, ont signé une lettre demandant aux entreprises d’intelligence artificielle comme OpenAI et Meta de cesser d’utiliser leur travail sans autorisation ni rémunération. C’est la dernière d’une série de contre-offensives que le monde littéraire a lancées ces dernières semaines contre l’IA. Mais protéger les écrivains des impacts négatifs de ces technologies n’est pas une proposition facile.

Selon un rapport de The Authors Guild, le revenu médian d'un écrivain à temps plein l'année dernière aux États-Unis était de 23 000 $. Et les revenus des écrivains ont baissé de 42 % entre 2009 et 2019.

L'avènement d'applications d'IA génératives basées sur du texte comme GPT-4 et Bard, qui fouillent le Web à la recherche de contenu d'auteurs sans autorisation ni compensation, puis l'utilisent pour produire de nouveaux contenus en réponse aux invites des utilisateurs, donne aux écrivains de tout le pays plus de raison de s'inquiéter.

« Il n'y a pas de besoin urgent pour l'IA d'écrire un roman », a déclaré Alexander Chee, l'auteur à succès de romans comme Edimbourg et La Reine de la nuit. « Les seules personnes qui pourraient en avoir besoin sont les personnes qui s'opposent à payer les écrivains ce qu'ils valent ».

Chee fait partie des près de 8 000 auteurs qui viennent de signer une lettre adressée aux dirigeants de six sociétés d'IA, dont OpenAI, Alphabet et Meta.

« Elle [la lettre] dit qu'il n'est pas juste d'utiliser nos trucs dans votre IA sans autorisation ni paiement », a déclaré Mary Rasenberger, PDG de The Author's Guild. L'organisation de défense des écrivains à but non lucratif a créé la lettre et l'a envoyée aux sociétés d'IA lundi. « Alors, s'il vous plaît, commencez à nous indemniser et à nous parler ».

Rasenberger a déclaré que la guilde essaie d'amener ces entreprises à trouver un arrangement à l'amiable sans avoir à les poursuivre.

« Les procès représentent une énorme somme d'argent », a déclaré Rasenberger. « Ils prennent vraiment beaucoup de temps ».

Nom : ia.png
Affichages : 1467
Taille : 674,3 Ko

Mais certaines personnalités littéraires sont prêtes à combattre les entreprises technologiques devant les tribunaux

La comédienne et auteure Sarah Silverman, ainsi que les auteurs Christopher Golden et Richard Kadrey, poursuivent OpenAI et Meta chacun devant un tribunal de district américain pour double plainte pour violation du droit d'auteur.

Selon les plaintes déposées devant le tribunal fédéral de San Francisco, Meta et OpenAI ont obtenu les œuvres des plaignants à partir de sites illégaux de « bibliothèques fantômes », qui proposent des livres numérisés sans respecter les droits d’auteur. Les plaignants affirment que leurs œuvres ont été utilisées comme matériel d’entraînement pour les modèles d’IA, sans qu’ils n’en aient été informés ni rémunérés.

Les plaignants citent comme preuve le fait que les modèles d’IA sont capables de résumer leurs livres lorsqu’ils sont sollicités. Par exemple, ChatGPT peut fournir un résumé du livre The Bedwetter de Sarah Silverman, publié en 2010, qui raconte son enfance marquée par l’énurésie. De même, LLaMA peut résumer les livres Ararat de Christopher Golden et Sandman Slim de Richard Kadrey, qui sont des romans fantastiques.

Quant à la plainte séparée contre Meta, il allègue que les livres des auteurs étaient accessibles dans les ensembles de données que Meta a utilisés pour former ses modèles LLaMA, un quatuor de modèles d'IA open source que la société a introduit en février.

De même, OpenAI fait l’objet d’une plainte en nom collectif déposée par deux autres auteurs américains, Paul Tremblay et Mona Awad, qui affirment que la société a utilisé leurs œuvres sans autorisation pour entraîner son système d’intelligence artificielle générative ChatGPT.

Une étape nécessaire

Gina Maccoby est agent littéraire à New York. Elle dit que les actions en justice sont une étape nécessaire pour que les écrivains soient équitablement secoués.

« Cela doit arriver », a déclaré Maccoby. « C'est la seule façon pour que ces choses soient réglées ».

Maccoby a déclaré que les agents, y compris elle-même, commençaient à parler aux éditeurs de l'inclusion d'un langage dans les contrats des écrivains qui interdit les utilisations non autorisées de l'IA comme un autre moyen de protéger leurs moyens de subsistance et ceux de leurs clients. (Selon une récente enquête de la Guilde des auteurs sur l'IA, alors que 90 % des écrivains qui ont répondu ont déclaré « qu'ils devraient être rémunérés pour l'utilisation de leur travail dans la formation à l'IA », 67 % ont déclaré qu'ils « n'étaient pas sûrs de savoir si leurs contrats d'édition ou les conditions d'utilisation de la plate-forme incluent des autorisations ou l'octroi de droits pour utiliser leur travail à des fins liées à l'IA ».)

« Ce que j'entends de mes collègues, c'est que la plupart des éditeurs sont disposés à restreindre certains types d'utilisation de l'IA », a déclaré Maccoby, ajoutant qu'elle n'avait pas encore ajouté de telles clauses aux contrats de ses propres écrivains. La Guilde des auteurs a mis à jour son contrat type en mars pour inclure un langage traitant de l'utilisation de l'IA.

Maccoby a déclaré que même si les contrats des auteurs interdisent explicitement aux sociétés d'IA de faire du scrapping et de tirer profit des œuvres littéraires, les règles sont difficiles à appliquer : « Comment sait-on même si un livre se trouve dans un ensemble de données qui a été ingéré par un programme d'IA ? » se demande Maccoby.

En plus des lettres, des poursuites et du langage contractuel, le secteur de l'édition cherche en outre à protéger l'avenir des auteurs en plaidant pour une législation sur la manière dont l'IA générative peut et ne peut pas être utilisée.

Rasenberger de la Guilde des auteurs a déclaré que son organisation faisait activement pression pour de tels projets de loi. Entre-temps, de nombreuses audiences ont eu lieu récemment à divers niveaux de gouvernement sur des sujets liés à l'IA, comme l'audience de la semaine dernière du sous-comité judiciaire du Sénat sur l'IA et le droit d'auteur.

« En ce moment, on en parle beaucoup », a déclaré Rumman Chowdhury, un responsable de l'IA à l'Université de Harvard, qui a témoigné lors d'une de ces audiences en juin. « Mais nous ne voyons pas encore de législation ou de réglementation concrète sortir ».

Chowdhury a déclaré que la voie à suivre serait forcément compliquée.

« Certains seront litigieux, certains seront réglementés, et certains d'entre eux n'auront littéralement qu'à crier jusqu'à ce que nous soyons entendus », a-t-elle déclaré.

Lettre ouverte adressée aux leaders de l'intelligence artificielle générative

Nous, soussignés, attirons votre attention sur l'injustice inhérente à l'exploitation de nos œuvres dans le cadre de vos systèmes d'IA sans notre consentement, crédit ou compensation.

Les technologies d'IA génératives construites sur de grands modèles de langage doivent leur existence à nos écrits. Ces technologies imitent et régurgitent notre langage, nos histoires, notre style et nos idées. Des millions de livres, d'articles, d'essais et de poésie protégés par le droit d'auteur fournissent la «nourriture» des systèmes d'IA, des repas sans fin pour lesquels il n'y a pas eu de facture. Vous dépensez des milliards de dollars pour développer la technologie de l'IA. Il n'est que juste que vous nous rémunériez pour l'utilisation de nos écrits, sans lesquels l'IA serait banale et extrêmement limitée.

Nous comprenons que de nombreux livres utilisés pour développer des systèmes d'IA proviennent de sites Web de piratage notoires. Non seulement la récente décision de la Cour suprême dans l'affaire Warhol c. Goldsmith indique clairement que la forte commercialité de votre utilisation va à l'encontre de l'utilisation équitable, mais aucun tribunal n'excuserait la copie d'œuvres d'origine illégale comme une utilisation équitable. En raison de l'intégration de nos écrits dans vos systèmes, l'IA générative menace de nuire à notre profession en inondant le marché de livres médiocres écrits à la machine, d'histoires et de journalisme basés sur notre travail. Au cours de la dernière décennie, les auteurs ont connu une baisse de quarante pour cent de leurs revenus, et le revenu médian actuel des écrivains à temps plein en 2022 n'était que de 23 000 $. L'introduction de l'IA menace de faire pencher la balance et de rendre encore plus difficile, voire impossible, pour les écrivains, en particulier les jeunes écrivains et les voix des communautés sous-représentées, de gagner leur vie de leur profession.

Nous vous demandons, vous, dirigeants de l'IA, d'atténuer les dommages causés à notre profession en prenant les mesures suivantes :

Obtenez l'autorisation d'utiliser notre matériel protégé par le droit d'auteur dans vos programmes d'IA générative.
Rémunérez équitablement les auteurs pour l'utilisation passée et actuelle de nos travaux dans vos programmes d'IA générative.
Rémunérez équitablement les écrivains pour l'utilisation de nos œuvres dans la sortie de l'IA, que les sorties enfreignent ou non la loi en vigueur.

Nous espérons que vous apprécierez la gravité de nos préoccupations et que vous travaillerez avec nous pour assurer, dans les années à venir, un écosystème sain pour les auteurs et les journalistes.

Sincèrement,

La Guilde des auteurs et les écrivains soussignés

Source : lettre ouverte

Et vous ?

Que pensez-vous de l’utilisation de l’IA pour générer du contenu à partir du travail des auteurs sans leur consentement ni leur rétribution ?

Pensez-vous que les écrivains devraient avoir le droit de contrôler la façon dont leur travail est utilisé par les entreprises d’IA ?

Quels sont les avantages et les inconvénients de l’IA générative pour la création littéraire ?

Avez-vous déjà utilisé ou essayé une application d’IA générative basée sur le texte ? Si oui, quelle a été votre expérience ?

Quels sont les défis et les opportunités que l’IA représente pour l’avenir de l’écriture et de la lecture ?

**Stéphane le calme** · 09/08/2023, 09h32

Une auteure découvre des livres contrefaits générés par l'IA et écrits à son nom sur Amazon.
Amazon a refusé de les retirer, évoquant un manque de « numéros d'enregistrement de marque »

Jane Friedman, journaliste, auteure et professeure, a récemment découvert sur Amazon et Goodreads une demi-douzaine de livres frauduleux portant son nom, probablement remplis de contenu généré par l’intelligence artificielle (IA). Ces livres traitaient de sujets similaires à ceux qu’elle aborde dans ses ouvrages, comme l’écriture, la publication et la promotion de livres électroniques. Elle a demandé à Amazon et à Goodreads de retirer ces faux titres de leurs sites, mais elle s’est heurtée à des difficultés et à des résistances. Ce n'est que quand la plainte de Jane Friedman est devenue virale sur internet que les deux plateformes ont décidé de retirer lesdits livres.

Friedman, qui rapporte sur l’industrie du livre et qui a écrit 10 livres, dont “The Business of Being a Writer”, “What Editors Do” et “Publishing 101”, s’inquiète de l’impact que ces livres contrefaits peuvent avoir sur sa réputation. « Une personne raisonnable pourrait penser que je contrôle les livres qui sont affichés sur mon profil Goodreads, ou que je les approuve, ou qu’à tout le moins je pourrais les faire retirer facilement. Ce n’est pas le cas », a-t-elle écrit dans un billet de blog intitulé "I Would Rather See My Books Get Pirated Than This (Or : why Goodreads and Amazon Are Becoming Dumpster Fires)".

Il n’est pas facile de faire retirer les livres faussement attribués. Sur Goodreads, le processus nécessite que les auteurs contactent des “bibliothécaires” bénévoles et rejoignent des groupes spécifiques et publient des commentaires pour demander la suppression des livres illégitimes. Même ainsi, il n’y a aucune garantie que les titres offensants seront retirés rapidement. Friedman rapporte que Goodreads a retiré les titres offensants de son profil officiel d’auteur quelques heures après la publication de son billet de blog.

Lorsqu’elle a contacté Amazon pour lui demander de retirer les titres de son profil d’auteur, Amazon lui a demandé des « numéros d’enregistrement de marque » relatifs à sa réclamation et, en apprenant qu’elle ne détenait pas de marque pour son nom, a clos le dossier sans retirer les livres de la vente. Bien que les titres frauduleux aient finalement été retirés d’Amazon après que l’histoire ait fait le tour du web, l’expérience de Friedman met en lumière le processus complexe auquel les auteurs doivent se soumettre pour protéger leur nom et leur travail en ligne.

La partie émergée de l'iceberg

Ce problème fait partie d’un problème plus large auquel Amazon est confronté en relation avec les publications générées par l’IA, alors qu’il essaie de faire face à une vague de faux guides de voyage potentiellement dangereux. En février, Reuters a fait un portrait d’auteurs utilisant ChatGPT pour écrire des livres électroniques, les vendant via Amazon. En juin, Vice a rapporté une affluence de dizaines de livres générés par l’IA et remplis de non-sens qui ont envahi les listes des meilleures ventes de Kindle.

Friedman n’est pas la seule dans cette lutte. Sur le réseau social X (anciennement Twitter), l’auteure Jane Ward a déclaré avoir récemment découvert 29 titres sur Goodreads qui lui attribuaient faussement son nom d’auteur. Elle a également demandé à Goodreads de retirer ces livres, mais elle n’a pas reçu de réponse satisfaisante.

Ugh. It’s the worst. The silver lining is, once the request gets to an actual librarian, they’re quick to remove titles. I had 29 - 29[nbsp][/nbsp]! - incorrect titles removed last week.
— Jane #VaccinesSaveLives Ward (@authorjane) August 6, 2023

De nombreuses autres réponses aux publications de Friedman sur le sujet suggèrent que l'usurpation d'identité par des vendeurs frauduleux est devenue un phénomène courant sur Goodreads et Amazon, frustrant de nombreux auteurs. Par exemple, une autre auteure, Sarah Rose, a tweeté : « Les gens n'arrêtent pas de me dire qu'ils ont acheté mon dernier livre - qui porte mon nom, mais je n'ai pas écrit - un escroc utilisant l'algorithme "trouver plus par cet auteur". Mon éditeur n'a pas pu faire que ça s'arrête et j'ai en quelque sorte abandonné ».

Nom : sarah.png
Affichages : 1947
Taille : 13,5 Ko

Indépendamment de ce que contiennent les faux livres, la grande question est de savoir comment Amazon et Goodreads, deux sites majeurs qui atteignent des centaines de millions de clients, prévoient de protéger à la fois les auteurs et les clients contre la fraude et la mauvaise attribution.

Ces cas soulèvent des questions sur la vérification des auteurs et la responsabilité des plateformes en ligne face à la prolifération des contenus générés par l’IA. Comment les lecteurs peuvent-ils distinguer les vrais auteurs des imposteurs ? Comment les auteurs peuvent-ils protéger leur identité et leur propriété intellectuelle ? Comment les plateformes peuvent-elles empêcher ou détecter les publications frauduleuses ? Ce sont autant de défis auxquels le monde du livre devra faire face à l’ère de l’IA.

La parole est à Jane Friedman

Il n'y a pas grand-chose qui me met en colère ces jours-ci à propos de l'écriture et de la publication. J'ai tout vu. Je sais à quoi m'attendre d'Amazon et de Goodreads. Signification : Je n'attends pas grand-chose et je suppose que je serai continuellement déçu. Je n'ai pas non plus le pouvoir de changer leur fonctionnement. Ma stratégie d'économie d'énergie : passez à autre chose et concentrez-vous sur ce que vous pouvez contrôler.

Cela va devenir beaucoup plus difficile à faire si Amazon et Goodreads ne commencent pas à se défendre contre les déchets absolus qui se répandent actuellement sur leurs sites.

Je sais que mon travail est piraté et franchement, je m'en fiche. (Je ne dis pas que les autres auteurs ne devraient pas s'en soucier, mais ce n'est pas une bataille qui vaut mon temps aujourd'hui.)

Mais voici ce qui me dérange : des livres poubelles sont téléchargés sur Amazon où mon nom est crédité en tant qu'auteur, tels que :

un guide étape par étape pour créer des livres électroniques convaincants, créer une plateforme d'auteur florissante et maximiser la rentabilité
comment écrire et publier un eBook rapidement et gagner de l'argent
promouvoir pour prospérer : stratégies pour faire monter en flèche vos ventes de livres électroniques sur Amazon
puissance d'édition : naviguer dans la publication directe Kindle d'Amazon
Igniting Ideas : votre guide pour écrire un eBook best-seller sur Amazon

Nom : fake.png
Affichages : 1777
Taille : 170,1 Ko

Faux livres de Jane Friedman sur Goodreads (maintenant supprimés)

Celui qui fait cela s'en prend manifestement aux écrivains qui font confiance à mon nom et pensent que j'ai réellement écrit ces livres. Je n'ai pas. Très probablement, ils ont été générés par l'IA. (Pourquoi est-ce que je pense cela ? J'ai beaucoup utilisé ces outils d'IA pour tester dans quelle mesure ils peuvent reproduire mes connaissances. Je blogue depuis 2009 : une grande partie de mon contenu est accessible au public pour la formation de modèles d'IA. Dès que j'ai lu les premières pages de ces faux livres, j'ai eu l'impression de lire les réponses ChatGPT que j'avais générées moi-même.)

Il est peut-être possible d'ignorer ce non-sens à un certain niveau, car ces livres ne reçoivent pas d'avis de clients (jusqu'à présent), et la plupart du temps, ils tombent au bas des résultats de recherche (mais pas toujours). À tout le moins, si vous regardez mon profil d'auteur sur Amazon, ces livres de pacotille n'apparaissent pas. Un lecteur qui applique une pensée critique pourrait réfléchir à deux fois avant d'accepter ces livres comme les miens.

Pourtant, ce n'est pas génial. Et c'est à moi, l'auteur - celui qui a une réputation en jeu - de faire retirer ces livres trompeurs d'Amazon. Je ne suis même pas sûr que ce soit possible. Je ne possède pas les droits d'auteur sur ces livres de pacotille. Je ne "possède" pas exactement mon nom non plus - beaucoup d'autres personnes qui sont aussi des auteurs légitimes partagent mon nom, après tout. Alors, pour quelles raisons puis-je réussir à exiger cet arrêt, du moins aux yeux d'Amazon ? Je ne suis pas sûr.

Pour ajouter l'insulte à l'injure, ces faux livres sont ajoutés à mon profil officiel Goodreads. Une personne raisonnable pourrait penser que je contrôle les livres affichés sur mon profil Goodreads, ou que je les approuve, ou à tout le moins que je pourrais les faire supprimer facilement. Pas si.

Si vous avez besoin de faire corriger votre profil Goodreads – en ce qui concerne les livres qui vous sont crédités – vous devez contacter des « bibliothécaires » bénévoles sur Goodreads, ce qui nécessite de rejoindre un groupe, puis de publier dans un fil de commentaires que vous souhaitez que les livres illégitimes soient supprimés. depuis votre profil.

Lorsque je me suis plaint à ce sujet sur Twitter/X, une auteure a répondu qu'elle devait signaler 29 livres illégitimes rien que la semaine dernière. 29 !

Avec le flot de contenus d'IA désormais publiés sur Amazon, parfois attribués aux auteurs de manière trompeuse ou frauduleuse, comment peut-on raisonnablement s'attendre à ce que les auteurs actifs passent chaque semaine pour le reste de leur vie à surveiller cela ? Et si les auteurs ne le contrôlent pas, ils en entendront certainement parler, de la part de lecteurs préoccupés par ces livres d'ordures, et de lecteurs qui ont crédulement acheté cette merde et se sont plaints. Ou les auteurs pourraient ne rien entendre du tout et perdre à jamais un lecteur potentiel.

Nous avons désespérément besoin de garde-fous sur ce glissement de terrain de mauvaise attribution et de désinformation. Amazon et Goodreads, je vous prie de créer un moyen de vérifier la paternité, ou pour les auteurs de bloquer facilement les livres frauduleux qui leur sont crédités. Faites-le maintenant, faites-le vite.

Malheureusement, même si et quand vous obtenez ces livres insensés supprimés de vos profils officiels, ils flotteront toujours là-bas, avec votre nom, sur deux sites majeurs qui attirent des millions de visiteurs, attendant juste d'être "découverts". Et vous ne pouvez absolument rien y faire.

Sources : Jane Friedman, Sarah Rose

Et vous ?

Êtes-vous surpris de voir le phénomène prendre de l'ampleur à l'ère de la vulgarisation de l'IA générative ?

Quelle est votre réaction face à la découverte de Jane Friedman sur les livres contrefaits générés par l’IA ?

Pensez-vous qu’Amazon et Goodreads devraient être plus vigilants et plus réactifs face à ce problème ?

Avez-vous déjà rencontré des livres générés par l’IA sur ces plateformes ou ailleurs ? Si oui, comment les avez-vous reconnus ?

Quelles sont les conséquences potentielles de la diffusion de ces livres frauduleux sur les auteurs, les lecteurs et l’industrie du livre ?

Que pensez-vous des auteurs qui utilisent l’IA pour écrire des livres électroniques et les vendre en ligne ?

**Stéphane le calme** · 10/08/2023, 21h54

Amazon fait marche arrière face aux « livres poubelles » écrits par l’IA après la colère du public,
l'entreprise supprime plusieurs livres de ce type répertoriés sous le nom d'un véritable auteur

Amazon, la grande enseigne du commerce électronique, a retiré plusieurs livres soupçonnés d’avoir été écrits par une intelligence artificielle et attribués à un véritable auteur. Cette décision fait suite à la plainte de la professeure Jane Friedman, qui a dénoncé sur Twitter la présence de livres qu’elle n’avait pas écrits sous son nom. Elle a reçu le soutien de la Guilde des auteurs, une organisation qui défend les droits des écrivains.

Jane Friedman, journaliste, auteure et professeure, a récemment découvert sur Amazon et Goodreads une demi-douzaine de « livres poubelles » portant son nom, probablement remplis de contenu généré par l’intelligence artificielle. Elle s'est inquiétée de l'impact que ces livres contrefaits peuvent avoir sur sa réputation. Ces livres portaient les titres Your Guide to Writing a Bestseller eBook on Amazon, Publishing Power : Navigating Amazon’s Kindle Direct Publishing et Promote to Prosper : Strategies to Skyrocket Your eBook Sales on Amazon. Ces livres utilisaient son nom et sa réputation pour attirer les acheteurs potentiels.

Friedman a contacté Amazon pour demander le retrait de ces livres, mais elle s’est heurtée à un refus initial. Amazon lui a dit qu’elle devait prouver qu’elle possédait la marque déposée sur son propre nom, ce qu’elle n’a pas pu faire. Amazon a donc décidé de laisser les livres en vente.

Friedman n’a pas baissé les bras et a exposé son cas sur Twitter, où elle a reçu le soutien de nombreux autres auteurs et de la Guilde des auteurs. Cette dernière s’est proposée d’intervenir en sa faveur auprès d’Amazon.

Envoyé par Guilde des auteurs

Jane Friedman, en tant que membre de la Guilde des auteurs, nous pouvons plaider en votre nom et contacter immédiatement la haute direction pour leur faire savoir que ces travaux sont une tentative de compromission de votre marque et doivent être supprimés en tant qu'infractions à la loi Lanham.

Nom : guilde.png
Affichages : 4763
Taille : 15,5 Ko

D'autres auteurs répondant au tweet de Friedman ont déclaré que la même chose leur était arrivée, et dans certains cas, l'éditeur des livres frauduleux a fait plus que simplement utiliser leurs noms.

« Désolé que vous ayez eu affaire à ça », a écrit l'auteur et poète Hattie Jean Hayes. « J'ai quelqu'un qui utilise mon nom pour publier de l'érotisme sur Amazon [Kindle Direct Publishing] depuis ces trois dernières années. C'est assez clairement une attaque ciblée puisqu'ils ont utilisé les noms des membres (mineurs !) de ma famille dans les histoires », a déclaré Hayes. « Amazon/Kindle m'a donné exactement la même réponse ».

Sorry you’re dealing with this. I have had someone using my name to publish erotica on Amazon/KDP for the last three years. It’s pretty clearly a targeted attack since they’ve used names of my (minor!) family members in the stories. Amazon/Kindle gave me the exact same answer.
— Hattie! (@QueenHattieJean) August 8, 2023

Une autre auteure, Sarah Rose, a tweeté : « Les gens n'arrêtent pas de me dire qu'ils ont acheté mon dernier livre - qui porte mon nom, mais je n'ai pas écrit - un escroc utilisant l'algorithme "trouver plus par cet auteur". Mon éditeur n'a pas pu faire que ça s'arrête et j'ai en quelque sorte abandonné ».

Amazon cède face à la pression

Face à la pression publique, Amazon a finalement changé de cap et a commencé à retirer les livres frauduleux de son site web.

« Nous avons des directives claires sur le contenu qui peut être mis en vente et nous enquêtons rapidement sur tout livre lorsque nous recevons une alerte », a déclaré Ashley Vanicek, porte-parole d’Amazon. « Nous accueillons les commentaires des auteurs et nous travaillons directement avec eux pour résoudre tout problème qu’ils soulèvent et lorsque nous avons commis une erreur, nous la corrigeons ».

Friedman a confirmé sur Twitter que les livres avaient été retirés d’Amazon. Elle s’est toutefois inquiétée du sort des autres auteurs qui n’ont pas la même audience qu’elle et qui ne peuvent pas faire autant de bruit.

La Guilde des auteurs a déclaré que ses membres pouvaient demander l'aide de l'organisation pour contacter la haute direction d'Amazon au sujet d'œuvres frauduleuses.

« Nous avons travaillé avec Amazon sur ce problème dans le passé, et nous poursuivrons nos conversations avec eux sur l'avancement de leurs efforts pour suivre le rythme de la technologie », a déclaré la Guilde des auteurs dans un communiqué. « En attendant, nous encourageons tout le monde à signaler ces livres qui tentent de tirer profit de votre marque via le portail de réclamation d'Amazon ».

Alors que les industries de la technologie et du divertissement continuent de lutter contre l'IA générative, la Guilde des auteurs affirme que la première étape de l'application de garde-fous consiste à exiger le consentement de l'auteur et une compensation pour l'utilisation de son travail.

En juillet, 10 000 membres de la Guilde des auteurs ont cosigné une lettre rédigée par l'organisation appelant les leaders de l'industrie de l'IA, dont OpenAI, Alphabet, Meta, Stability AI, IBM et Microsoft, à obtenir le consentement des auteurs, à les créditer et à les rémunérer équitablement.

« Il peut parfois être difficile de résoudre des problèmes comme celui-ci via les canaux habituels d'Amazon s'il ne s'agit pas d'une violation flagrante du droit d'auteur (lorsqu'il existe des procédures de retrait en vertu du DMCA), en particulier si la base juridique n'est pas clairement articulée », a déclaré un porte-parole de la Guilde des auteurs. « Amazon doit permettre aux auteurs de résoudre plus facilement les problèmes ».

Les conséquences des « livres poubelles » écrits par l’IA

Les « livres poubelles » écrits par l’IA ont des conséquences négatives à plusieurs niveaux :

sur le plan économique, ils nuisent aux revenus et à la réputation des vrais auteurs, qui doivent faire face à une concurrence déloyale et à une confusion des lecteurs. Ils peuvent aussi entraîner des pertes financières pour les lecteurs, qui se font escroquer en achetant des livres de mauvaise qualité ou sans valeur ajoutée ;
sur le plan juridique, ils posent des problèmes de droit d’auteur, de propriété intellectuelle et de responsabilité. Il n’est pas toujours facile de déterminer qui est l’auteur réel d’un livre écrit par l’IA, qui détient les droits sur le contenu et qui est responsable en cas de litige ou de dommage. Les lois actuelles ne sont pas adaptées à ce genre de situation et nécessitent une mise à jour ;
sur le plan culturel, les « livres poubelles » écrits par l’IA appauvrissent la diversité et la qualité du paysage littéraire. Ils peuvent aussi véhiculer des informations erronées, biaisées ou manipulatrices, qui influencent négativement l’opinion et la connaissance des lecteurs.

Conclusion

Ce n’est pas la première fois qu’Amazon est confronté au problème des « livres poubelles » écrits par l’IA. En 2021, la presse américaine avait révélé l’existence d’une entreprise nommée KDP Rocket, qui proposait de créer des livres électroniques personnalisés à partir de modèles générés par l’IA. Ces livres étaient ensuite publiés sur la plateforme Kindle Direct Publishing d’Amazon, sans mentionner qu’ils étaient le produit d’une machine.

L’utilisation de l’IA pour créer du contenu pose des questions éthiques et juridiques, notamment sur le respect du droit d’auteur, la qualité de l’information et la responsabilité des plateformes. Amazon devra sans doute renforcer ses mesures de contrôle pour éviter que son catalogue ne soit envahi par des « livres poubelles » qui nuisent aux véritables auteurs.

Indépendamment de ce que contiennent ces « livres poubelles », la grande question est de savoir comment Amazon, un site majeur qui atteint des centaines de millions de clients, prévoit de protéger à la fois les auteurs et les clients contre la fraude et la mauvaise attribution.

Ces cas soulèvent des questions sur la vérification des auteurs et la responsabilité des plateformes en ligne face à la prolifération des contenus générés par l’IA. Comment les lecteurs peuvent-ils distinguer les vrais auteurs des imposteurs ? Comment les auteurs peuvent-ils protéger leur identité et leur propriété intellectuelle ? Comment les plateformes peuvent-elles empêcher ou détecter les publications frauduleuses ? Ce sont autant de défis auxquels le monde du livre devra faire face à l’ère de l’IA.

Sources : Guilde des auteurs, Amazon

Et vous ?

Quelle est votre opinion sur les “livres poubelles” écrits par l’IA ? Les considérez-vous comme de la littérature ou comme de la fraude ?

Avez-vous déjà acheté ou lu un “livre poubelle” écrit par l’IA ? Si oui, comment avez-vous découvert qu’il s’agissait d’un faux livre ? Sinon, comment faites-vous pour les éviter ?

Que pensez-vous de la réaction d’Amazon face au problème des “livres poubelles” écrits par l’IA ? Trouvez-vous qu’elle a été suffisante et rapide ? Que devrait faire Amazon pour mieux protéger les auteurs et les lecteurs ?

Quelles sont les conséquences des “livres poubelles” écrits par l’IA sur le monde littéraire ? Pensez-vous qu’ils nuisent à la qualité, à la diversité et à la crédibilité de la littérature ? Ou pensez-vous qu’ils stimulent la créativité, la concurrence et l’innovation ?

Comment voyez-vous l’avenir de la création littéraire avec l’intelligence artificielle ? Pensez-vous que l’IA peut être un outil utile et positif pour les auteurs ? Ou pensez-vous qu’elle représente une menace pour leur métier et leur identité ?

**TotoParis** · 13/08/2023, 14h39

Amazon était déjà peu ou prou une "poubelle" mais là; ça dépasse l'entendement.
Bientôt, ils vendront des embryons humains congelés...

**TotoParis** · 13/08/2023, 14h40

Moi je boycotte cette plate-forme depuis longtemps.

**Stéphane le calme** · 15/08/2023, 19h49

Le New York Times dit non à l’utilisation de son contenu comme données d'entraînement pour une IA sans son accord
et menace de poursuites judiciaires

Le New York Times (NYT), l’un des plus grands journaux américains, a récemment mis à jour ses conditions d’utilisation pour empêcher que son contenu soit utilisé pour entraîner des modèles d’intelligence artificielle (IA) sans son autorisation écrite. Cette décision intervient alors que de nombreuses entreprises technologiques exploitent des applications d’IA basées sur le langage, telles que ChatGPT et Google Bard, qui ont acquis leurs capacités grâce à des collectes massives et non autorisées de données sur Internet.

Début août, le New York Times a mis à jour ses conditions d'utilisation pour interdire le scrapping de ses articles et images pour la formation à l'IA. Cette décision intervient à un moment où les entreprises technologiques ont continué à monétiser les applications de langage d'IA telles que ChatGPT et Google Bard, qui ont acquis leurs capacités grâce à des collectes massives non autorisées de données Internet.

Le NYT interdit l’utilisation de son contenu, qui comprend les articles, les vidéos, les images, le design, les métadonnées ou les compilations, pour le développement de tout logiciel, notamment pour l’entraînement d’un système d’apprentissage automatique ou d’IA. Il interdit également l’utilisation d’outils automatisés, comme les robots d’indexation, qui visent à utiliser, accéder ou collecter ce contenu sans son consentement écrit. Le NYT précise que le non-respect de ces restrictions peut entraîner des amendes ou des sanctions civiles, pénales ou administratives.

Dans la section 2.1 de ses conditions d'utilisation, il est écrit :

Envoyé par New York Times

Le contenu des Services, y compris le Site, est destiné à votre usage personnel et non commercial. Tous les documents publiés ou disponibles sur les Services (y compris, mais sans s'y limiter, les textes, photographies, images, illustrations, conceptions, clips audio, clips vidéo, "look and feel", métadonnées, données ou compilations, tous également connus sous le nom de " Contenu") sont protégés par le droit d'auteur et détenus ou contrôlés par The New York Times Company ou la partie créditée comme fournisseur du Contenu. La New York Times Company détient également le droit d'auteur sur la sélection, la coordination, la compilation et l'amélioration de ce Contenu (« Arrangement »). Vous devez respecter tous les avis, informations ou restrictions de droits d'auteur supplémentaires contenus dans tout Contenu accessible via le Service. L'utilisation non commerciale n'inclut pas l'utilisation du Contenu sans le consentement écrit préalable de The New York Times Company en relation avec : (1) le développement de tout programme logiciel, y compris, mais sans s'y limiter, la formation d'un machine learning ou d'un système d'intelligence artificielle ( IA) ; ou (2) fournir des ensembles de données archivés ou mis en cache contenant du Contenu à une autre personne ou entité.

Plus bas, dans la section 4.1, les conditions stipulent que sans le consentement écrit préalable du NYT, personne ne peut « utiliser le contenu pour le développement de tout programme logiciel, y compris, mais sans s'y limiter, la formation d'un système d'apprentissage automatique ou d'intelligence artificielle (IA) » :

Envoyé par New York Times

4. UTILISATION INTERDITE DES SERVICES

4.1 Vous ne pouvez pas accéder ou utiliser, ou tenter d'accéder ou d'utiliser, les Services pour prendre des mesures qui pourraient nous nuire ou nuire à un tiers. Vous ne pouvez pas utiliser les Services en violation des lois applicables, y compris les contrôles et les sanctions à l'exportation, ou en violation de notre propriété intellectuelle ou de celle d'un tiers ou d'autres droits de propriété ou légaux. Vous acceptez en outre de ne pas tenter (ni d'encourager ou de soutenir la tentative de quiconque) de contourner, d'effectuer une ingénierie inverse, de décrypter ou de modifier ou d'interférer avec les Services, ou tout contenu des Services, ou de faire une utilisation non autorisée des Services. Sans le consentement écrit préalable de NYT, vous ne devez pas :

(1) accéder à toute partie des Services, du Contenu, des données ou des informations auxquelles vous n'avez pas la permission ou l'autorisation d'accéder ou pour lesquelles NYT a révoqué votre accès ;

(2) utiliser des robots, des scripts, des services, des logiciels ou tout dispositif, outil ou processus manuel ou automatique conçu pour extraire des données ou récupérer le contenu, les données ou les informations des services, ou utiliser, accéder ou collecter le contenu des données ou informations des Services utilisant des moyens automatisés ;

(3) utiliser le Contenu pour le développement de tout programme logiciel, y compris, mais sans s'y limiter, la formation d'un système d'apprentissage automatique ou d'intelligence artificielle (IA).

(4) utiliser des services, des logiciels ou tout dispositif, outil ou processus manuel ou automatique conçu pour contourner toute restriction, condition ou mesure technologique qui contrôle l'accès aux Services de quelque manière que ce soit, y compris le remplacement de toute fonction de sécurité ou le contournement ou le contournement de tout accès contrôler ou utiliser les limites des Services ;

(5) mettre en cache ou archiver le Contenu (à l'exception de l'utilisation par un moteur de recherche public pour créer des index de recherche) ;

(6) prendre des mesures qui imposent une charge déraisonnable ou disproportionnée sur notre réseau ou notre infrastructure ; et

(7) faire tout ce qui pourrait désactiver, endommager ou modifier le fonctionnement ou l'apparence des Services, y compris la présentation de publicités.

4.2 S'engager dans une utilisation interdite des Services peut entraîner des sanctions civiles, pénales et/ou administratives, des amendes ou des sanctions à l'encontre de l'utilisateur et de ceux qui l'assistent.

Google va utiliser tout ce que vous allez publier en ligne comme données d'entraînement de son IA

Cette mesure préventive du NYT pourrait être une réponse à une récente modification de la politique de confidentialité de Google, qui révèle que le géant de la recherche peut collecter des données publiques sur le web pour entraîner ses différents services d’IA, comme Bard ou Cloud AI.

Dans la mise à jour de sa politique de confidentialité, il est écrit :

Envoyé par Google

Recherche et développement : Google utilise les informations pour améliorer ses services et développer de nouveaux produits, ainsi que de nouvelles fonctionnalités et technologies utiles à ses utilisateurs et au public. Par exemple, Google utilise des informations disponibles publiquement pour contribuer à l'entraînement de ses modèles d'IA, et concevoir des produits et des fonctionnalités comme Google Traduction, Bard et les capacités d'IA de Cloud

Le message est disponible à la section Conformité et coopération avec des organismes de réglementation dans la partie Finalités commerciales pour lesquelles des informations peuvent être utilisées ou divulguées.

Nom : google.png
Affichages : 1363
Taille : 63,5 Ko

Il s'agit d'une clause inhabituelle pour une politique de confidentialité. En règle générale, ces politiques décrivent la manière dont une entreprise utilise les informations que vous publiez sur les propres services de l'entreprise. Ici, il semble que Google se réserve le droit de récolter et d'exploiter les données publiées sur n'importe quelle partie du Web public, comme si l'ensemble d'Internet était le propre terrain de jeu de l'IA de l'entreprise.

Une mesure potentiellement efficace ?

Aussi menaçant que cela puisse paraître, les conditions d'utilisation restrictives n'ont pas encore arrêté le scrapping des données sur Internet dans le but de les utiliser comme données d'apprentissage automatique. Tous les grands modèles de langage disponibles aujourd'hui, y compris GPT-4 d'OpenAI, Claude 2 d'Anthropic, Llama 2 de Meta et PaLM 2 de Google, ont été formés sur de grands ensembles de données de matériaux extraits d'Internet. À l'aide d'un processus appelé apprentissage non supervisé, les données Web ont été introduites dans des réseaux de neurones, permettant aux modèles d'IA d'acquérir un sens conceptuel du langage en analysant les relations entre les mots.

Des services d’IA populaires, comme ChatGPT d’OpenAI, sont donc entraînés sur d’énormes ensembles de données qui pourraient contenir des matériaux protégés par le droit d’auteur ou d’autres droits, extraits du web sans l’autorisation du créateur original. Cela a conduit à plusieurs procès contre OpenAI en raison de cette pratique.

Par exemple, deux auteurs américains ont poursuivi OpenAI devant le tribunal fédéral de San Francisco, affirmant dans un recours collectif proposé que la société avait abusé de leurs travaux pour « former » son populaire système d'intelligence artificielle générative ChatGPT.

Nous pouvons également citer la comédienne et auteure américaine Sarah Silverman qui a déposé une plainte contre Meta et OpenAI, les accusant d’avoir utilisé son œuvre sans son autorisation pour entraîner leurs modèles d’intelligence artificielle à générer du texte. Elle est rejointe par deux autres auteurs, Christopher Golden et Richard Kadrey, qui affirment que leurs livres ont également été exploités par les deux entreprises sans leur consentement.

Les plaignants citent comme preuve le fait que les modèles d’IA sont capables de résumer leurs livres lorsqu’ils sont sollicités. Par exemple, ChatGPT peut fournir un résumé du livre The Bedwetter de Sarah Silverman, publié en 2010, qui raconte son enfance marquée par l’énurésie. De même, LLaMA peut résumer les livres Ararat de Christopher Golden et Sandman Slim de Richard Kadrey, qui sont des romans fantastiques.

Conclusion

Le NYT n’est pas le seul média à s’inquiéter de l’utilisation de son contenu par l’IA. La semaine dernière, l’Associated Press et plusieurs autres organisations de presse ont publié une lettre ouverte affirmant qu’un « cadre juridique doit être élaboré pour protéger le contenu qui alimente les applications d’IA », entre autres préoccupations. OpenAI semble anticiper les défis juridiques à venir et a commencé à prendre des mesures qui pourraient viser à devancer certaines de ces critiques. Par exemple, OpenAI a récemment détaillé une méthode que les sites web peuvent utiliser pour bloquer son robot d’indexation GPTBot afin qu’il ne collecte pas les données de leurs sites web.

L’industrie de l’IA repose fortement sur les données pour améliorer ses modèles et ses services, mais cela entre en conflit avec les préoccupations des médias concernant la propriété et la protection de leurs données. Des considérations éthiques et juridiques se posent à mesure que l’IA et les médias collaborent dans la curation des actualités. Le NYT semble vouloir garder le contrôle sur son contenu et négocier au cas par cas avec les entreprises technologiques qui souhaitent l’utiliser pour entraîner leurs systèmes d’IA.

Source : NYT

Et vous ?

Quelle est votre opinion sur la décision du New York Times d’interdire aux fournisseurs d’IA de collecter son contenu ?

Pensez-vous que les entreprises technologiques devraient demander l’autorisation aux créateurs de contenu avant d’utiliser leurs données pour entraîner leurs modèles d’IA ?

Comment les médias en particulier, et d'autres entités en général, peuvent-ils protéger leur propriété intellectuelle tout en bénéficiant des innovations de l’IA ?

**Patrick Ruiz** · 18/08/2023, 06h00

Le New York Times envisage de lancer une action en justice contre OpenAI pour l’obliger à effacer les données d’entraînement de ChatGPT
Le média dit non à l’usage de son contenu sans son accord

Le New York Times envisage de lancer une action en justice contre OpenAI afin de l’obliger à effacer les données d’entraînement de ChatGPT. Le département juridique du média étudie la possibilité de poursuivre OpenAI pour protéger les droits de propriété intellectuelle associés à ses reportages. En effet, le journal américain est contre l’utilisation de son contenu comme données d’entraînement pour une intelligence artificielle. La situation soulève diverses questions comme celle de savoir comment les médias peuvent bénéficier des innovations de l’IA tout en protégeant leur propriété intellectuelle.

L'une des principales préoccupations du Times est que ChatGPT devienne, d'une certaine manière, un concurrent direct du journal en créant des textes qui répondent à des questions basées sur les reportages et les écrits originaux de l'équipe du journal.

Cette crainte est d'autant plus forte que les entreprises technologiques utilisent des outils d'IA générative dans les moteurs de recherche. Microsoft par exemple a investi des milliards dans OpenAI et anime désormais son moteur de recherche Bing avec ChatGPT.

Le problème de fond est que lorsqu'une personne effectue une recherche en ligne, elle reçoit une réponse d'un paragraphe d'un outil d'IA qui remanie les articles du Times. La nécessité de visiter le site web de l'éditeur s’en trouve grandement diminuée.

C’est pour toutes ces raisons que le NYT a procédé à la modification de ses conditions d’utilisation pour interdire l’usage de son contenu qui comprend les articles, les vidéos, les images, le design, les métadonnées ou les compilations, pour le développement de tout logiciel, notamment pour l’entraînement d’un système d’apprentissage automatique ou d’IA. Il interdit également l’utilisation d’outils automatisés, comme les robots d’indexation, qui visent à utiliser, accéder ou collecter ce contenu sans son consentement écrit. Le NYT précise que le non-respect de ces restrictions peut entraîner des amendes ou des sanctions civiles, pénales ou administratives.

Une action en justice du Times contre OpenAI mettrait en place ce qui pourrait être la bataille juridique la plus médiatisée à ce jour sur la protection des droits d'auteur à l'ère de l'IA générative. La manœuvre est susceptible d’être dévastatrice pour OpenAI, avec notamment la destruction de l'ensemble des données d’entraînement de ChatGPT et des amendes pouvant aller jusqu'à 150 000 dollars par contenu objet du litige.

Nom : 1.png
Affichages : 1262
Taille : 310,4 Ko

Le NYT anticipe-t-il sur les décisions d’entreprises comme Google qui a annoncé qu’il fera usage de tout ce qui sera publié en ligne comme données d’entraînement de son IA Bard ?

Cette mesure préventive du NYT pourrait être une réponse à une récente modification de la politique de confidentialité de Google, qui révèle que le géant de la recherche peut collecter des données publiques sur le web pour entraîner ses différents services d’IA, comme Bard ou Cloud AI.

Dans la mise à jour de sa politique de confidentialité, il est écrit : « Recherche et développement : Google utilise les informations pour améliorer ses services et développer de nouveaux produits, ainsi que de nouvelles fonctionnalités et technologies utiles à ses utilisateurs et au public. Par exemple, Google utilise des informations disponibles publiquement pour contribuer à l'entraînement de ses modèles d'IA, et concevoir des produits et des fonctionnalités comme Google Traduction, Bard et les capacités d'IA de Cloud. »

Le message est disponible à la section Conformité et coopération avec des organismes de réglementation dans la partie Finalités commerciales pour lesquelles des informations peuvent être utilisées ou divulguées.

Nom : 2.png
Affichages : 1005
Taille : 63,5 Ko

Il s'agit d'une clause inhabituelle pour une politique de confidentialité. En règle générale, ces politiques décrivent la manière dont une entreprise utilise les informations que vous publiez sur les propres services de l'entreprise. Ici, il semble que Google se réserve le droit de récolter et d'exploiter les données publiées sur n'importe quelle partie du Web public, comme si l'ensemble d'Internet était le propre terrain de jeu de l'IA de l'entreprise.

C’est pour autant de raisons que le NYT n’est pas le seul média à s’inquiéter de l’utilisation de son contenu pour entraîner l’IA

Le NYT n’est pas le seul média à s’inquiéter de l’utilisation de son contenu par l’IA. La semaine dernière, l’Associated Press et plusieurs autres organisations de presse ont publié une lettre ouverte affirmant qu’un « cadre juridique doit être élaboré pour protéger le contenu qui alimente les applications d’IA », entre autres préoccupations. OpenAI semble anticiper les défis juridiques à venir et a commencé à prendre des mesures qui pourraient viser à devancer certaines de ces critiques. Par exemple, OpenAI a récemment détaillé une méthode que les sites web peuvent utiliser pour bloquer son robot d’indexation GPTBot afin qu’il ne collecte pas les données de leurs sites web.

L’industrie de l’IA repose fortement sur les données pour améliorer ses modèles et ses services, mais cela entre en conflit avec les préoccupations des médias concernant la propriété et la protection de leurs données. Des considérations éthiques et juridiques se posent à mesure que l’IA et les médias collaborent dans la curation des actualités. Le NYT semble vouloir garder le contrôle sur son contenu et négocier au cas par cas avec les entreprises technologiques qui souhaitent l’utiliser pour entraîner leurs systèmes d’IA.

Source : NPR

Et vous ?

Quelle est votre opinion sur la décision du New York Times d’interdire aux fournisseurs d’IA de collecter son contenu ?

Pensez-vous que les entreprises technologiques devraient demander l’autorisation aux créateurs de contenu avant d’utiliser leurs données pour entraîner leurs modèles d’IA ?

Comment les médias en particulier, et d'autres entités en général, peuvent-ils protéger leur propriété intellectuelle tout en bénéficiant des innovations de l’IA ?

Voir aussi :

Les éditeurs scientifiques face à l'impasse des faux documents générés par l'IA. Les outils de génération de textes et d'images constituent un nouvel obstacle aux efforts déployés

Le PDG d'OpenAI, Sam Altman, se dit effrayé par sa propre invention. L'IA pourrait être utilisée pour diffuser largement de fausses informations, ou encore lancer une nouvelle course à l'armement

Un avocat a cité 6 fausses affaires inventées par ChatGPT, l'outil d'IA conversationnelle développé par Open AI, le juge qualifie cette affaire de « sans précédent »