Comment donner une preuve de travail artisanal
Comment garantir que l'œuvre est le résultat d'un travail artisanal ?
Est-ce possible ?
Par exemple, un potier peut filmer en continu la réalisation de sa création, il ne pourrait pas en être de même avec une peinture numérique. Le faussaire ferait juste une copie de l'œuvre créée par l'IA qui lui servirait d'inspiration.
Il faudrait créer une IA expert pour juger si l'œuvre est celle d'une IA, on en finit pas.
Juste déterminer quelle est la source de l'inspiration ?
Il reste alors l'émotion pure ressentie par le client.
Demain ChatGPT écrira une poésie, un texte de chanson ? Pourquoi pas. Mais pour cela il aura fallu lui exiquer en détail le contexte, l'histoire, qui mérite l'expression de l'émotion (rupture amoureuse, perte d'un être proche, jalousie, etc...), sentiment dont toute IA est dépourvue.
1 pièce(s) jointe(s)
Une plainte en recours collectif est déposée contre Stability AI pour violations du droit d'auteur
Une plainte en recours collectif est déposée contre Stability AI, Midjourney et DeviantArt pour violations du droit d'auteur,
sous le couvert d'une prétendue « intelligence artificielle »
Stability AI Ltd. ; Stabilité AI, Inc. ; Midjourney Inc. ; et DeviantArt, Inc. ont créé des produits qui enfreignent les droits d'artistes et d'autres créateurs sous le couvert d'une prétendue « intelligence artificielle ».
Le Joseph Saveri Law Firm, LLP (un cabinet de recours collectif de premier plan avec des bureaux en Californie et à New York) en association avec Matthew Butterick et Lockridge, Grindal, Nauen P.L.L.P. ont intenté une action en justice devant le tribunal de district des États-Unis pour le district nord de la Californie au nom d'une catégorie de plaignants demandant une indemnisation pour les dommages causés par Stability AI, DeviantArt et Midjourney, et une injonction pour prévenir de futurs dommages.
Le procès allègue une violation directe du droit d'auteur, une violation indirecte du droit d'auteur liée à des contrefaçons, des violations du Digital Millennium Copyright Act (DMCA), une violation des droits de publicité des membres du groupe, une rupture de contrat liée aux conditions d'utilisation de DeviantArt et diverses violations de la loi californienne sur la concurrence déloyale.
Autrefois réservés à un groupe restreint d'initiés de la technologie, les systèmes d'IA texte-image sont de plus en plus populaires et puissants. Ces outils, qui offrent généralement quelques crédits gratuits avant d'être facturés, peuvent créer toutes sortes d'images avec seulement quelques mots, y compris celles qui évoquent clairement les œuvres de très nombreux artistes (si elles ne semblent pas avoir été créées par le même artiste). Les utilisateurs peuvent désigner ces artistes par des mots tels que « dans le style de » ou « par », accompagnés d'un nom spécifique. Et les utilisations actuelles de ces outils peuvent aller de l'amusement personnel à des cas plus commerciaux. Mais la découverte par des artistes que leur travail est utilisé pour entraîner l'IA soulève une préoccupation fondamentale : leur propre art est effectivement utilisé pour entraîner un programme informatique qui pourrait un jour s'attaquer à leur gagne-pain.
Quiconque génère des images avec des systèmes tels que Stable Diffusion ou DALL-E peut ensuite les vendre, les conditions spécifiques concernant le droit d'auteur et la propriété de ces images varient. « Je ne veux pas du tout participer à la machine qui va dévaloriser ce que je fais », a déclaré Daniel Danger, un illustrateur et graveur qui a appris qu'un certain nombre de ses œuvres avaient été utilisées pour entraîner Stable Diffusion.
Ces résultats sont loin d'être magiques : pour qu'un de ces systèmes puisse ingérer vos mots et produire une image, il doit être entraîné sur des montagnes de données, qui peuvent comprendre des milliards d'images extraites d'Internet, associées à des descriptions écrites.
Certains services, dont le système DALL-E d'OpenAI, ne divulguent pas les ensembles de données sur lesquels reposent leurs systèmes d'IA. Mais avec Stability Diffusion, Stability AI est clair sur ses origines. Son jeu de données de base a été entraîné sur des paires d'images et de textes sélectionnés pour leur aspect à partir d'un cache encore plus massif d'images et de textes provenant d'Internet. L'ensemble de données complet, connu sous le nom de LAION-5B, a été créé par l'association allemande d'intelligence artificielle LAION (pour Large-scale Artificial Intelligence Open Network, soit réseau ouvert d'intelligence artificielle à grande échelle).
Cette pratique consistant à récupérer des images ou d'autres contenus sur Internet pour former des ensembles de données n'est pas nouvelle et relève traditionnellement de ce que l'on appelle le fair use, principe juridique de la loi américaine sur le droit d'auteur qui autorise l'utilisation d'œuvres protégées par le droit d'auteur dans certaines situations. En effet, ces images, dont beaucoup peuvent être protégées par des droits d'auteur, sont utilisées d'une manière très différente, par exemple pour apprendre à un ordinateur à identifier des chats.
Mais les ensembles de données sont de plus en plus grands et forment des systèmes d'IA de plus en plus puissants, y compris, récemment, ces systèmes génératifs que n'importe qui peut utiliser pour créer des images remarquables en un instant.
Des artistes en colère
Danger, dont les œuvres d'art comprennent des affiches pour des groupes comme Phish et Primus, est l'un des nombreux artistes professionnels qui ont déclaré qu'ils craignaient que les générateurs d'images IA ne menacent leur gagne-pain. Il craint que les images que les gens produisent avec les générateurs d'images IA ne remplacent certains de ses travaux plus « utilitaires », qui comprennent des supports comme des couvertures de livres et des illustrations pour des articles publiés en ligne. « Pourquoi allons-nous payer un artiste 1 000 dollars alors que nous pouvons avoir 1 000 images à choisir gratuitement ? », a-t-il demandé.
Tara McPherson, une artiste basée à Pittsburgh dont les œuvres figurent sur des jouets, des vêtements et dans des films comme le film oscarisé « Juno », s'inquiète également de la possibilité de perdre certains travaux au profit de l'IA. Elle se sent déçue et « exploitée » du fait que son travail a été inclus dans l'ensemble de données à l'origine de Stable Diffusion sans qu'elle en soit informée, a-t-elle déclaré. « À quel point cela va-t-il être facile ? À quel point cet art va-t-il devenir élégant ? Pour l'instant, c'est parfois un peu bancal, mais ça ne fait que commencer », s’est-elle interrogée.
Si les inquiétudes sont réelles, les recours ne sont pas clairs. Même si les images générées par l'IA ont un impact généralisé (par exemple en changeant les modèles commerciaux) cela ne signifie pas nécessairement qu'elles violent les droits d'auteur des artistes, selon Zahr Said, professeur de droit à l'Université de Washington. Et il serait prohibitif d'accorder une licence à chaque image d'un ensemble de données avant de l'utiliser, a-t-elle ajouté. « On peut avoir de la sympathie pour les communautés artistiques et vouloir les soutenir, mais aussi se dire qu'il n'y a pas moyen de le faire. Si nous faisions cela, cela reviendrait à dire que l'apprentissage automatique est impossible, a-t-elle conclu.
McPherson et Danger ont envisagé la possibilité d'apposer des filigranes sur leurs œuvres lors de leur mise en ligne afin de protéger les images (ou du moins de les rendre moins attrayantes). Mais McPherson a déclaré que lorsqu'elle a vu des amis artistes mettre des filigranes sur leurs images en ligne, cela « ruine l'art, et la joie des gens qui le regardent et y trouvent de l'inspiration ».
S'il le pouvait, Danger a déclaré qu'il retirerait ses images des ensembles de données utilisés pour former les systèmes d'IA. Mais le fait de retirer les images de l'œuvre d'un artiste d'un ensemble de données n'empêcherait pas Stable Diffusion de générer des images dans le style de cet artiste.
Une plainte en recours collectif est déposée
Matthew Butterick porte la casquette d'écrivain, designer, développeur et avocat. En novembre 2022, il s'est associé aux plaideurs en recours collectif Joseph Saveri, Cadio Zirpoli et Travis Manfredi du cabinet d'avocats Joseph Saveri pour intenter une action en justice contre GitHub Copilot pour son « piratage de logiciels open source sans précédent » (le procès est toujours en cours). Le cabinet d'avocats Joseph Saveri est spécialisé dans l'antitrust, les recours collectifs et les litiges complexes au nom de consommateurs, d'acheteurs et d'employés nationaux et internationaux dans divers secteurs.
Citation:
Envoyé par Matthew Butterick
Depuis lors, nous avons entendu des gens du monde entier, en particulier des écrivains, des artistes, des développeurs et d'autres créateurs, qui s'inquiètent du fait que les systèmes d'IA sont formés sur de grandes quantités d'œuvres protégées par le droit d'auteur sans consentement, sans crédit et sans compensation.
Aujourd'hui, nous faisons un pas de plus vers une IA équitable et éthique pour tous. Au nom de trois merveilleuses artistes plaignantes : Sarah Andersen, Kelly McKernan et Karla Ortiz, nous avons intenté un recours collectif contre Stability AI, DeviantArt et Midjourney pour leur utilisation de Stable Diffusion, un outil de collage du XXIe siècle qui remixe les œuvres protégées par le droit d'auteur de millions d'artistes dont le travail a été utilisé comme données de formation.
Stable Diffusion, qu'est-ce que c'est ?
Stable Diffusion est un produit logiciel d'intelligence artificielle (IA), lancé en août 2022 par une société appelée Stability AI. Selon Matthew Butterick, Stable Diffusion contient des copies non autorisées de millions, voire de milliards, d'images protégées par le droit d'auteur. Ces copies ont été faites à l'insu ou sans le consentement des artistes.
Même en supposant des dommages nominaux de 1 $ par image, la valeur de ce détournement serait d'environ 5 milliards de dollars (à titre de comparaison, le plus grand vol d'art jamais réalisé a été le vol en 1990 de 13 œuvres d'art du musée Isabella Stewart Gardner, d'une valeur actuelle estimée à 500 millions de dollars.)
Stable Diffusion appartient à une catégorie de systèmes d'IA appelée IA générative. Ces systèmes sont entraînés sur un certain type de travail créatif – par exemple du texte, du code logiciel ou des images – puis remixent ces travaux pour dériver (ou « générer ») d'autres travaux du même type.
Après avoir copié les cinq milliards d'images (sans le consentement des artistes originaux) Stable Diffusion s'appuie sur un processus mathématique appelé diffusion pour stocker des copies compressées de ces images d'entraînement, qui à leur tour sont recombinées pour dériver d'autres images. C'est, en bref, un outil de collage du 21e siècle.
Ces images résultantes peuvent ou non ressembler extérieurement aux images d'entraînement. Néanmoins, ils sont dérivés de copies des images de formation et leur font concurrence sur le marché. Au minimum, la capacité de Stable Diffusion à inonder le marché avec un nombre pratiquement illimité d'images contrefaisantes infligera des dommages permanents au marché de l'art et des artistes.
Même le PDG de Stability AI, Emad Mostaque, a prévu que « les [futurs] modèles [IA] seront entièrement sous licence ». Mais la diffusion stable ne l'est pas. Pour Matthew, c'est un parasite qui, s'il est autorisé à proliférer, causera un préjudice irréparable aux artistes, aujourd'hui et à l'avenir.
La plainte
Comme allégué dans la plainte, Stable Diffusion est un produit d'intelligence artificielle utilisé par Stability AI, DeviantArt et Midjourney dans leurs produits d'image AI. Il a été formé sur des milliards d'images protégées par le droit d'auteur contenues dans l'ensemble de données LAION-5B, qui ont été téléchargées et utilisées sans compensation ni consentement des artistes. Si Stable Diffusion et des produits similaires sont autorisés à continuer à fonctionner comme ils le font actuellement, le résultat prévisible est qu'ils remplaceront les artistes mêmes dont les œuvres volées alimentent ces produits d'IA avec lesquels ils sont en concurrence. Les produits d'image IA ne sont pas seulement une violation des droits des artistes ; qu'ils le visent ou non, ces produits élimineront « l'artiste » comme cheminement de carrière viable. En plus d'obtenir réparation pour la conduite fautive, cette action en justice vise à empêcher ce résultat et à garantir que ces produits suivent les mêmes règles que toute autre nouvelle technologie impliquant l'utilisation de quantités massives de propriété intellectuelle. Si le streaming de musique peut être accompli dans le cadre de la loi, les produits d'IA le peuvent aussi.
« Alors que la technologie en plein essor continue de changer tous les aspects du monde moderne, il est essentiel que nous reconnaissions et protégions les droits des artistes contre le vol illégal et la fraude », a déclaré Joseph Saveri, fondateur du cabinet d'avocats Joseph Saveri, LLP. Il a poursuivi : « Cette affaire représente une lutte plus large pour la préservation des droits de propriété de tous les artistes et autres créateurs ».
« L'IA doit être juste et éthique pour tout le monde », a déclaré l'avocat/développeur Matthew Butterick. « Mais Stability AI, Midjourney et DeviantArt s'approprient le travail de milliers d'artistes sans consentement, sans crédit et sans compensation. En tant qu'avocat qui est également membre de longue date de la communauté des arts visuels, c'est un plaisir de se lever au nom d'autres artistes et poursuivre cette conversation essentielle sur la façon dont nous, les gens, voulons que l'IA coexiste avec la culture et la créativité humaines ».
Depuis sa fondation en 2000, DeviantArt est devenu un refuge pour les artistes de tous bords. Un aspect essentiel de la participation à la communauté DeviantArt pour les artistes est la pratique du partage d'images numériques de leurs œuvres. Aujourd'hui, DeviantArt se présente comme « la plus grande communauté artistique au monde », hébergeant des millions d'images. En même temps, il propose DreamUp, un produit qui enfreint illégalement les droits de sa propre communauté artistique. Pour ajouter l'insulte à l'injure, une grande partie des données d'entraînement pour Stable Diffusion (qui alimente DreamUp) était composée d'images extraites de DeviantArt sans l'autorisation des artistes qui les ont publiées.
Les accusés
Stability AI
Stability AI, fondée par Emad Mostaque, est basée à Londres.
Stability AI a financé LAION, une organisation allemande qui crée des ensembles de données d'images de plus en plus volumineux - sans consentement, crédit ou compensation pour les artistes originaux - à l'usage des sociétés d'IA.
Stability AI est le développeur de Stable Diffusion. Stability AI a formé Stable Diffusion à l'aide de l'ensemble de données LAION. Stability AI a également publié DreamStudio, une application payante qui regroupe Stable Diffusion dans une interface Web.
DeviantArt
DeviantArt a été fondée en 2000 et a longtemps été l'une des plus grandes communautés d'artistes sur le Web.
Comme l'ont montré Simon Willison et Andy Baio, des milliers (et probablement plus près de millions) d'images dans LAION ont été copiées à partir de DeviantArt et utilisées pour former Stable Diffusion.
Plutôt que de défendre sa communauté d'artistes en les protégeant contre la formation à l'IA, DeviantArt a plutôt choisi de sortir DreamUp, une application payante construite autour de Stable Diffusion. À son tour, un flot d'art généré par l'IA a inondé DeviantArt, évinçant les artistes humains.
Lorsqu'ils ont été confrontés à l'éthique et à la légalité de ces manœuvres lors d'une session de questions-réponses en direct en novembre 2022, les membres de l'équipe de direction de DeviantArt, dont le PDG Moti Levy, n'ont pas pu expliquer pourquoi ils avaient trahi leur communauté d'artistes en adoptant Stable Diffusion, tout en violant intentionnellement leur propre Conditions d'utilisation et politique de confidentialité.
Midjourney
Midjourney a été fondée en 2021 par David Holz à San Francisco. Midjourney propose un générateur de texte en image via Discord et une application Web.
Bien que se présentant comme un « laboratoire de recherche », Midjourney a cultivé un large public de clients payants qui utilisent professionnellement le générateur d'images de Midjourney. Holz a déclaré qu'il souhaitait que Midjourney soit « axé sur la création de tout ce qui est beau et artistique ».
À cette fin, Holz a admis que Midjourney est formé sur « une grande partie d'Internet ». Cependant, interrogé sur l'éthique de la copie massive d'images d'entraînement, il a répondu : « Il n'y a pas de lois spécifiques à ce sujet ». Et quand Holz a été interrogé sur le fait de permettre aux artistes de se retirer de la formation, il a dit : « Nous examinons cela. Le défi est maintenant de savoir quelles sont les règles ». « Nous sommes impatients d'aider M. Holz à découvrir les nombreuses lois étatiques et fédérales qui protègent les artistes et leur travail », ont ironisé Matthew Butterick et ses collègues.
Source : annonce de Matthew Butterick
Et vous ?
:fleche: Quelle lecture faites-vous de la situation ?
Voir aussi :
:fleche: La bande dessinée générée par l'IA perd la protection du droit d'auteur qui lui avait été accordée. L'USPTO estime que les œuvres protégées par le droit d'auteur nécessitent la paternité humaine
artiste versus développeur
j'ai vu un mème où l'on voyait un artiste dépité qu'une IA fasse son boulot tandis qu'un développeur était super content qu'une IA fasse son boulot...
De mon coté, à titre personnel, si je fais du code, c'est pour résoudre un problème... Alors bien sûr, je préférerai qu'un outil existe déjà pour faire ce que j'aurai besoin, mais quand il n'existe pas, je le fais (le dernier en date, c'était un outil pour générer des paquets anki à partir de fichier de sous-titres srt... j'en ai trouvé 2 différents, mais aucun des deux ne faisait ce que je voulais).
à titre professionnel, c'est un peu différent, je peux comprendre qu'on ait peur de perdre son boulot (mais les devs ont la chance d'être assez loin de ce risque pour le moment).
Pour les artistes, je me demande ce qui pousse des gens à créer... Est-ce que c'est "juste alimentaire" ? Ou est ce qu'il y a un autre besoin à assouvir...
3 pièce(s) jointe(s)
Les modèles d'IA génèrent des photos de personnes réelles et des images protégées par le droit d'auteur
Les modèles d'IA génèrent des photos de personnes réelles et des images protégées par le droit d'auteur
les résultats de cette étude pourraient appuyer la plainte des artistes selon lesquelles les entreprises d'IA enfreignent leurs droits
Selon de nouvelles recherches, les modèles de génération d'images populaires peuvent être incités à produire des photos identifiables de personnes réelles, menaçant potentiellement leur vie privée. Les travaux montrent également que ces systèmes d'IA peuvent être conçus pour générer des copies exactes d'images médicales et d'œuvres protégées par des droits d'auteur d'artistes. C'est une découverte qui pourrait renforcer le dossier des artistes qui poursuivent actuellement des sociétés d'intelligence artificielle pour violation du droit d'auteur.
En quelques mois seulement, des millions de personnes se sont ruées sur les systèmes d'IA de conversion de texte en image et ils sont déjà utilisés pour créer des films expérimentaux, des couvertures de magazine et des images pour illustrer des articles de presse. Une image générée par un système d'IA appelé Midjourney a récemment remporté un concours d'art à la foire d'État du Colorado et a provoqué un tumulte parmi les artistes.
Mais la découverte par des artistes que leur travail est utilisé pour entraîner l'IA soulève une préoccupation encore plus fondamentale : leur propre art est effectivement utilisé pour entraîner un programme informatique qui pourrait un jour s'attaquer à leur gagne-pain. Quiconque génère des images avec des systèmes tels que Stable Diffusion ou DALL-E peut ensuite les vendre, les conditions spécifiques concernant le droit d'auteur et la propriété de ces images varient. « Je ne veux pas du tout participer à la machine qui va dévaloriser ce que je fais », a déclaré Daniel Danger, un illustrateur et graveur qui a appris qu'un certain nombre de ses œuvres avaient été utilisées pour entraîner Stable Diffusion.
Les machines sont loin d'être magiques. Pour qu'un de ces systèmes puisse ingérer vos mots et produire une image, il doit être entraîné sur des montagnes de données, qui peuvent comprendre des milliards d'images extraites d'Internet, associées à des descriptions écrites.
Certains services, dont le système DALL-E d'OpenAI, ne divulguent pas les ensembles de données sur lesquels reposent leurs systèmes d'IA. Mais avec Stability Diffusion, Stability AI est clair sur ses origines. Son jeu de données de base a été entraîné sur des paires d'images et de textes sélectionnés pour leur aspect à partir d'un cache encore plus massif d'images et de textes provenant d'Internet. L'ensemble de données complet, connu sous le nom de LAION-5B, a été créé par l'association allemande d'intelligence artificielle LAION : "large-scale artificial intelligence open network" (réseau ouvert d'intelligence artificielle à grande échelle).
Cette pratique consistant à récupérer des images ou d'autres contenus sur Internet pour former des ensembles de données n'est pas nouvelle et relève traditionnellement de ce que l'on appelle le "fair use", principe juridique de la loi américaine sur le droit d'auteur qui autorise l'utilisation d'œuvres protégées par le droit d'auteur dans certaines situations. En effet, ces images, dont beaucoup peuvent être protégées par des droits d'auteur, sont utilisées d'une manière très différente, par exemple pour apprendre à un ordinateur à identifier des chats.
Personnes réelles et œuvres protégées par le droit d'auteur
Si les IA sont capables de « s'inspirer » des images qu'elles sont « apprises » pour générer une nouvelle image, peuvent-elles également générer ces mêmes images quelles ont « apprises » ? Dans une étude, des chercheurs se sont servis de Stable Diffusion et Imagen de Google avec des légendes pour les images, telles que le nom d'une personne, à plusieurs reprises. Ensuite, ils ont analysé si l'une des images générées correspondait aux images originales de la base de données du modèle. Le groupe a réussi à extraire plus de 100 répliques d'images dans l'ensemble de formation de l'IA.
Citation:
Les modèles de diffusion d'images tels que DALL-E 2, Imagen et Stable Diffusion ont attiré une attention particulière en raison de leur capacité à générer des images synthétiques de haute qualité. Dans ce travail, nous montrons que les modèles de diffusion mémorisent des images individuelles à partir de leurs données d'apprentissage et les émettent au moment de la génération. Avec un pipeline de génération et de filtrage, nous extrayons plus d'un millier d'exemples de formation à partir de modèles de pointe, allant des photographies de personnes individuelles aux logos d'entreprise. Nous formons également des centaines de modèles de diffusion dans divers contextes pour analyser comment différentes décisions de modélisation et de données affectent la confidentialité. Dans l'ensemble, nos résultats montrent que les modèles de diffusion sont beaucoup moins privés que les modèles génératifs antérieurs tels que les GAN, et que l'atténuation de ces vulnérabilités peut nécessiter de nouvelles avancées dans la formation à la protection de la vie privée.
Il faut rappeler que ces modèles d'IA générateurs d'images sont entraînés sur de vastes ensembles de données constitués d'images avec des descriptions textuelles extraites d'Internet. La dernière génération de la technologie fonctionne en prenant des images dans l'ensemble de données et en modifiant un pixel à la fois jusqu'à ce que l'image d'origine ne soit rien d'autre qu'une collection de pixels aléatoires. Le modèle d'IA inverse ensuite le processus pour transformer le désordre pixélisé en une nouvelle image.
C'est la première fois que des chercheurs réussissent à prouver que ces modèles d'IA mémorisent des images dans leurs ensembles d'entraînement, explique Ryan Webster, doctorant à l'Université de Caen Normandie en France, qui a étudié la confidentialité dans d'autres modèles de génération d'images mais n'était pas impliqués dans la recherche. Cela pourrait avoir des implications pour les startups souhaitant utiliser des modèles d'IA générative dans les soins de santé, car cela montre que ces systèmes risquent de divulguer des informations privées sensibles.
Eric Wallace, doctorant à l'UC Berkeley qui faisait partie du groupe d'étude, dit qu'ils espèrent sonner l'alarme sur les problèmes potentiels de confidentialité autour de ces modèles d'IA avant qu'ils ne soient largement déployés dans des secteurs sensibles comme la médecine.
« Beaucoup de gens sont tentés d'essayer d'appliquer ces types d'approches génératives aux données sensibles, et notre travail est certainement un récit édifiant que c'est probablement une mauvaise idée, à moins qu'il n'y ait une sorte de protection extrême prise pour empêcher [les atteintes à la vie privée] », explique Wallace.
La mesure dans laquelle ces modèles d'IA mémorisent et régurgitent les images de leurs bases de données est également à l'origine d'une énorme querelle entre les entreprises d'IA et les artistes. Stability.AI fait face à deux poursuites intentées par un groupe d'artistes et Getty Images, qui affirment que la société a illégalement récupéré et traité leur matériel protégé par le droit d'auteur.
Les découvertes des chercheurs pourraient renforcer les cartes en possession des artistes accusant les sociétés d'IA de violations du droit d'auteur. Si les artistes dont le travail a été utilisé pour former Stable Diffusion peuvent prouver que le modèle a copié leur travail sans autorisation, l'entreprise pourrait devoir les indemniser.
Les résultats sont opportuns et importants, déclare Sameer Singh, professeur agrégé d'informatique à l'Université de Californie à Irvine, qui n'a pas participé à la recherche. « C'est important pour la sensibilisation du grand public et pour lancer des discussions autour de la sécurité et de la confidentialité de ces grands modèles », ajoute-t-il.
L'article démontre qu'il est possible de déterminer si les modèles d'IA ont copié des images et de mesurer dans quelle mesure cela s'est produit, qui sont tous deux très précieux à long terme, dit Singh.
Stable Diffusion est open source, ce qui signifie que n'importe qui peut l'analyser et l'étudier. Imagen est fermé, mais Google a autorisé l'accès aux chercheurs. Singh dit que le travail est un excellent exemple de l'importance de donner à la recherche un accès à ces modèles d'analyse, et il soutient que les entreprises devraient être tout aussi transparentes avec d'autres modèles d'IA, tels que ChatGPT d'OpenAI.
Cependant, bien que les résultats soient impressionnants, ils s'accompagnent de quelques mises en garde. Les images que les chercheurs ont réussi à extraire sont apparues plusieurs fois dans les données de formation ou étaient très inhabituelles par rapport aux autres images de l'ensemble de données, explique Florian Tramèr, professeur adjoint d'informatique à l'ETH Zürich, qui faisait partie du groupe.
Les personnes qui ont l'air inhabituel ou qui ont des noms inhabituels courent un risque plus élevé d'être mémorisées, dit Tramèr.
Les chercheurs n'ont pu extraire que relativement peu de copies exactes des photos des individus à partir du modèle d'IA*: seulement une image sur un million était une copie, selon Webster. Mais c'est toujours inquiétant, déclare Tramèr*: « J'espère vraiment que personne ne regardera ces résultats et ne dira : "Oh, en fait, ces chiffres ne sont pas si mauvais si c'est juste un sur un million ». « Le fait qu'ils soient plus grands que zéro est ce qui compte », ajoute-t-il.
Conclusion
Citation:
Questions de généralisation
Les modèles à grande échelle fonctionnent-ils en générant de nouvelles sorties, ou se contentent-ils de copier et d'interpoler entre des exemples de formation individuels*? Si nos attaques d'extraction avaient échoué, cela aurait peut-être réfuté l'hypothèse selon laquelle les modèles copient et interpolent les données d'apprentissage*; mais parce que nos attaques réussissent, cette question reste ouverte. Étant donné que différents modèles mémorisent des quantités variables de données, nous espérons que les travaux futurs exploreront comment les modèles de diffusion copient à partir de leurs ensembles de données de formation.
Nos travaux mettent également en évidence la difficulté de définir la mémorisation. Bien que nous ayons trouvé une mémorisation étendue avec une simple mesure, une analyse plus complète sera nécessaire pour capturer avec précision des définitions plus nuancées de la mémorisation qui apportent des notions de copie de données plus humaines.
Conséquences pratiques
Nous soulevons quatre conséquences pratiques pour ceux qui forment et déploient des modèles de diffusion. Tout d'abord, bien qu'il ne s'agisse pas d'une défense parfaite, nous recommandons de dédupliquer les ensembles de données d'entraînement et de minimiser le surentraînement. Deuxièmement, nous suggérons d'utiliser notre attaque ou d'autres techniques d'audit - pour estimer le risque de confidentialité des modèles entraînés. Troisièmement, une fois que des techniques pratiques de préservation de la vie privée deviennent possibles, nous recommandons leur utilisation dans la mesure du possible. Enfin, nous espérons que notre travail tempérera les attentes heuristiques en matière de confidentialité qui sont désormais associées aux résultats des modèles de diffusion*: les données synthétiques ne donnent pas la confidentialité gratuitement.
Dans l'ensemble, notre travail contribue à un corpus croissant de littérature qui soulève des questions concernant les problèmes juridiques, éthiques et de confidentialité qui découlent de la formation sur les données publiques récupérées sur le Web. Les chercheurs et les praticiens doivent se méfier de la formation sur des données publiques non conservées sans avoir d'abord pris des mesures pour comprendre les implications sous-jacentes en matière d'éthique et de confidentialité.
Source : résultats de recherche
1 pièce(s) jointe(s)
Getty Images poursuit le générateur d'art IA Stable Diffusion pour violation du droit d'auteur
Getty Images poursuit le générateur d'art IA Stable Diffusion pour violation du droit d'auteur,
accusant la société de s'être servie de 12 millions d'images pour former son modèle d'IA « sans autorisation … ni compensation »
Getty Images a déposé une plainte aux États-Unis contre Stability AI, les créateurs du générateur d'art IA open source Stable Diffusion, intensifiant sa bataille juridique contre l'entreprise. La banque d'images accuse Stability AI de « violation éhontée de la propriété intellectuelle de Getty Images à une échelle stupéfiante ». Elle affirme que Stability AI a copié plus de 12 millions d'images de sa base de données « sans autorisation ... ni compensation ... dans le cadre de ses efforts pour créer une entreprise concurrente », et que la startup a enfreint à la fois le droit d'auteur et la protection de la marque de commerce de l'entreprise.
Getty Images est bien connu pour sa vaste collection de millions d'images, y compris ses archives exclusives d'images historiques et sa plus large sélection d'images hébergées sur iStock. Vendredi, Getty a déposé une deuxième plainte contre Stability AI Inc pour empêcher l'utilisation et la duplication non autorisées de ses images de stock à l'aide de l'intelligence artificielle.
Selon le dernier procès intenté par la société devant un tribunal de district américain du Delaware, « Stability AI a copié plus de 12 millions de photographies de la collection de Getty Images, ainsi que les légendes et métadonnées associées, sans l'autorisation ni la compensation de Getty Images, dans le cadre de ses efforts pour bâtir une entreprise concurrente ».
Dans ce procès, Getty a allégué que Stability AI était allé jusqu'à supprimer les informations de gestion des droits d'auteur de Getty, falsifier ses propres informations de gestion des droits d'auteur et enfreindre les « marques célèbres » de Getty en dupliquant le filigrane de Getty sur certaines images. Reuters a rapporté que le deuxième procès de Getty contre Stability AI faisait suite au dépôt du mois dernier au Royaume-Uni. En plus de ces poursuites, Stability AI fait également face à un recours collectif d'artistes affirmant que la société a formé son modèle Stable Diffusion sur des milliards d'œuvres d'art protégées par le droit d'auteur sans indemniser les artistes ni demander la permission.
Le mois dernier, Getty a déclaré dans un communiqué que la société "croit que l'intelligence artificielle a le potentiel de stimuler les efforts créatifs", mais Stability AI a tenté de perturber potentiellement les activités d'imagerie de stock de la société dans le mauvais sens. Plutôt que de payer à Getty des licences pour former son modèle Stable Diffusion "d'une manière qui respecte les droits de propriété personnels et intellectuels", Getty a déclaré que "Stability AI n'a pas demandé une telle licence à Getty Images" et a apparemment "choisi d'ignorer les options de licence viables". et des protections juridiques de longue date dans la poursuite de leurs intérêts commerciaux autonomes ».
Stable Diffusion, qu'est-ce que c'est ?
Stable Diffusion est un produit logiciel d'intelligence artificielle (IA), lancé en août 2022 par une société appelée Stability AI. Selon Matthew Butterick, Stable Diffusion contient des copies non autorisées de millions, voire de milliards, d'images protégées par le droit d'auteur. Ces copies ont été faites à l'insu ou sans le consentement des artistes.
Même en supposant des dommages nominaux de 1 $ par image, la valeur de ce détournement serait d'environ 5 milliards de dollars (à titre de comparaison, le plus grand vol d'art jamais réalisé a été le vol en 1990 de 13 œuvres d'art du musée Isabella Stewart Gardner, d'une valeur actuelle estimée à 500 millions de dollars.)
Stable Diffusion appartient à une catégorie de systèmes d'IA appelée IA générative. Ces systèmes sont entraînés sur un certain type de travail créatif – par exemple du texte, du code logiciel ou des images – puis remixent ces travaux pour dériver (ou « générer ») d'autres travaux du même type.
Après avoir copié les cinq milliards d'images (sans le consentement des artistes originaux) Stable Diffusion s'appuie sur un processus mathématique appelé diffusion pour stocker des copies compressées de ces images d'entraînement, qui à leur tour sont recombinées pour dériver d'autres images. C'est, en bref, un outil de collage du 21e siècle.
Ces images résultantes peuvent ou non ressembler extérieurement aux images d'entraînement. Néanmoins, elles sont dérivées de copies des images de formation et leur font concurrence sur le marché. Au minimum, la capacité de Stable Diffusion à inonder le marché avec un nombre pratiquement illimité d'images contrefaisantes infligera des dommages permanents au marché de l'art et des artistes.
Même le PDG de Stability AI, Emad Mostaque, a prévu que « les [futurs] modèles [IA] seront entièrement sous licence ». Mais Stable Diffusion ne l'est pas. Pour Matthew, c'est un parasite qui, s'il est autorisé à proliférer, causera un préjudice irréparable aux artistes, aujourd'hui et à l'avenir.
Exposé des motifs
Citation:
Envoyé par Getty Images
Getty Images sert des clients créatifs, commerciaux et médiatiques dans plus de 200 pays à travers le monde, et ses images aident ses clients à produire des œuvres qui apparaissent chaque jour dans les journaux, magazines, campagnes publicitaires, films, programmes télévisés, livres, sites internet et autres médias les plus influents au monde. Dans des circonstances appropriées, et avec des garanties pour les droits et les intérêts de ses photographes et contributeurs et des sujets des images de sa collection, Getty Images autorise également l'utilisation de ses actifs visuels et des métadonnées associées en relation avec le développement de l'intelligence artificielle et des outils d'apprentissage automatique. Getty Images a concédé sous licence des millions d'actifs numériques appropriés à des innovateurs technologiques de premier plan à diverses fins liées à l'intelligence artificielle et à l'apprentissage automatique.
Les ressources visuelles de Getty Images sont hautement souhaitables pour une utilisation dans le cadre de l'intelligence artificielle et de l'apprentissage automatique en raison de leur haute qualité et parce qu'elles sont accompagnées de légendes détaillées spécifiques au contenu et de métadonnées riches.
Sur la base d'informations et de convictions, Stability AI a été fondée en 2020 par Emad Mostaque, un ancien dirigeant de fonds spéculatifs, en tant qu'entreprise à but lucratif. Selon des articles de presse récents, Stability AI a récemment levé plus de 100 millions de dollars auprès d'investisseurs en capital-risque et est
déjà évalué à 1 milliard de dollars. Sur le dos de la propriété intellectuelle détenue par Getty Images et d'autres détenteurs de droits d'auteur, Stability AI a créé un modèle de génération d'images appelé Stable Diffusion qui utilise l'intelligence artificielle pour fournir des images synthétisées par ordinateur en réponse à des invites textuelles. En plus d'offrir des versions open source de Stable Diffusion, Stability AI propose une interface utilisateur génératrice de revenus appelée DreamStudio qui est alimentée par son modèle Stable Diffusion. DreamStudio permet aux utilisateurs d'obtenir des images du modèle Stable Diffusion sur leurs propres ordinateurs personnels sans avoir besoin d'installation de logiciel ou de connaissances en codage, et Stability AI facture des frais pour ce service.
Plutôt que de tenter de négocier une licence avec Getty Images pour l'utilisation de son contenu, et même si les conditions d'utilisation des sites Web de Getty Images interdisent expressément la reproduction non autorisée de contenu à des fins commerciales telles que celles entreprises par Stability AI, Stability AI a copié au moins 12 millions d'images protégées par le droit d'auteur des sites Web de Getty Images, ainsi que le texte et les métadonnées associés, afin de former son modèle Stable Diffusion.
Stability AI est désormais en concurrence directe avec Getty Images en commercialisant Stable Diffusion et son interface DreamStudio auprès de ceux qui recherchent des images créatives, et sa violation du contenu de Getty Images à grande échelle a contribué à son succès à ce jour.
Sur la base d'informations et de convictions, Stability AI était bien consciente que le contenu qu'elle glanait sans l'autorisation des sites Web de Getty Images était protégé par le droit d'auteur.
Souvent, la sortie générée par Stable Diffusion contient une version modifiée d'un filigrane Getty Images, créant une confusion quant à la source des images et impliquant à tort une association avec Getty Images. Alors que certains des résultats générés par l'utilisation de Stable Diffusion sont esthétiquement agréables, d'autres sont de bien moindre qualité et vont parfois du bizarre au grotesque. L'incorporation par Stability AI des marques de Getty Images dans des images de mauvaise qualité, peu attrayantes ou offensantes dilue ces marques en violation supplémentaire des lois fédérales et étatiques sur les marques.
Jusqu'à présent, on ne sait toujours pas quel statut juridique les titulaires de droits d'image, qu'il s'agisse de Getty ou d'un artiste individuel, ont sur les entreprises qui récupèrent librement des images sur des sites Web pour former des systèmes d'IA comme Stable Diffusion sans consentement. Si le tribunal se range du côté de Getty, cela pourrait répondre à certaines des questions juridiques que de nombreux artistes se posent depuis le début de la controverse. Notamment, Stability AI a quelque peu sympathisé avec les artistes qui protestaient contre la technologie, annonçant le mois dernier un plan pour permettre aux artistes de se retirer des efforts de formation à l'image.
Getty est dans une position légèrement différente de celle des artistes, affirmant dans sa plainte la plus récente qu'elle est ciblée non seulement en raison de la qualité supérieure des images qu'elle héberge, mais également en raison de toutes les descriptions détaillées et métadonnées que Getty collecte. Une entreprise comme Stability AI peut utiliser ces données pour mieux répondre aux invites des utilisateurs, en utilisant essentiellement toutes les contributions de Getty pour concurrencer injustement le fournisseur d'images, selon l'entreprise.
Getty a demandé un procès devant jury « pour mettre fin à la conduite manifestement enfreinte de Stability AI et obtenir réparation pour le mépris impitoyable de Stability AI pour ses droits de propriété intellectuelle ». La société demande des dommages-intérêts, demandant au tribunal d'obliger « une comptabilité entière et complète à Getty Images sur les bénéfices, les gains, les avantages de Stability AI et la valeur des opportunités commerciales tirées de ses actes de contrefaçon ».
Qu'en pensent les experts ?
Les experts juridiques affirment que le cas de Getty Images est plus solide que le procès mené par l'artiste, mais avertissent que sur un territoire juridique aussi inconnu, il est impossible de prédire un résultat.
Andres Guadamaz, un universitaire britannique spécialisé dans l'IA et le droit d'auteur, a déclaré sur Twitter que la plainte de Getty était « très forte » : « La plainte est techniquement plus précise que le recours collectif », a estimé Guadamaz. « L'affaire reposera probablement sur la plainte pour violation [du droit d'auteur], et les défendeurs sont susceptibles de faire valoir une utilisation équitable. Cela pourrait aller dans les deux sens ».
Aaron Moss, avocat spécialisé dans le droit d'auteur chez Greenberg Glusker et éditeur du blog Copyright Lately, a tweeté : « La nouvelle plainte de Getty est bien meilleure que le recours collectif excessif dont j'ai parlé le mois dernier. L'accent est mis là où il devrait être*: l'ingestion d'images protégées par le droit d'auteur pour entraîner les données. Ce sera une bataille d'utilisation équitable fascinante ».
Moss, qui a été le premier à publier la plainte complète sur son blog, a noté que le recours collectif potentiel « était beaucoup plus axé sur les dommages professionnels causés aux artistes en activité par la prolifération des outils d'IA », tandis que Getty se concentre « sur le fait qu'il n'a pas été payé pour l'utilisation de ses images. Notamment, Getty a concédé sous licence ses images et ses métadonnées à d'autres générateurs d'art IA, soulignant le fait que Stability AI a délibérément fait du scrapping de ses images sans autorisation ».
Les arguments de violation du droit d'auteur dans le procès reposeront sur l'interprétation de la doctrine américaine de l'utilisation équitable, qui protège l'utilisation sans licence d'œuvres protégées par le droit d'auteur dans certains scénarios. Le concept « d'utilisation transformatrice » est également susceptible d'être un facteur important. La sortie de Stable Diffusion est-elle suffisamment différente de ses données d'apprentissage*? Des recherches récentes ont montré que le logiciel mémorise certaines de ses images d'entraînement et peut les reproduire presque exactement, bien que cela ne se produise que dans un très petit nombre de cas.
Un autre argument avancé par Getty Images concerne sa marque. Stable Diffusion est bien connu pour avoir recréé le filigrane de la société dans certaines de ses images, et Getty affirme que l'apparition de ce filigrane sur les « images bizarres ou grotesques » du modèle dilue la qualité des marques Getty Images en les floutant ou en les ternissant.
L'affaire sera cependant lente à avancer, a averti Moss. Il note que la plainte a été déposé devant le tribunal de district du Delaware et que le rôle du tribunal est « assez étayé ».
« Je traite actuellement une affaire là-bas, et on m'a dit que les juges mettent régulièrement des mois (parfois jusqu'à 6 à 9 mois) pour décider des requêtes de rejet après leur soumission », a déclaré Moss. « Il faudra probablement plusieurs années pour que l'affaire Getty Images passe par des requêtes de découverte et de jugement sommaire avant le procès ».
Il note que ces cas d'utilisation équitable nécessitent également la contribution des juges et des jurys. « Le jury tranche toutes les questions factuelles contestées, mais les questions juridiques ultimes sont censées être tranchées par un juge », explique Moss.
Sources : plainte, communiqué Getty Images, Andres Guadamaz, Aaron Moss
1 pièce(s) jointe(s)
Les images créées par l'IA ne bénéficieront pas de la protection du droit d'auteur aux États-Unis
Les images créées par l'IA ne bénéficieront pas de la protection du droit d'auteur aux États-Unis, toutefois le résultat d'un contrôle créatif sur un outil de génération d'images reste protégeable
Les images d'un roman graphique qui ont été créées à l'aide du système d'intelligence artificielle Midjourney n'auraient pas dû bénéficier de la protection du droit d'auteur, a déclaré l'Office américain du droit d'auteur dans une lettre.
L'auteur de "Zarya of the Dawn", Kris Kashtanova, a droit à un copyright pour les parties du livre que Kashtanova a écrites et arrangées, mais pas pour les images produites par Midjourney, a déclaré l'office dans sa lettre, datée de mardi.
Cette décision est l'une des premières prises par un tribunal ou un organisme américain sur l'étendue de la protection du droit d'auteur pour les œuvres créées à l'aide de l'IA, et elle intervient dans le contexte de l'essor fulgurant des logiciels d'IA générative comme Midjourney, Dall-E et ChatGPT.
Le Bureau du droit d'auteur a indiqué dans sa lettre qu'il allait rééditer l'enregistrement de "Zarya of the Dawn" afin d'omettre les images qui "ne sont pas le produit d'un travail humain" et ne peuvent donc pas être protégées par le droit d'auteur.
Mercredi, Mme Kashtanova a qualifié de "bonne nouvelle" le fait que l'office ait autorisé la protection par le droit d'auteur de l'histoire du roman et de la manière dont les images ont été agencées, ce qui, selon elle, "couvre un grand nombre d'utilisations pour les membres de la communauté artistique de l'IA".
Mme Kashtanova a déclaré qu'ils réfléchissaient à la meilleure façon de faire valoir l'argument selon lequel les images elles-mêmes étaient "l'expression directe de ma créativité et donc protégeables par le droit d'auteur."
Max Sills, avocat général de Midjourney, a déclaré que la décision était "une grande victoire pour Kris, Midjourney et les artistes" et que le Copyright Office " dit clairement que si un artiste exerce un contrôle créatif sur un outil de génération d'images comme Midjourney, le résultat est protégeable".
Midjourney est un système basé sur l'IA qui génère des images à partir de textes saisis par les utilisateurs. Kashtanova a écrit le texte de "Zarya of the Dawn", et Midjourney a créé les images du livre en fonction des invites.
En octobre, l'Office du droit d'auteur a fait savoir à Kashtanova qu'il réexaminerait l'enregistrement du droit d'auteur du livre parce que la demande ne mentionnait pas le rôle de Midjourney.
L'office a déclaré mardi qu'il accorderait la protection du droit d'auteur pour le texte du livre et la manière dont Kashtanova a sélectionné et arrangé ses éléments. Mais il a précisé que Mme Kashtanova n'était pas le "maître à penser" des images elles-mêmes.
"Le fait que le résultat spécifique de Midjourney ne puisse être prédit par les utilisateurs rend Midjourney différent, aux fins du droit d'auteur, des autres outils utilisés par les artistes", indique la lettre.
Sources : Bureau du droit d'auteur des États-Unis, Kris Kashtanova, Lettre du Bureau du droit d'auteur (PDF)
Et vous ?
:fleche: Que pensez-vous de cette décision de l'Office US du droit d'auteur ? Trouvez-vous qu'elle est pertinente ?
:fleche: Quel est votre avis général sur la popularité croissante des outils de génération d'images basés sur l'IA ?
:fleche: D'après vous, une œuvre littéraire devrait-elle bénéficier entièrement de la protection du droit d'auteur si l'artiste indique qu'elle a été générée par l'IA ?
Voir aussi :
:fleche: La bande dessinée générée par l'IA perd la protection du droit d'auteur qui lui avait été accordée, l'USPTO estime que les œuvres protégées par le droit d'auteur nécessitent la paternité humaine
:fleche: Les artistes se révoltent contre les œuvres d'art générées par l'IA sur le site de portfolios ArtStation et inondent la plateforme d'images portant le message : "non aux images générées par l'IA"
:fleche: Une plainte en recours collectif est déposée contre Stability AI, Midjourney et DeviantArt pour violations du droit d'auteur, sous le couvert d'une prétendue « intelligence artificielle »
:fleche: Un concours de photographie organisé par des professionnels a été gagné par une intelligence artificielle, l'image a trompé les juges et les autres participants