IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Vue hybride

Message précédent Message précédent   Message suivant Message suivant
  1. #1
    Membre confirmé
    Homme Profil pro
    Développeur .NET
    Inscrit en
    Juillet 2021
    Messages
    87
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 35
    Localisation : France, Isère (Rhône Alpes)

    Informations professionnelles :
    Activité : Développeur .NET

    Informations forums :
    Inscription : Juillet 2021
    Messages : 87
    Par défaut
    si ils viraient leurs brides idéologiques ça irait peut être déjà un peu plus loin

  2. #2
    Membre averti
    Homme Profil pro
    Inscrit en
    Mai 2012
    Messages
    49
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Secteur : Santé

    Informations forums :
    Inscription : Mai 2012
    Messages : 49
    Par défaut Qu'est-ce que pourrait "générer" quelque chose qui n'a pas de cerveau ?
    Évidemment que, lorsque l'"IA" s'inspire de tout contenu digital présent sur Internet ou ailleurs, il ne peut pas y avoir lieu de "générer" qqch si ce n'est pas de copier des morceaux qu'elle a appris et de les mettre ensemble. Vous ne verrez jamais quelque chose de vraiment nouveau, il y aura toujours des morceaux copiés mis ensemble. Donc techniquement c'est une géante "violation des droits d'auteur", même s'il peut s'agir de contenu "libre" qui est utilisé. S'il n'y avait pas ce contenu libre et que tout était protégé par des droit d'auteur, pourrait-on parler d'IA du point de vue légal ?...

  3. #3
    Membre chevronné

    Homme Profil pro
    Consultant informatique
    Inscrit en
    Avril 2015
    Messages
    488
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Vendée (Pays de la Loire)

    Informations professionnelles :
    Activité : Consultant informatique
    Secteur : Finance

    Informations forums :
    Inscription : Avril 2015
    Messages : 488
    Par défaut
    Citation Envoyé par impopia Voir le message
    Évidemment que, lorsque l'"IA" s'inspire de tout contenu digital présent sur Internet ou ailleurs, il ne peut pas y avoir lieu de "générer" qqch si ce n'est pas de copier des morceaux qu'elle a appris et de les mettre ensemble. Vous ne verrez jamais quelque chose de vraiment nouveau, il y aura toujours des morceaux copiés mis ensemble.
    Dans quelle mesure sommes-nous vraiment libres de nos créations, qu'est-ce qui nous distingue fondamentalement de ces systèmes, hormis le volume d'apprentissage ?
    Sûr ce point, il faut reprendre les chiffres de Yann LeCun. Un gosse de quatre ans ridiculise en masse d'information acquise n'importe quel "grand modèle" d'aujourd'hui. Et il continue à apprendre à chaque instant, lui...

  4. #4
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 757
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 757
    Par défaut Le Financial Times et OpenAI concluent un accord de licence de contenu afin d'améliorer ChatGPT
    Le Financial Times et OpenAI concluent un accord de licence de contenu afin d'améliorer ChatGPT,
    il s'agit du cinquième accord de ce type conclu par OpenAI au cours de l'année écoulée

    Le Financial Times (FT) a annoncé un partenariat stratégique et un accord de licence avec OpenAI. Cet accord permettra à OpenAI d’utiliser le contenu archivé du FT pour former ses modèles d’IA, avec l’objectif d’améliorer la technologie de l’IA générative, capable de créer du texte, des images et du code qui ressemblent étroitement aux créations humaines.

    L'intelligence artificielle est gourmande en données. Tous les aspects de l'IA (modèles d'apprentissage automatique, apprentissage continu, généralisation et analyses prédictives et descriptives) nécessitent de vastes ensembles de données. Plus les données sont diverses et complètes, plus l'IA est performante. C'est pourquoi les données sont souvent considérées comme le « carburant d'entraînement » de l'IA. Les progrès réalisés dans le domaine de l'IA ces dernières années ont été rendus possibles grâce aux données collectées ici et là sur Internet.

    OpenAI a entrepris de former des partenariats avec des organes de presse pour former son IA. Le dernier en date étant le quotidien Financial Times.

    Un partenariat stratégique

    Le partenariat entre le FT et OpenAI est décrit comme une collaboration visant à enrichir ChatGPT avec du contenu attribué, à améliorer l’utilité des modèles de l’IA en intégrant le journalisme du FT, et à collaborer au développement de nouveaux produits et fonctionnalités d’IA pour les lecteurs du FT. Le FT est également devenu client de ChatGPT Enterprise plus tôt cette année, offrant ainsi à tous ses employés l’accès à la technologie pour bénéficier des gains de créativité et de productivité rendus possibles par les outils d’OpenAI.

    Selon les termes de l'accord, le FT accordera une licence d'utilisation de son matériel au créateur de ChatGPT pour l'aider à développer une technologie d'IA générative capable de créer des textes, des images et des codes impossibles à différencier des créations humaines. L'accord permet également à ChatGPT de répondre aux questions par de courts résumés d'articles du FT, avec des liens vers FT.com. Cela signifie que les 100 millions d'utilisateurs du chatbot dans le monde peuvent accéder aux articles du FT par l'intermédiaire de ChatGPT, tout en renvoyant à la source originale.

    Citation Envoyé par OpenAI
    Grâce à ce partenariat, les utilisateurs de ChatGPT pourront voir des résumés attribués, des citations et des liens riches vers le journalisme du FT en réponse à des requêtes pertinentes. En outre, le FT est devenu un client de ChatGPT Enterprise au début de cette année, en achetant un accès pour tous les employés du FT afin de s'assurer que ses équipes sont bien familiarisées avec la technologie et peuvent bénéficier de la créativité et des gains de productivité rendus possibles par les outils d'OpenAI.
    Nom : open.png
Affichages : 8883
Taille : 35,0 Ko

    Vers un avenir collaboratif

    « Il s'agit d'un accord important à plusieurs égards », a déclaré John Ridding, PDG du groupe FT. « Il reconnaît la valeur de notre journalisme primé et nous donnera un aperçu de la façon dont le contenu est mis en valeur par l'IA. Nous sommes depuis longtemps un leader dans l'innovation des médias d'information, pionnier du modèle d'abonnement et des technologies d'engagement, et ce partenariat nous aidera à rester à la pointe des développements dans la façon dont les gens accèdent à l'information et l'utilisent. »

    « Le FT se consacre au journalisme humain, tel qu'il est produit par notre salle de rédaction inégalée, et cet accord élargira la portée de ce travail, tout en approfondissant notre compréhension des demandes et des intérêts des lecteurs », a ajouté Ridding. « Outre les avantages pour le FT, il y a des implications plus larges pour l'industrie. Il est juste, bien sûr, que les plateformes d'IA paient les éditeurs pour l'utilisation de leur matériel. OpenAI comprend l'importance de la transparence, de l'attribution et de la rémunération - autant d'éléments essentiels pour nous. Dans le même temps, il est clairement dans l'intérêt des utilisateurs que ces produits contiennent des sources fiables. »

    Brad Lightcap, directeur de l'exploitation d'OpenAI, s'est montré enthousiaste quant à l'évolution de la relation avec le Financial Times : « Notre partenariat et notre dialogue continu avec le FT visent à trouver des moyens créatifs et productifs pour que l'IA renforce les organismes de presse et les journalistes, et enrichisse l'expérience ChatGPT avec un journalisme de classe mondiale en temps réel pour des millions de personnes à travers le monde ».

    « Nous sommes impatients d'explorer les résultats pratiques concernant les sources d'information et l'IA dans le cadre de ce partenariat », a déclaré M. Ridding. « Nous apprécions l'opportunité d'être dans la boucle de développement alors que les gens découvrent le contenu d'une nouvelle manière. Comme pour toute technologie transformatrice, il existe un potentiel d'avancées significatives et de défis majeurs, mais il n'est jamais possible de revenir en arrière. Il est important pour nous de représenter un journalisme de qualité au fur et à mesure que ces produits prennent forme - avec les garanties appropriées en place pour protéger le contenu et la marque du FT.

    Il s'agit du cinquième accord de ce type conclu par OpenAI au cours de l'année écoulée

    L'entreprise a déjà conclu des accords similaires avec Associated Press (États-Unis), Axel Springer (Allemagne), Le Monde (France) et Prisa Media (Espagne). Les conditions financières n'ont pas été divulguées.

    Axel Springer devrait gagner des dizaines de millions d'euros par an en permettant à OpenAI d'accéder au contenu de ses publications telles que Bild, Politico et Business Insider. Cet accord comprend un paiement unique pour le contenu historique de l'éditeur et une redevance plus importante versée dans le cadre d'un accord de licence annuel pour permettre à OpenAI d'accéder à des informations plus récentes.

    Nom : nyt.png
Affichages : 1712
Taille : 262,9 Ko

    Le New York Times est devenu le premier grand groupe de presse américain à poursuivre OpenAI et Microsoft

    En décembre, le New York Times a intenté une action en justice contre OpenAI et Microsoft pour violation des droits d'auteur, affirmant que les entreprises technologiques ont utilisé ses articles pour former des chatbots qui menacent aujourd'hui les emplois des journalistes.

    L'action en justice, déposée devant la Cour fédérale de district de Manhattan, affirme que les entreprises ont illégalement fourni des « millions d'articles » à Bing Chat de Microsoft et à ChatGPT d'OpenAI pour développer leurs produits. « Cette action vise à les tenir responsables des milliards de dollars de dommages statutaires et réels qu'elles doivent pour la copie et l'utilisation illégales des œuvres de grande valeur du Times », indique la plainte.

    Le Times affirme que les programmes d'intelligence artificielle d'OpenAI et de Microsoft utilisent des modèles de langues étendues qui ont été développés en copiant leurs articles avec un accent particulier. « Les défendeurs cherchent à profiter de l'investissement massif du Times dans son journalisme en l'utilisant pour créer des produits substitutifs sans autorisation ni paiement », indique la plainte.

    La plainte du New York Times citait plusieurs exemples où les chatbots d’OpenAI et de Microsoft donnaient aux utilisateurs des extraits quasi textuels de ses articles lorsqu’ils étaient sollicités. Elle accusait OpenAI et Microsoft de vouloir « profiter gratuitement de l’énorme investissement du Times dans le journalisme » et de créer un substitut au journal.

    L'éditeur estime que les utilisateurs de la technologie d'OpenAI - que Microsoft applique à l'ensemble de son empire logiciel et cloud - pourraient effectivement contourner le paywall du journal et lire des articles gratuitement en demandant au chatbot de générer des morceaux de texte qu'il a couvert, privant ainsi l'entreprise de l'argent de ses abonnements.

    OpenAI a riposté en accusant le New York Times d'avoir payé quelqu'un pour « pirater » ChatGPT afin de générer des paragraphes textuels à partir d'articles de son journal. Par piratage, l'entreprise entend sans doute : se connecter comme d'habitude et lui poser des questions visant à piéger le chatbot IA.

    Dans une précédente tentative de décrédibiliser le New York Times, OpenAI avait indiqué :

    Nos discussions avec le New York Times semblaient progresser de manière constructive jusqu'à notre dernière communication du 19 décembre. Les négociations portaient sur un partenariat de grande valeur autour de l'affichage en temps réel avec attribution dans ChatGPT, dans lequel le New York Times gagnerait un nouveau moyen de se connecter avec ses lecteurs existants et nouveaux, et nos utilisateurs auraient accès à leurs reportages. Nous avions expliqué au New York Times que, comme toute source unique, son contenu ne contribuait pas de manière significative à la formation de nos modèles existants et n'aurait pas non plus suffisamment d'impact pour les formations futures. Le procès qu'ils ont intenté le 27 décembre - dont nous avons pris connaissance en lisant le New York Times - nous a surpris et déçus.

    En cours de route, ils ont mentionné avoir constaté une certaine régurgitation de leur contenu, mais ils ont refusé à plusieurs reprises de partager des exemples, malgré notre engagement à enquêter et à résoudre les problèmes. Nous avons montré à quel point nous prenons cette question au sérieux, comme en juillet, lorsque nous avons supprimé une fonction de ChatGPT immédiatement après avoir appris qu'elle pouvait reproduire du contenu en temps réel de manière involontaire.

    Il est intéressant de noter que les régurgitations provoquées par le New York Times semblent provenir d’articles vieux de plusieurs années qui ont proliféré sur plusieurs sites Web tiers. Il semble qu’ils aient intentionnellement manipulé les invites, comprenant souvent de longs extraits d’articles, afin de faire régurgiter notre modèle. Même lorsqu’ils utilisent de telles invites, nos modèles ne se comportent généralement pas comme le laisse entendre le New York Times, ce qui suggère qu’ils ont soit demandé au modèle de régurgiter, soit sélectionné leurs exemples parmi de nombreuses tentatives.
    Conclusion

    Cet accord marque un tournant dans la relation entre les médias et l’intelligence artificielle, promettant d’apporter une nouvelle dimension au journalisme et à l’accès à l’information. Avec les garanties appropriées en place pour protéger le contenu et la marque du FT, cet accord pourrait bien façonner l’avenir de la consommation de contenu et de l’interaction avec l’IA.

    Cependant, il serait intéressant de voir comment réagissent les autres parties qui s'estiment spoliées par l'IA d'OpenAI, notamment le New York Times et tous les autres détenteurs de droits qui poursuivent l'entreprise en justice pour violation du copyright.

    Source : OpenAI

    Et vous ?

    Quelles sont les implications de l’utilisation du contenu journalistique pour entraîner des modèles d’IA ?
    Comment cet accord pourrait-il changer la manière dont nous consommons les actualités à l’avenir ?
    Quels avantages le Financial Times peut-il tirer de ce partenariat avec OpenAI ?
    En quoi la collaboration entre les médias et l’IA peut-elle améliorer l’expérience des lecteurs ?
    Quelles mesures de sécurité doivent être mises en place pour protéger le contenu et la marque du FT ?
    Comment les organisations de presse peuvent-elles s’assurer que l’IA ne compromet pas l’intégrité du journalisme ?
    Quel rôle les lecteurs peuvent-ils jouer pour influencer l’avenir de l’IA dans le journalisme ?
    Quels défis le FT et OpenAI pourraient-ils rencontrer dans la mise en œuvre de cet accord ?
    Comment cet accord pourrait-il influencer la création de contenu par les journalistes ?
    Quel est le potentiel de l’IA pour générer des nouvelles qui sont non seulement informatives mais aussi engageantes et créatives ?
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  5. #5
    Chroniqueur Actualités
    Avatar de Patrick Ruiz
    Homme Profil pro
    Redacteur web
    Inscrit en
    Février 2017
    Messages
    2 336
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Cameroun

    Informations professionnelles :
    Activité : Redacteur web
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Février 2017
    Messages : 2 336
    Par défaut Huit éditeurs de presse poursuivent Microsoft et OpenAI pour violation du droit d'auteur via leurs IA
    Huit éditeurs de presse poursuivent Microsoft et OpenAI pour violation du droit d'auteur lors de l’entraînement de ses modèles d’intelligence artificielle

    Des éditeurs de presse de Californie, du Colorado, de l'Illinois, de Floride, du Minnesota et de New York ont déclaré que Microsoft et OpenAI avaient utilisé des millions de leurs articles sans paiement ni autorisation pour développer des modèles d'intelligence artificielle pour ChatGPT et d'autres produits. La manœuvre intervient suite à une sortie d’OpenAI dans laquelle le créateur de ChatGPT reconnaît qu’il est impossible de créer des outils de ce genre sans contenus sous copyright. La porte de sortie de la situation semble résider dans la conclusion d’accords de licence avec les éditeurs de presse.

    Huit éditeurs de presse américains ont intenté une action en justice contre Microsoft et OpenAI devant un tribunal fédéral de New York. Ils affirment que les entreprises technologiques réutilisent leurs articles sans autorisation dans des produits d'intelligence artificielle générative et leur attribuent à tort des informations inexactes.

    Le groupe de huit éditeurs de journaux s'oppose à ChatGPT et à l'assistant Copilot de Microsoft, disponible dans le système d'exploitation Windows, le moteur de recherche Bing et d'autres produits du fabricant de logiciels. ChatGPT et Copilot ont « volé des millions d'articles protégés par le droit d'auteur des éditeurs sans autorisation et sans paiement », selon la plainte, qui a été déposée auprès du tribunal de district des États-Unis pour le district sud de New York.

    Nom : 0.png
Affichages : 7121
Taille : 28,7 Ko

    Les éditeurs de presse derrière la plainte exploitent le New York Daily News, le Chicago Tribune, l'Orlando Sentinel, le Sun Sentinel en Floride, le Mercury News en Californie, le Denver Post, l'Orange County Register en Californie et le Pioneer Press dans le Minnesota. Tous ces journaux sont la propriété du fonds spéculatif Alden Global Capital.

    Les éditeurs de presse déclarent dans l'action en justice que OpenAI avait utilisé des ensembles de données contenant du texte provenant de leurs journaux pour entraîner ses grands modèles linguistiques GPT-2 et GPT-3, qui peuvent produire du texte en réponse à une saisie humaine de quelques mots.

    Les éditeurs ajoutent que Microsoft copiait les informations de leurs journaux pour l'index de recherche Bing, ce qui permet d'éclairer les réponses dans le Copilot. Mais ces informations ne fournissent pas toujours des liens vers les sites web des journaux, où il est possible d'afficher des publicités à côté des articles ou de payer des abonnements.

    Cette bataille juridique intervient quatre mois après que le New York Times a poursuivi OpenAI pour violation des droits d'auteur dans le chatbot ChatGPT que la startup a lancé à la fin de 2022. Dans un billet de blog publié en janvier, OpenAI a déclaré que l'affaire n'était pas fondée, ajoutant qu'elle souhaitait soutenir "un écosystème de l'information sain". Le même mois, Sam Altman, PDG d'OpenAI, a déclaré que la startup souhaitait payer le New York Times et qu'elle avait été surprise d'apprendre l'existence de ce procès.

    Au cours des derniers mois, OpenAI a signé des accords avec une poignée de sociétés de médias, dont Axel Springer et le Financial Times, ce qui permet à la startup soutenue par Microsoft de puiser dans le contenu des éditeurs pour améliorer les modèles d'IA.

    Google, qui possède son propre chatbot généraliste pour répondre aux questions des utilisateurs, a déclaré en février qu'il avait conclu un accord avec Reddit qui lui donne le droit d'entraîner des modèles d'intelligence artificielle sur le contenu de la plateforme.

    Source : plainte

    Et vous ?

    Quelles sont les implications de l’utilisation du contenu journalistique pour entraîner des modèles d’IA ?
    Comment cet accord pourrait-il changer la manière dont nous consommons les actualités à l’avenir ?
    Quels avantages un éditeur de presse peut-il tirer de ce partenariat avec OpenAI ?
    En quoi la collaboration entre les médias et l’IA peut-elle améliorer l’expérience des lecteurs ?
    Quelles mesures de sécurité doivent être mises en place pour protéger le contenu et la marque du FT ?
    Comment les organisations de presse peuvent-elles s’assurer que l’IA ne compromet pas l’intégrité du journalisme ?
    Quel rôle les lecteurs peuvent-ils jouer pour influencer l’avenir de l’IA dans le journalisme ?
    Quels défis le FT et OpenAI pourraient-ils rencontrer dans la mise en œuvre de cet accord ?
    Comment cet accord pourrait-il influencer la création de contenu par les journalistes ?
    Quel est le potentiel de l’IA pour générer des nouvelles qui sont non seulement informatives mais aussi engageantes et créatives ?

    Voir aussi :

    Le New York Times envisage d'initier une action en justice contre OpenAI pour l'obliger à effacer les données d'entraînement de ChatGPT, le média dit non à l'usage de son contenu sans son accord

    Musk s'engage à poursuivre Microsoft en justice, l'accusant de s'être « entraînée illégalement avec les données de Twitter », tandis qu'elle abandonne l'intégration de Twitter de sa plateforme pub

    Des auteurs de livres poursuivent OpenAI en justice, affirmant que la société a abusé de leurs travaux pour former ChatGPT. Selon eux, les livres sont un « ingrédient clé » du chabot IA
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  6. #6
    Chroniqueur Actualités
    Avatar de Patrick Ruiz
    Homme Profil pro
    Redacteur web
    Inscrit en
    Février 2017
    Messages
    2 336
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Cameroun

    Informations professionnelles :
    Activité : Redacteur web
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Février 2017
    Messages : 2 336
    Par défaut OpenAI a supprimé deux jeux de données qui avaient été utilisés pour entraîner illégalement GPT-3
    OpenAI a supprimé deux jeux de données utilisés pour entraîner illégalement GPT-3, ils contenaient des milliers de livres sous copyright
    Et les employés qui avaient collecté ces données ont disparu

    Des documents récemment dévoilés dans le cadre d’un recours collectif contre OpenAI révèlent que la startup a supprimé deux énormes ensembles de données, appelés "books1" et "books2", qui avaient été utilisés pour entraîner son modèle d'intelligence artificielle GPT-3. Les avocats de la firme Authors Guild ont déclaré dans les documents déposés au tribunal que les ensembles de données contenaient probablement plus de 100 000 livres publiés et qu'ils étaient au cœur des allégations selon lesquelles OpenAI avait utilisé des documents protégés par le droit d'auteur pour entraîner des modèles d'intelligence artificielle.

    Pendant des mois, la firme Authors Guild a cherché à obtenir des informations sur ces données auprès d'OpenAI. L'entreprise a d'abord résisté, invoquant des problèmes de confidentialité, avant de révéler qu'elle avait supprimé toutes les copies des données, selon les documents juridiques examinés par certains médias

    Dans un livre blanc publié en 2020, OpenAI a décrit les ensembles de données books1 et books2 comme des "corpus de livres basés sur Internet" et a indiqué qu'ils représentaient 16 % des données d'entraînement utilisées pour créer le GPT-3. Le livre blanc indique également que "books1" et "books2" contiennent ensemble 67 milliards de tokens de données, soit à peu près l'équivalent de 50 milliards de mots. À titre de comparaison, la Bible du roi Jacques contient 783 137 mots.

    La lettre non scellée des avocats d'OpenAI, qui porte la mention « hautement confidentiel - réservé aux avocats », indique que l'utilisation de books1 et books2 pour l'entraînement des modèles a cessé à la fin de 2021 et que les ensembles de données ont été supprimés à la mi-2022 en raison de leur non-utilisation. La lettre poursuit en indiquant qu'aucune des autres données utilisées pour entraîner le GPT-3 n'a été supprimée et offre aux avocats de la Guilde des auteurs l'accès à ces autres ensembles de données.

    Les documents non scellés révèlent également que les deux chercheurs qui ont créé books1 et books2 ne sont plus employés par OpenAI. OpenAI a d'abord refusé de révéler l'identité des deux employés.

    La startup a depuis identifié les employés auprès des avocats de la firme Authors Guild, mais n'a pas révélé publiquement leurs noms. OpenAI a demandé au tribunal de garder sous scellés les noms des deux employés, ainsi que les informations sur les ensembles de données. Authors Guild s'y est opposée, arguant du droit du public à être informé. Le litige est en cours.

    "Les modèles qui alimentent ChatGPT et notre API aujourd'hui n'ont pas été développés à partir de ces ensembles de données", a déclaré OpenAI dans un communiqué mardi. "Ces jeux de données, créés par d'anciens employés qui ne font plus partie d'OpenAI, ont été utilisés pour la dernière fois en 2021 et supprimés pour cause de non-utilisation en 2022."

    Nom : 1.jpg
Affichages : 10885
Taille : 31,9 Ko

    OpenAI même reconnaît qu’il est impossible de créer des outils comme ChatGPT sans contenus sous copyright

    « Nous pensons que les outils d'intelligence artificielle sont à leur summum lorsqu'ils intègrent et représentent toute la diversité et l'étendue de l'intelligence et de l'expérience humaines. Pour ce faire, les technologies d'IA de nos jours requièrent une grande quantité de données d'entraînement et de calcul, car les modèles examinent, analysent et apprennent des modèles et des concepts qui émergent de milliards de milliards de mots et d'images. Les grands modèles de langage d'OpenAI, y compris ChatGPT, sont développés à l'aide de trois sources principales de données d'entraînement : (1) informations disponibles publiquement sur Internet, (2) des informations que nous utilisons sous licence et (3) des informations fournies par nos utilisateurs ou nos formateurs humains. Étant donné que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine - y compris les articles de blog, les photographies, les messages de forum, etc. y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux - il serait impossible d’entraîner les meilleurs modèles d'IA d'aujourd'hui sans utiliser des documents protégés par le droit d'auteur. Limiter les données d'entraînement aux livres et dessins du domaine public et aux dessins créés il y a plus d'un siècle pourrait donner lieu à une expérience intéressante, mais ne permettrait pas d'obtenir des systèmes d'IA répondant aux besoins des citoyens d'aujourd'hui », répond OpenAI dans le cadre d’un questionnaire de la Chambre des Lords du Royaume-Uni.

    C’est la raison pour laquelle OpenAI s’ouvre de plus en plus à la conclusion d’accords de licence de contenu avec des éditeurs de presse

    Le Financial Times (FT) a annoncé un partenariat stratégique et un accord de licence avec OpenAI. Cet accord permettra à OpenAI d’utiliser le contenu archivé du FT pour former ses modèles d’IA, avec l’objectif d’améliorer la technologie de l’IA générative, capable de créer du texte, des images et du code qui ressemblent étroitement aux créations humaines.

    Le partenariat entre le FT et OpenAI est décrit comme une collaboration visant à enrichir ChatGPT avec du contenu attribué, à améliorer l’utilité des modèles de l’IA en intégrant le journalisme du FT, et à collaborer au développement de nouveaux produits et fonctionnalités d’IA pour les lecteurs du FT. Le FT est également devenu client de ChatGPT Enterprise plus tôt cette année, offrant ainsi à tous ses employés l’accès à la technologie pour bénéficier des gains de créativité et de productivité rendus possibles par les outils d’OpenAI.

    Selon les termes de l'accord, le FT accordera une licence d'utilisation de son matériel au créateur de ChatGPT pour l'aider à développer une technologie d'IA générative capable de créer des textes, des images et des codes impossibles à différencier des créations humaines. L'accord permet également à ChatGPT de répondre aux questions par de courts résumés d'articles du FT, avec des liens vers FT.com. Cela signifie que les 100 millions d'utilisateurs du chatbot dans le monde peuvent accéder aux articles du FT par l'intermédiaire de ChatGPT, tout en renvoyant à la source originale.

    « Grâce à ce partenariat, les utilisateurs de ChatGPT pourront voir des résumés attribués, des citations et des liens riches vers le journalisme du FT en réponse à des requêtes pertinentes. En outre, le FT est devenu un client de ChatGPT Enterprise au début de cette année, en achetant un accès pour tous les employés du FT afin de s'assurer que ses équipes sont bien familiarisées avec la technologie et peuvent bénéficier de la créativité et des gains de productivité rendus possibles par les outils d'OpenAI », indique OpenAI.

    Nom : 0.png
Affichages : 3476
Taille : 35,0 Ko

    Source : Authors Guild

    Et vous ?

    Quelles sont les implications de l’utilisation du contenu journalistique pour entraîner des modèles d’IA ?
    Comment cet accord pourrait-il changer la manière dont nous consommons les actualités à l’avenir ?
    Quels avantages un éditeur de presse peut-il tirer de ce partenariat avec OpenAI ?
    En quoi la collaboration entre les médias et l’IA peut-elle améliorer l’expérience des lecteurs ?
    Quelles mesures de sécurité doivent être mises en place pour protéger le contenu et la marque du FT ?
    Comment les organisations de presse peuvent-elles s’assurer que l’IA ne compromet pas l’intégrité du journalisme ?
    Quel rôle les lecteurs peuvent-ils jouer pour influencer l’avenir de l’IA dans le journalisme ?
    Quels défis le FT et OpenAI pourraient-ils rencontrer dans la mise en œuvre de cet accord ?
    Comment cet accord pourrait-il influencer la création de contenu par les journalistes ?
    Quel est le potentiel de l’IA pour générer des nouvelles qui sont non seulement informatives mais aussi engageantes et créatives ?

    Voir aussi :

    Le New York Times envisage d'initier une action en justice contre OpenAI pour l'obliger à effacer les données d'entraînement de ChatGPT, le média dit non à l'usage de son contenu sans son accord

    Musk s'engage à poursuivre Microsoft en justice, l'accusant de s'être « entraînée illégalement avec les données de Twitter », tandis qu'elle abandonne l'intégration de Twitter de sa plateforme pub

    Des auteurs de livres poursuivent OpenAI en justice, affirmant que la société a abusé de leurs travaux pour former ChatGPT. Selon eux, les livres sont un « ingrédient clé » du chabot IA
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  7. #7
    Chroniqueur Actualités
    Avatar de Bruno
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Mai 2019
    Messages
    2 117
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Cameroun

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Produits et services télécom et Internet

    Informations forums :
    Inscription : Mai 2019
    Messages : 2 117
    Par défaut Une fuite révèle comment OpenAI propose des partenariats avec les éditeurs
    Une fuite pourrait avoir révélé comment OpenAI propose des partenariats avec les éditeurs,
    dans le cadre d'une initiative appelée Preferred Publishers Program

    OpenAI, célèbre société d'intelligence artificielle, aurait lancé son programme intitulé Preferred Publishers Program pour établir des partenariats avec des éditeurs de presse de renom. Les détails de cette initiative ont été révélés suite à une fuite, mettant en lumière la stratégie et les incitations financières offertes aux éditeurs.

    OpenAI a encouragé les possibilités de partenariat avec les éditeurs de presse par le biais de son programme Preferred Publishers. Cette initiative a débuté en juillet 2023 par un accord de licence avec l'Associated Press. D'autres partenariats ont été conclus avec Axel Springer, le Financial Times, Prisa et Dotdash Meredith.

    Nom : oPENAIpress.jpg
Affichages : 7933
Taille : 69,0 Ko

    Le Preferred Publisher Program est réservé à des partenaires éditoriaux sélectionnés et de grande qualité. Son objectif est de faciliter la découverte et l'engagement des utilisateurs de ChatGPT avec les marques et le contenu des éditeurs. Les membres du programme bénéficient d'un placement prioritaire et d'une expression plus riche de leur marque dans les conversations de chat, et leur contenu bénéficie d'un traitement des liens plus proéminent.

    Les incitations financières pour les éditeurs participants sont divisées en deux catégories : la valeur garantie et la valeur variable. La valeur garantie est un paiement de licence qui rémunère l'éditeur pour avoir permis à OpenAI d'accéder à ses données, tandis que la valeur variable dépend du succès de l'affichage, une mesure basée sur le nombre d'utilisateurs qui s'engagent avec le contenu lié ou affiché.

    En échange de ces paiements, OpenAI obtient la possibilité de s'entraîner sur le contenu d'un éditeur et la licence d'affichage de ces informations dans les produits ChatGPT, avec attribution et liens. Elle peut également annoncer l'éditeur en tant que partenaire privilégié.

    Le programme est conçu pour améliorer l'expérience des utilisateurs d'OpenAI et orienter l'engagement vers la navigation, c'est-à-dire des requêtes qui aboutissent à des réponses avec des liens. Environ 25 % des utilisateurs de ChatGPT utilisent déjà la fonction de navigation, mais l'entreprise s'attend à ce qu'une majorité d'utilisateurs le fasse une fois que la fonction sera largement déployée.

    La relation entre les éditeurs numériques et OpenAI est complexe en raison du statut juridique incertain de la méthodologie d'extraction de données qu'OpenAI utilise pour alimenter ses modèles de langues étendues. Certains éditeurs, dont le New York Times ont poursuivi OpenAI pour avoir utilisé sans autorisation des articles protégés par le droit d'auteur. Cependant, OpenAI cherche à attirer davantage d'éditeurs dans son programme de partenariat.

    Ce programme sélectif aurait offert aux éditeurs participants un accès privilégié aux produits de l'OpenAI, leur garantissant une visibilité accrue dans les interactions avec ChatGPT, l'outil phare de l'entreprise. En échange, les éditeurs auraient pu bénéficier de paiements de licence combinant des montants garantis et variables, ces derniers étant liés à l'engagement des utilisateurs avec le contenu fourni.

    Les avantages pour les éditeurs auraient pu aller au-delà des paiements financiers, comprenant une exposition accrue à travers différents produits d'affichage de contenu. Cependant, cette initiative aurait pu soulever des questions sur la relation entre les éditeurs et OpenAI, notamment en ce qui concerne les droits de propriété intellectuelle et l'utilisation de données protégées par le droit d'auteur.

    Les enjeux des partenariats entre OpenAI et les éditeurs de presse

    Bien que certains éditeurs auraient pu déjà conclu des partenariats avec OpenAI, d'autres auraient pu rester réticents en raison de préoccupations juridiques et éthiques. Cependant, l'entreprise aurait pu espérer changer cette dynamique en attirant davantage d'éditeurs dans son programme de partenariat, comme en témoignerait son engagement public lors de conférences sur l'intelligence artificielle et les médias.

    L'initiative de partenariat entre OpenAI et des éditeurs de presse semble être une stratégie logique pour l'entreprise afin d'accéder à un contenu actualisé et de qualité pour améliorer ses modèles d'intelligence artificielle. Cependant, plusieurs aspects de cette initiative soulèvent des préoccupations.

    Tout d'abord, la révélation de cette initiative par le biais d'une fuite pourrait éroder la confiance des partenaires potentiels, en particulier des éditeurs, quant à la transparence et à la confidentialité des négociations avec OpenAI. Cela pourrait également compliquer les futurs accords, car les éditeurs pourraient être réticents à s'engager dans des partenariats perçus comme étant divulgués de manière non autorisée.

    De plus, les incitations financières proposées par OpenAI aux éditeurs semblent être un point de friction potentiel. Les montants proposés, allant de un à cinq millions de dollars par an, pourraient sembler insuffisants pour compenser adéquatement les éditeurs pour l'utilisation de leur contenu dans le développement des modèles d'IA. Cette insuffisance financière pourrait conduire à des tensions dans les négociations et à une réticence accrue de la part des éditeurs à participer à ces partenariats.


    En outre, il est essentiel de considérer les implications éthiques de l'utilisation du contenu des éditeurs dans les modèles d'IA. Il est important que les éditeurs soient correctement rémunérés et que leurs droits d'auteur soient respectés. De plus, les éditeurs devraient avoir un contrôle sur la manière dont leur contenu est utilisé et représenté dans les produits d'OpenAI.

    Bien que le programme Preferred Publishers Program d'OpenAI puisse offrir des avantages mutuels pour l'entreprise et les éditeurs de presse, il est crucial que les négociations se déroulent de manière transparente, que les éditeurs soient justement rémunérés et que les questions éthiques liées à l'utilisation du contenu soient soigneusement examinées et traitées.

    Source : Media report

    Et vous ?

    Quel est votre avis sur le sujet ?

    Comment OpenAI justifie-t-elle l'utilisation du contenu des éditeurs de presse dans le cadre de son programme de partenariat ?

    Comment les éditeurs de presse peuvent-ils s'assurer que leurs droits d'auteur et leur propriété intellectuelle sont protégés dans le cadre de ce programme de partenariat avec OpenAI ?

    Voir aussi :

    OpenAI proposerait aux éditeurs des offres aussi "dérisoires" qu'un million de dollars par an afin d'utiliser leurs articles pour entraîner ses modèles d'IA, selon un rapport

    Huit éditeurs de presse poursuivent Microsoft et OpenAI pour violation du droit d'auteur lors de l'entraînement de ses modèles d'intelligence artificielle
    Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  8. #8
    Chroniqueur Actualités
    Avatar de Bruno
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Mai 2019
    Messages
    2 117
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Cameroun

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Produits et services télécom et Internet

    Informations forums :
    Inscription : Mai 2019
    Messages : 2 117
    Par défaut Les journalistes « profondément troublés » par les accords de contenu conclus par OpenAI avec les médias
    OpenAI et les médias : des accords de contenu dans l'ombre inquiètent les journalistes qui déplorent le manque de transparence
    et craignent des impacts négatifs sur leur travail

    OpenAI a signé des accords avec The Atlantic et Vox Media pour utiliser leur contenu afin de perfectionner ses modèles de langage, ce qui a surpris et inquiété les journalistes et leurs syndicats. Ces derniers déplorent le manque de transparence de ces accords et craignent des impacts négatifs sur leur travail. Les syndicats de The Atlantic et de Vox Media ont exprimé leurs préoccupations, notamment concernant les implications éthiques et environnementales de l'utilisation de l'IA. Ils s'inquiètent également de l'impact potentiel de ces partenariats sur le trafic et les revenus des éditeurs.

    Le 29 mai, Axios a annoncé que The Atlantic et Vox Media ont conclu des accords avec OpenAI, permettant à la société d'utiliser sous licence leur contenu éditorial pour améliorer ses modèles de langage, dont ChatGPT. Ces accords renforcent OpenAI en lui fournissant des contenus pour entraîner ses algorithmes et chatbots, tout en la protégeant contre les responsabilités liées aux droits d'auteur. Les partenariats permettent à OpenAI d'utiliser les contenus archivés et actuels de The Atlantic et de Vox Media, en citant les sources et en incluant des liens vers les articles des éditeurs lorsqu'ils sont mentionnés dans les réponses générées par ChatGPT.

    Nom : AI Writer.jpg
Affichages : 6230
Taille : 56,6 Ko

    Ces accords comprennent également une collaboration sur les produits, avec The Atlantic travaillant avec OpenAI via le projet expérimental Atlantic Labs pour façonner la présentation des articles. Vox Media utilisera la technologie d'OpenAI pour optimiser la création publicitaire et les recommandations de contenu sur ses sites web. Bien que les termes financiers n'aient pas été divulgués, il est supposé que les éditeurs sont rémunérés pour leur contenu. De plus en plus de grandes entreprises d'information préfèrent conclure des accords avec OpenAI plutôt que d'engager des poursuites judiciaires, ce qui peut être plus rapide et avantageux financièrement.

    Cependant, certaines organisations, comme le New York Times, choisissent de poursuivre OpenAI pour obtenir potentiellement des dommages-intérêts plus élevés. En août 2023, le New York Times a mis à jour ses conditions d’utilisation pour interdire l’utilisation de son contenu dans l’entraînement de modèles d’IA sans son autorisation écrite. Selon la section 2.1 de ces conditions :

    Citation Envoyé par New York Times
    Le contenu des Services, y compris le Site, est destiné à un usage personnel et non commercial. Tous les documents publiés ou disponibles sur les Services (tels que les textes, photographies, images, illustrations, conceptions, clips audio et vidéo, 'look and feel', métadonnées, données ou compilations, ci-après désignés 'Contenu') sont protégés par le droit d'auteur et détenus ou contrôlés par The New York Times Company ou le fournisseur crédité du Contenu. The New York Times Company détient également les droits d'auteur sur la sélection, la coordination, la compilation et l'amélioration de ce Contenu (appelé 'Arrangement'). Vous devez respecter tous les avis, informations ou restrictions de droits d'auteur supplémentaires contenus dans tout Contenu accessible via le Service. Toute utilisation non commerciale n'inclut pas l'utilisation du Contenu sans le consentement écrit préalable de The New York Times Company, en particulier pour : (1) le développement de tout programme logiciel, y compris la formation de systèmes d'apprentissage automatique ou d'intelligence artificielle (IA) ; ou (2) la fourniture de jeux de données archivés ou mis en cache contenant du Contenu à une autre personne ou entité.
    En décembre 2023, le New York Times a intenté une action en justice contre OpenAI et Microsoft pour violation des droits d'auteur, affirmant que ces entreprises ont utilisé ses articles pour former des chatbots, mettant en péril les emplois des journalistes. La plainte, déposée devant la Cour fédérale de district de Manhattan, accuse les entreprises d'avoir illégalement fourni des « millions d'articles » à Bing Chat de Microsoft et à ChatGPT d'OpenAI pour développer leurs produits. Le Times réclame des milliards de dollars de dommages pour la copie et l’utilisation illégales de ses œuvres de grande valeur.

    OpenAI a réagi en qualifiant l'affaire de « sans fondement » et en exprimant son souhait de conclure un partenariat avec le New York Times. Dans un billet de blog, OpenAI a contesté les allégations, affirmant que le Times avait manipulé les messages-guides pour inclure des extraits régurgités d'articles. OpenAI a déclaré que ses modèles ne se comportent généralement pas de la manière décrite par le Times, suggérant que les exemples utilisés dans la plainte avaient été choisis parmi de nombreuses tentatives pour donner cette impression. OpenAI accuse également le New York Times d'avoir employé des méthodes de hacking pour fabriquer des preuves trompeuses, affirmant qu'un tiers engagé par le Times a effectué des dizaines de milliers de tentatives pour obtenir des résultats hautement anormaux à partir de ChatGPT et d'autres systèmes d'intelligence artificielle.

    Contrairement au New York Times, le Financial Times a opté pour un accord de licence de contenu avec OpenAI pour alimenter officiellement son IA générative. Le quotidien britannique a annoncé un partenariat stratégique et un accord de licence avec OpenAI, permettant à OpenAI d’utiliser le contenu archivé du Financial Times pour former ses modèles d’IA. Cet accord vise à améliorer la technologie de l’IA générative et à intégrer le journalisme du Financial Times dans ChatGPT, tout en développant de nouveaux produits et fonctionnalités pour les lecteurs du Financial Times. En outre, le Financial Times est devenu client de ChatGPT Enterprise, offrant à tous ses employés l’accès à la technologie pour bénéficier des gains de créativité et de productivité rendus possibles par les outils d’OpenAI. L’accord permet à ChatGPT de répondre aux questions par de courts résumés d’articles du Financial Times, avec des liens vers FT.com, offrant ainsi aux utilisateurs de ChatGPT un accès direct aux articles du Financial Times.

    Les consequences des partenariats Openai sur l'industrie de l'information

    Les accords signés par OpenAI avec The Atlantic et Vox Media pour utiliser leur contenu afin de perfectionner ses modèles de langage ont suscité des réactions diverses parmi les journalistes et leurs syndicats. Ces derniers déplorent le manque de transparence de ces accords et craignent des impacts négatifs sur leur travail, notamment en ce qui concerne l'intégrité éditoriale et les implications éthiques et environnementales de l'IA. De plus, ils s'inquiètent des conséquences potentielles de ces partenariats sur le trafic et les revenus des éditeurs.

    Le manque de consultation des rédacteurs, comme l'a exprimé la journaliste de Vox Kelsey Piper, souligne une fracture entre la direction et les employés sur des décisions stratégiques majeures. Elle a déclaré sur X : « Je suis très frustrée qu'ils aient annoncé cela sans consulter leurs rédacteurs, mais j'ai reçu des assurances écrites de notre rédacteur en chef qu'ils veulent plus de reportages comme ceux des deux dernières semaines et qu'ils n'interviendront jamais dans ces reportages. Si c'est faux, je démissionnerai ».

    Les accords, bien que potentiellement bénéfiques pour la technologie de l'IA, suscitent des inquiétudes concernant la pérennité des emplois journalistiques et la qualité de l'information produite. D'un côté, certains estiment que l'automatisation pourrait libérer les travailleurs des tâches répétitives et pénibles, permettant ainsi une réinvention du travail et de l'économie. D'autres, cependant, perçoivent ces évolutions comme une menace directe pour les emplois existants, en particulier dans le journalisme, où l'IA pourrait remplacer les rédacteurs pour certaines tâches sans garantir la même profondeur et nuance dans le traitement des informations.

    Les journalistes de Vox, qui avaient des attentes spécifiques concernant l'utilisation de leur travail, se sentent trahis par les changements unilatéraux imposés par la direction. Cette situation souligne l'importance de consulter et de renégocier avec les employés lorsque des modifications substantielles de la nature de leur travail sont envisagées. De plus, les inquiétudes liées à la baisse du trafic des moteurs de recherche vers les éditeurs en raison des chatbots et des produits de recherche génératifs représentent une préoccupation légitime. Cela pourrait non seulement menacer les moyens de subsistance des créateurs de contenu, mais aussi appauvrir la diversité et la richesse de l'Internet.


    Bien que les accords avec OpenAI puissent offrir des avantages technologiques et économiques, ils soulèvent des questions importantes concernant la transparence, les conditions de travail, l'éthique et l'impact sur l'industrie du journalisme. Ces préoccupations nécessitent une réflexion approfondie et une gestion prudente pour équilibrer les bénéfices de l'IA avec la protection des droits et des emplois des journalistes.

    Sources : Atlantic union, Axios

    Et vous ?

    Quels seraient les effets des partenariats entre OpenAI et les médias sur le trafic et les revenus des éditeurs, et comment ces effets peuvent-ils être gérés ?

    En quoi le manque de consultation des journalistes avant la signature de ces accords pourrait-il influencer la confiance et la motivation des employés de ces entreprises ?

    Dans quelle mesure ces accords pourraient-ils menacer la diversité et la richesse des informations disponibles sur Internet ?

    Voir aussi :

    Le New York Times poursuit OpenAI et Microsoft pour violation des droits d'auteur, afirmant que des "millions d'articles" ont été utilisés pour former des chatbots

    OpenAI affirme que le New York Times a trompé ChatGPT pour qu'il copie ses articles. Malgré un procès intenté le mois dernier, l'entreprise IA souhaite toujours travailler avec le quotidien

    Alors que le New York Times poursuit OpenAI pour violation des droits d'auteur, le Financial Times accepte de conclure un accord de licence de contenu avec OpenAI pour alimenter officiellement son IA générative
    Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  9. #9
    Chroniqueur Actualités

    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Juin 2023
    Messages
    1 654
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Bénin

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 654
    Par défaut Un organe de presse à but non lucratif américain poursuit OpenAI et Microsoft pour violation du droit d'auteur
    Le plus ancien organe de presse à but non lucratif des États-Unis poursuit OpenAI et Microsoft pour violation massive des droits d'auteur
    et lance un appel pour la protection du journalisme d'investigation

    Le Center for Investigative Reporting (CIR) a annoncé jeudi avoir intenté une action en justice contre OpenAI et Microsoft pour violation de droit d'auteur. Le procès allègue qu'OpenAI a utilisé le contenu du CIR pour former ses modèles d'IA sans le consentement explicite de l'organisation ni une compensation, violant ainsi les droits d'auteur sur le journalisme de l'organisation. La plainte accuse Microsoft, le principal investisseur d'OpenAI, d'avoir soutenu les agissements de la startup d'IA. Il s'agit de la dernière action en date d'une longue série d'actions en justice intentées par des éditeurs et des créateurs accusant les entreprises d'IA de violer leurs droits d'auteur.

    Le Center for Investigative Reporting (CIR) est un organe de presse à but non lucratif basé San Francisco qui produit les médias Mother Jones et Reveal. L'organisation à but non lucratif a déposé jeudi une plainte contre OpenAI et son partenaire Microsoft devant un tribunal fédéral de New York. L'action en justice porte sur la manière dont les résumés d'articles générés par l'IA menacent les éditeurs, ce que le CIR qualifie d'exploitation. Elle marque un nouveau front dans la bataille juridique qui oppose OpenAI et les organes de presse, qui luttent contre l'utilisation non autorisée de leurs contenus en ligne pour former l'IA.

    L'action en justice accuse OpenAI et Microsoft, qui détient près de la moitié de la startup d'IA, d'avoir violé à plusieurs reprises le Copyright Act et le Digital Millennium Copyright Act (DMCA). La plainte allègue qu'OpenAI a utilisé le contenu du CIR sans autorisation et sans offrir de compensation à cette dernière, violant ainsi les droits d'auteur sur le journalisme de l'organisation. Elle a décrit les activités d'OpenAI comme "fondées sur l'exploitation d'œuvres protégées par le droit d'auteur". « C'est extrêmement dangereux », a expliqué Monika Bauerlein, directrice générale de l'organisation à but non lucratif, à l'Associated Press (AP).


    Elle a ajouté : « notre existence repose sur le fait que les utilisateurs trouvent notre travail précieux et décident de le soutenir. Lorsque les gens ne peuvent plus développer cette relation avec notre travail, lorsqu'ils ne rencontrent plus Mother Jones ou Reveal, leur relation est alors avec l'outil d'IA. Cela réduira à néant les fondements de notre existence en tant que salle de rédaction indépendante, tout en menaçant l'avenir d'autres organismes de presse ». Mother Jones et CIR ont été fondés dans les années 1970 et ont fusionné au début de cette année. Ils sont tous deux basés à San Francisco, en Californie, tout comme OpenAI.

    L'action en justice du CIR, également connu pour son podcast Reveal et son émission de radio, souligne les dépenses liées à la production de journalisme d'investigation et prévient que la perte du contrôle du contenu protégé par le droit d'auteur entraînera la baisse des revenus et une diminution du nombre de reporters chargés de rapporter des histoires importantes dans "le paysage médiatique actuel". Dans un communiqué publié jeudi, Bauerlein a déclaré :

    Citation Envoyé par Monika Bauerlein

    OpenAI et Microsoft ont commencé à aspirer nos histoires pour rendre leur produit plus puissant, mais ils n'ont jamais demandé la permission ou offert une compensation, contrairement à d'autres organisations qui utilisent notre matériel sous licence. Ce comportement de resquilleur n'est pas seulement injuste, c'est une violation du droit d'auteur. Le travail des journalistes, au CIR et partout, est précieux, et OpenAI et Microsoft le savent.

    Les sociétés à but lucratif comme OpenAI et Microsoft ne peuvent pas simplement traiter le travail des éditeurs à but non lucratif et indépendants comme de la matière première gratuite pour leurs produits. Si cette pratique n'est pas stoppée, l'accès du public à des informations véridiques sera limité à des résumés générés par l'IA d'un paysage d'informations en voie de disparition.
    Ce procès est le dernier en date intenté contre OpenAI et Microsoft devant le tribunal fédéral de Manhattan, où les deux entreprises sont déjà confrontées à une série d'autres procès en matière de droits d'auteur intentés par le New York Times, d'autres médias et auteurs à succès tels que John Grisham, Jodi Picoult et George R.R. Martin. Elles sont également confrontées à une autre affaire devant le tribunal fédéral de San Francisco, intentée par des auteurs, dont la comédienne Sarah Silverman. Selon les experts juridiques, les organismes de presse se trouvent à un point d'inflexion avec l'avènement de l'IA générative.

    L'été dernier, plus de 4 000 écrivains ont signé une lettre adressée aux PDG d'OpenAI, Sam Altman, et d'autres entreprises technologiques, les accusant de violation de droits dans le processus de construction des chatbots. Bauerlein appelle à agir rapidement contre ce comportement. « Il ne s'agit pas d'une ressource gratuite que ces entreprises d'IA peuvent ingérer et sur laquelle elles peuvent gagner de l'argent. Elles paient des bureaux, de l'électricité, des salaires pour leurs employés. Pourquoi le contenu qu'ils ingèrent serait-il la seule chose qu'ils ne paient pas ? », a déclaré Bauerlein à propos des médias d'information.

    Alors que le CIR se joint à des éditeurs comme le New York Times, le New York Daily News, The Intercept, AlterNet et le Chicago Tribune pour poursuivre OpenAI, d'autres éditeurs ont choisi de conclure des accords de licence avec le laboratoire d'IA. Ces accords permettront à OpenAI de former ses modèles sur des archives et des contenus continus publiés par ces éditeurs et de citer des informations provenant de ces derniers dans les réponses proposées par ChatGPT. À travers ses accords de licence, ces organismes de presse vont être rémunérés par OpenAI pour l'accès à l'accès à leurs contenus pour une durée déterminée.

    Le dernier en date est Time, qui a annoncé jeudi qu'OpenAI aurait accès à ses vastes archives des 101 dernières années. Le mois dernier, OpenAI a signé un accord pluriannuel de 250 millions de dollars avec News Corp, le propriétaire du Wall Street Journal, pour avoir l'autorisation de former ses modèles sur plus d'une douzaine de marques appartenant à l'éditeur. Le Financial Times, Axel Springer (propriétaire de Politico et Business Insider), The Associated Press et Dotdash Meredith ont également signé des accords de licence avec OpenAI. Petit à petit, OpenAI réussit à se mettre dans la poche les plus grands éditeurs de presse.

    OpenAI et d'autres grands développeurs d'IA ne divulguent généralement pas leurs sources de données, mais ont fait valoir que le fait de prendre des textes, des images et d'autres médias en ligne accessibles au public pour former leurs logiciels d'IA est protégé par la doctrine de l'usage loyal de la loi américaine sur le droit d'auteur. L'action en justice du CIR indique qu'un ensemble de données qu'OpenAI a reconnu avoir utilisé pour construire une version antérieure de sa technologie de chatbot contenait des milliers de liens vers le site Web de Mother Jones, un magazine imprimé vieux de 48 ans qui publie en ligne depuis 1993.

    Le mois dernier, huit éditeurs de presse de Californie, du Colorado, de l'Illinois, de Floride, du Minnesota et de New York ont poursuivi Microsoft et OpenAI pour violation du droit d'auteur lors de la formation de leurs modèles. Les plaignants exploitent le New York Daily News, le Chicago Tribune, l'Orlando Sentinel, le Sun Sentinel en Floride, le Mercury News en Californie, le Denver Post, l'Orange County Register en Californie et le Pioneer Press dans le Minnesota.

    Tous ces journaux sont la propriété du fonds spéculatif Alden Global Capital. L'action en justice allègue qu'OpenAI avait utilisé des ensembles de données contenant du texte provenant de leurs journaux pour former ses modèles de langage GPT-2 et GPT-3. OpenAI et Microsoft n'ont pas commenté l'action en justice du CIR.

    Source : document de la plainte (PDF)

    Et vous ?

    Quel est votre avis sur le sujet ?
    Que pensez-vous des allégations du CIR contre OpenAI et Microsoft ?
    Est-il possible que le CIR obtienne gain de cause dans cette affaire ? Pourquoi ?
    Le paysage d'informations tel qu'on le connaît est-il en voie de disparition ? Quels sont les risques ?

    Voir aussi

    Huit éditeurs de presse poursuivent Microsoft et OpenAI pour violation du droit d'auteur lors de l'entraînement de ses modèles d'intelligence artificielle

    Le New York Times poursuit OpenAI et Microsoft pour violation des droits d'auteur, affirmant que des "millions d'articles" ont été utilisés pour former des chatbots

    Microsoft et OpenAI poursuivis en justice par des auteurs pour avoir violé leurs droits d'auteur, en incluant plusieurs de leurs livres dans les données utilisées pour entraîner des programmes d'IA

  10. #10
    Chroniqueur Actualités
    Avatar de Patrick Ruiz
    Homme Profil pro
    Redacteur web
    Inscrit en
    Février 2017
    Messages
    2 336
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Cameroun

    Informations professionnelles :
    Activité : Redacteur web
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Février 2017
    Messages : 2 336
    Par défaut Le patron de l'IA chez Microsoft pense qu'il est tout à fait acceptable de voler du contenu sue le web ouvert
    Le patron de l'IA chez Microsoft pense qu'il est tout à fait acceptable de voler du contenu s'il se trouve sur le web ouvert
    Et justifie l’entraînement des modèles d’IA à partir de données sous copyright

    Mustafa Suleyman fait montre d’une curieuse compréhension du droit d'auteur sur le web et vient d’en faire la démonstration. Ce dernier est d’avis que dès que l'on publie quelque chose sur le web, cela devient un "freeware" que tout le monde peut copier et utiliser librement. Ce positionnement est néanmoins en contradiction avec la suppression par OpenAI de jeux de données utilisés pour entraîner GPT-3. La décision laissait ainsi entendre que l’entraînement des modèles d’IA tel qu’effectué en l’état se fait en violation des lois sur le copyright contrairement à ce que semble laisser entendre le patron de l’intelligence artificielle chez Microsoft.

    [ Des documents récemment dévoilés dans le cadre d’un recours collectif contre OpenAI révèlent que la startup a supprimé deux énormes ensembles de données, appelés "books1" et "books2", qui avaient été utilisés pour entraîner son modèle d'intelligence artificielle GPT-3. Les avocats de la firme Authors Guild ont déclaré dans les documents déposés au tribunal que les ensembles de données contenaient probablement plus de 100 000 livres publiés et qu'ils étaient au cœur des allégations selon lesquelles OpenAI avait utilisé des documents protégés par le droit d'auteur pour entraîner des modèles d'intelligence artificielle.

    Pendant des mois, la firme Authors Guild a cherché à obtenir des informations sur ces données auprès d'OpenAI. L'entreprise a d'abord résisté, invoquant des problèmes de confidentialité, avant de révéler qu'elle avait supprimé toutes les copies des données, selon les documents juridiques examinés par certains médias

    Dans un livre blanc publié en 2020, OpenAI a décrit les ensembles de données books1 et books2 comme des "corpus de livres basés sur Internet" et a indiqué qu'ils représentaient 16 % des données d'entraînement utilisées pour créer le GPT-3. Le livre blanc indique également que "books1" et "books2" contiennent ensemble 67 milliards de tokens de données, soit à peu près l'équivalent de 50 milliards de mots. À titre de comparaison, la Bible du roi Jacques contient 783 137 mots.

    La lettre non scellée des avocats d'OpenAI, qui porte la mention « hautement confidentiel - réservé aux avocats », indique que l'utilisation de books1 et books2 pour l'entraînement des modèles a cessé à la fin de 2021 et que les ensembles de données ont été supprimés à la mi-2022 en raison de leur non-utilisation. La lettre poursuit en indiquant qu'aucune des autres données utilisées pour entraîner le GPT-3 n'a été supprimée et offre aux avocats de la Guilde des auteurs l'accès à ces autres ensembles de données.

    Les documents non scellés révèlent également que les deux chercheurs qui ont créé books1 et books2 ne sont plus employés par OpenAI. OpenAI a d'abord refusé de révéler l'identité des deux employés.

    La startup a depuis identifié les employés auprès des avocats de la firme Authors Guild, mais n'a pas révélé publiquement leurs noms. OpenAI a demandé au tribunal de garder sous scellés les noms des deux employés, ainsi que les informations sur les ensembles de données. Authors Guild s'y est opposée, arguant du droit du public à être informé. Le litige est en cours.

    "Les modèles qui alimentent ChatGPT et notre API aujourd'hui n'ont pas été développés à partir de ces ensembles de données", a déclaré OpenAI dans un communiqué mardi. "Ces jeux de données, créés par d'anciens employés qui ne font plus partie d'OpenAI, ont été utilisés pour la dernière fois en 2021 et supprimés pour cause de non-utilisation en 2022."

    Nom : 1.png
Affichages : 6245
Taille : 19,0 Ko

    C’est la raison pour laquelle les entreprises de la filière intelligence artificielle s’ouvrent de plus en plus à la conclusion d’accords de licence de contenu avec des éditeurs de presse

    Le Financial Times (FT) a annoncé un partenariat stratégique et un accord de licence avec OpenAI. Cet accord permettra à OpenAI d’utiliser le contenu archivé du FT pour former ses modèles d’IA, avec l’objectif d’améliorer la technologie de l’IA générative, capable de créer du texte, des images et du code qui ressemblent étroitement aux créations humaines.

    Le partenariat entre le FT et OpenAI est décrit comme une collaboration visant à enrichir ChatGPT avec du contenu attribué, à améliorer l’utilité des modèles de l’IA en intégrant le journalisme du FT, et à collaborer au développement de nouveaux produits et fonctionnalités d’IA pour les lecteurs du FT. Le FT est également devenu client de ChatGPT Enterprise plus tôt cette année, offrant ainsi à tous ses employés l’accès à la technologie pour bénéficier des gains de créativité et de productivité rendus possibles par les outils d’OpenAI.

    Selon les termes de l'accord, le FT accordera une licence d'utilisation de son matériel au créateur de ChatGPT pour l'aider à développer une technologie d'IA générative capable de créer des textes, des images et des codes impossibles à différencier des créations humaines. L'accord permet également à ChatGPT de répondre aux questions par de courts résumés d'articles du FT, avec des liens vers FT.com. Cela signifie que les 100 millions d'utilisateurs du chatbot dans le monde peuvent accéder aux articles du FT par l'intermédiaire de ChatGPT, tout en renvoyant à la source originale.

    « Grâce à ce partenariat, les utilisateurs de ChatGPT pourront voir des résumés attribués, des citations et des liens riches vers le journalisme du FT en réponse à des requêtes pertinentes. En outre, le FT est devenu un client de ChatGPT Enterprise au début de cette année, en achetant un accès pour tous les employés du FT afin de s'assurer que ses équipes sont bien familiarisées avec la technologie et peuvent bénéficier de la créativité et des gains de productivité rendus possibles par les outils d'OpenAI », indique OpenAI.

    Source : Mustafa Suleyman

    Et vous ?

    Que pensez-vous du positionnement de Mustafa Suleyman selon lequel dès que l'on publie quelque chose sur le web, cela devient un "freeware" que tout le monde peut copier et utiliser librement ?

    Voir aussi :

    Le New York Times envisage d'initier une action en justice contre OpenAI pour l'obliger à effacer les données d'entraînement de ChatGPT, le média dit non à l'usage de son contenu sans son accord

    Musk s'engage à poursuivre Microsoft en justice, l'accusant de s'être « entraînée illégalement avec les données de Twitter », tandis qu'elle abandonne l'intégration de Twitter de sa plateforme pub

    Des auteurs de livres poursuivent OpenAI en justice, affirmant que la société a abusé de leurs travaux pour former ChatGPT. Selon eux, les livres sont un « ingrédient clé » du chabot IA
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  11. #11
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 757
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 757
    Par défaut GitHub Copilot : un juge rejette la demande de protection des droits d'auteur en vertu de la DMCA
    GitHub Copilot : un juge rejette la demande de protection des droits d'auteur en vertu de la DMCA,
    dans le cadre d'un procès contre l'outil IA de Microsoft

    En novembre 2022, des développeurs ont intenté une action en justice contre GitHub, Microsoft et OpenAI, alléguant que l’assistant de codage Copilot copiait illégalement leur code. Cependant, le juge a largement rejeté ces allégations, ne laissant que deux accusations en suspens. Le litige portait sur le fait que Copilot suggérait des extraits de code provenant de projets open source hébergés sur GitHub, sans respecter les licences d’origine ni donner le crédit approprié aux créateurs.

    GitHub Copilot, qu'est-ce que c'est ?

    Copilot a été lancé en fin juin 2021 dans le cadre d'une Preview technique sur invitation uniquement, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.

    GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.

    Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.

    Nom : copilot.png
Affichages : 7009
Taille : 84,9 Ko

    Quel est le problème avec Copilot ?

    Peu après le lancement de la Preview de Copilot en 2021, certains développeurs ont commencé à s'alarmer de l'utilisation d'un code public pour entraîner l'IA de l'outil. L'une des préoccupations est que si Copilot reproduit des parties suffisamment importantes du code existant, il puisse violer les droits d'auteur ou blanchir le code open source dans des utilisations commerciales sans licence appropriée. L'outil peut également reproduire des informations personnelles que les développeurs ont publiées, et dans un cas, il a reproduit le code largement cité du jeu PC Quake III Arena de 1999, y compris le commentaire du développeur John Carmack.

    Nom : brian.png
Affichages : 1911
Taille : 32,5 Ko

    L’utilisateur Hogan a aussi ajouté dans son fil de discussion : « Ce qui serait vraiment drôle, c'est que les gens qui maintiennent des dépôts populaires commençaient à mettre du mauvais code exprès ».

    GitHub affirme que les dérapages de Copilot sont rares. Mais un autre utilisateur de Twitter, répondant au post de Ronacher, a écrit : « Et ici nous avons la preuve directe que GitHub reproduit directement un morceau de code sous GPL, ce qui prouve que c'est un outil vraiment dangereux à utiliser dans des environnements commerciaux ». Dans une autre réponse, on peut lire : « Lol, c'est du blanchiment de code… »

    Selon le développeur et avocat Matthieu Butterick, Copilot soulève des questions juridiques relatives à la fois à la formation du système et à l'utilisation du système.

    Après avoir mené une enquête avec ses confrères, il a décidé en novembre 2022 de porter plainte, décrivant la solution de Microsoft comme un produit d'IA qui « s'appuie sur un piratage de logiciels open source sans précédent » :

    Aujourd'hui, nous avons déposé un recours collectif devant le tribunal fédéral américain de San Francisco, en Californie, au nom d'un groupe proposé de millions d'utilisateurs de GitHub. Nous contestons la légalité de GitHub Copilot (et d'un produit connexe, OpenAI Codex, qui alimente Copilot). La poursuite a été déposée contre un ensemble de défendeurs qui comprend GitHub, Microsoft (propriétaire de GitHub) et OpenAI.

    En formant leurs systèmes d'IA sur des référentiels publics GitHub (bien que basés sur leurs déclarations publiques, peut-être bien plus), nous soutenons que les accusés ont violé les droits légaux d'un grand nombre de créateurs qui ont publié du code ou d'autres travaux sous certaines licences open source sur GitHub. Quelles licences ? Un ensemble de 11 licences open source populaires qui nécessitent toutes l'attribution du nom de l'auteur et des droits d'auteur, y compris la licence MIT, la GPL et la licence Apache. (Celles-ci sont énumérées dans l'annexe à la plainte.)

    En plus d'avoir enfreint les exigences d'attribution de ces licences, nous soutenons que les défendeurs ont enfreint :
    • les conditions d'utilisation et les politiques de confidentialité de GitHub ;
    • le DMCA § 1202, qui interdit la suppression des informations de gestion des droits d'auteur ;
    • la loi californienne sur la protection de la vie privée des consommateurs ;
    • et d'autres lois donnant lieu à des réclamations légales connexes.
    Un avis qui n'est finalement pas partagé par la justice

    Microsoft possède GitHub et utilise la technologie générative d'apprentissage automatique d'OpenAI pour alimenter Copilot, qui complète automatiquement le code source pour les ingénieurs à mesure qu'ils saisissent des commentaires, des définitions de fonctions et d'autres invites.

    Les plaignants sont donc mécontents que, selon eux, des parties de leur code source libre protégé par le droit d'auteur puissent être fournies - copiées, plutôt - par Copilot à d'autres développeurs pour qu'ils les utilisent, sans qu'ils soient dûment crédités et sans que les autres exigences des licences d'origine soient respectées.

    L'affaire a débuté avec un total de 22 plaintes, qui ont été réduites au fur et à mesure que les sociétés défenderesses demandaient à ce que les accusations soient rejetées par le tribunal, demandes que le juge Jon Tigar a pour la plupart acceptées.

    Dans une ordonnance rendue publique le vendredi 5 juillet, le juge Tigar a statué sur une nouvelle série de plaintes des plaignants et, dans l'ensemble, il a donné gain de cause à GitHub, à Microsoft et à OpenAI. Trois plaintes ont été rejetées et une seule a été maintenue. D'après le décompte des avocats de Microsoft et de GitHub, il ne reste plus que deux allégations au total.

    Les plaintes les plus récemment rejetées étaient relativement importantes, l'une d'entre elles portant sur une infraction au Digital Millennium Copyright Act (DMCA), section 1202(b), qui stipule essentiellement que vous ne devez pas supprimer sans permission des informations cruciales relatives à la « gestion des droits d'auteur », telles que, dans ce contexte, l'identité de l'auteur du code et les conditions d'utilisation, comme les licences tendent à l'exiger. Dans le cadre de l'action collective, il a été avancé que Copilot supprimait ces informations lorsqu'il proposait des extraits de code des projets des utilisateurs, ce qui, selon eux, constituait une violation de l'article 1202(b).

    Le juge n'a toutefois pas été d'accord, estimant que le code proposé par Copilot n'était pas suffisamment identique au travail des développeurs, protégé par le droit d'auteur, et que l'article 1202(b) ne s'appliquait donc pas. En effet, l'année dernière, GitHub aurait réglé son assistant de programmation pour qu'il génère de légères variations du code de formation ingéré, afin d'éviter que son résultat ne soit accusé d'être une copie exacte d'un logiciel sous licence.

    Les plaignants ne seront pas en mesure de présenter une nouvelle plainte au titre de l'article 1202(b) du DMCA, le juge Tigar ayant rejeté l'allégation avec préjudice.

    Nom : github.png
Affichages : 1906
Taille : 57,7 Ko

    Les développeurs ont insisté à plusieurs reprises sur le fait que Copilot pouvait générer, et générerait, du code identique à ce qu'ils avaient eux-mêmes écrit, ce qui constitue un pilier essentiel de leur action en justice puisque leur plainte en vertu de la loi sur le droit d'auteur (DMCA) est subordonnée à une exigence d'identité. Toutefois, le juge Tigar a estimé que les plaignants n'avaient pas démontré l'existence d'un tel cas, ce qui a entraîné le rejet de la plainte avec la possibilité de la modifier.

    La plainte modifiée soutenait que la copie illégale de code était inévitable si les utilisateurs désactivaient l'interrupteur de sécurité anti-duplication de Copilot, et citait également une étude sur le code généré par l'IA pour tenter d'étayer leur position selon laquelle Copilot plagiait les sources, mais une fois de plus, le juge n'a pas été convaincu que le système de Microsoft volait le travail des gens de manière significative.

    Plus précisément, le juge a cité l'observation de l'étude selon laquelle Copilot « émet rarement du code mémorisé dans des situations bénignes, et la plupart de la mémorisation ne se produit que lorsque le modèle a été invité avec de longs extraits de code qui sont très similaires aux données d'entraînement ».

    « En conséquence, l'appui des plaignants sur une étude qui, tout au plus, affirme que Copilot peut théoriquement être incité par un utilisateur à générer une correspondance avec le code de quelqu'un d'autre n'est pas convaincant », conclut-il.

    Implications

    Cette décision a des implications majeures :
    • Légitimité de l’IA dans le développement : La décision renforce l’utilisation de l’IA pour accélérer le développement logiciel. Cependant, elle soulève également des questions sur la responsabilité et la transparence.
    • Licences open source : La communauté des développeurs doit réfléchir à la manière dont les licences open source sont respectées par les outils d’IA comme Copilot. Devrions-nous exiger un crédit explicite pour le code généré ?
    • Équilibre entre innovation et droits d’auteur : Comment pouvons-nous encourager l’innovation tout en protégeant les droits d’auteur des créateurs ? Cette affaire met en lumière ce dilemme.

    En fin de compte, la décision du juge a des répercussions sur l’avenir de l’IA dans le développement logiciel. La communauté des développeurs doit continuer à débattre et à trouver des solutions équilibrées pour le bien de tous.

    Sources : décision de justice (au format PDF), Quantifying Memorization Across Neural Language Models

    Et vous ?

    Quelle est votre opinion sur l’utilisation de l’IA pour générer du code ? Certains soutiennent que Copilot accélère le développement, tandis que d’autres craignent qu’il ne viole les droits d’auteur.
    Comment devrions-nous équilibrer l’innovation technologique et le respect des droits d’auteur ? Copilot est-il un outil révolutionnaire ou une menace pour les créateurs ?
    Quelles mesures devraient être prises pour garantir que Copilot respecte les licences open source ? Devrions-nous exiger un crédit explicite pour les extraits de code générés par l’IA ?
    Pensez-vous que la décision du juge était juste ? Pourquoi ou pourquoi pas ?
    Images attachées Images attachées
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  12. #12
    Chroniqueur Actualités
    Avatar de Anthony
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Novembre 2022
    Messages
    1 959
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Rédacteur technique

    Informations forums :
    Inscription : Novembre 2022
    Messages : 1 959
    Par défaut Un juge rejette la majorité des plaintes des développeurs contre GitHub Copilot, Microsoft et OpenAI
    Un juge a rejeté la majorité des plaintes dans un procès sur les droits d'auteur intenté par des développeurs contre l'assistant de codage GitHub Copilot, Microsoft et OpenAI, mais en laisse deux en suspens

    Un juge a rejeté la majorité des plaintes dans le cadre d'un procès sur les droits d'auteur intenté par des développeurs contre GitHub, Microsoft et OpenAI.

    GitHub est une plateforme de développement qui permet aux développeurs de créer, stocker, gérer et partager leur code. Il utilise le logiciel Git, fournissant le contrôle de version distribué de Git plus le contrôle d'accès, le suivi des bogues, les demandes de fonctionnalités logicielles, la gestion des tâches, l'intégration continue et les wikis pour chaque projet. Basée en Californie, elle est une filiale de Microsoft depuis 2018.

    Microsoft Corporation est une multinationale américaine et une entreprise technologique dont le siège se trouve à Redmond, dans l'État de Washington. Ses produits logiciels les plus connus sont la gamme de systèmes d'exploitation Windows, la suite d'applications de productivité Microsoft 365, la plateforme de cloud computing Azure et le navigateur web Edge. Ses produits matériels phares sont les consoles de jeux vidéo Xbox et la gamme d'ordinateurs personnels à écran tactile Microsoft Surface. Microsoft a été classée n° 14 dans le classement Fortune 500 2022 des plus grandes entreprises américaines en fonction de leur chiffre d'affaires total, et elle a été le plus grand fabricant de logiciels au monde en termes de chiffre d'affaires en 2022, selon Forbes Global 2000. Elle est considérée comme l'une des cinq grandes entreprises américaines de technologies de l'information, aux côtés d'Alphabet (société mère de Google), d'Amazon, d'Apple et de Meta (société mère de Facebook).

    OpenAI est une organisation américaine de recherche en intelligence artificielle (IA) fondée en décembre 2015 et dont le siège se trouve à San Francisco. Sa mission est de développer une intelligence artificielle générale "sûre et bénéfique", qu'elle définit comme "des systèmes hautement autonomes qui surpassent les humains dans la plupart des tâches économiquement utiles". En tant qu'organisation leader dans le boom actuel de l'IA, OpenAI est connue pour la famille GPT de grands modèles de langage, la série DALL-E de modèles texte-image, et un modèle texte-vidéo nommé Sora. Son lancement de ChatGPT en novembre 2022 est considéré comme le catalyseur d'un intérêt généralisé pour l'IA générative.


    Le procès a été intenté par un groupe de développeurs en 2022 et comportait à l'origine 22 plaintes contre les entreprises, alléguant des violations de droits d'auteur liées à l'assistant de codage GitHub Copilot, doté d'une intelligence artificielle.

    La décision du juge Jon Tigar, rendue publique la semaine dernière, ne laisse subsister que deux plaintes : l'une accusant les sociétés de violation de la licence open-source et l'autre de rupture de contrat. Cette décision marque un net recul pour les développeurs qui affirmaient que GitHub Copilot, qui utilise la technologie d'OpenAI et appartient à Microsoft, s'était illégalement entraîné sur leur travail.

    Le rejet du tribunal s'est principalement concentré sur l'accusation selon laquelle GitHub Copilot viole le Digital Millennium Copyright Act (DMCA) en suggérant du code sans attribution appropriée. Une version modifiée de la plainte mettait en cause le filtre de détection de duplication de GitHub, qui permet aux utilisateurs de "détecter et supprimer" les suggestions de Copilot correspondant à du code public sur GitHub.

    Les développeurs ont fait valoir que la désactivation de ce filtre permettrait de "recevoir du code identique" et ont cité une étude montrant comment les modèles d'IA peuvent "mémoriser" et reproduire des parties de leurs données d'apprentissage, y compris potentiellement du code protégé par le droit d'auteur.

    Le juge Tigar a toutefois estimé que ces arguments n'étaient pas convaincants. Il a estimé que le code prétendument copié par GitHub n'était pas suffisamment similaire au travail original des développeurs. Le juge a également noté que l'étude citée mentionne elle-même que GitHub Copilot "émet rarement du code mémorisé dans des situations bénignes".

    En conséquence, le juge Tigar a rejeté cette allégation avec préjudice, ce qui signifie que les développeurs ne peuvent pas déposer une nouvelle plainte. En outre, le tribunal a rejeté les demandes de dommages-intérêts punitifs et de réparation pécuniaire sous la forme d'un enrichissement sans cause.

    Malgré cette décision importante, la bataille juridique n'est pas terminée. Les plaintes restantes concernant la rupture de contrat et les violations de la licence open-source sont susceptibles d'être poursuivies en justice.

    Cette affaire met en lumière les défis et les complexités juridiques qui entourent les assistants de codage alimentés par l'IA et leur utilisation de bases de code existantes pour la formation.

    Source : Ordonnance du juge Jon Tigar

    Et vous ?

    Quel est votre avis sur le sujet ?
    Trouvez-vous la décision du juge Tigar crédible ou pertinente ?

    Voir aussi :

    GitHub Copilot, l'assistant de programmation basé sur l'IA, sous le feu des critiques, un développeur affirme qu'il émet de nombreux bouts de son code protégé par le droit d'auteur

    Un développeur porte plainte contre GitHub Copilot, le décrivant comme un produit d'IA qui «s'appuie sur un piratage de logiciels open source sans précédent». Il vise le statut de recours collectif
    Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  13. #13
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    2 617
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 2 617
    Par défaut Les moteurs de recherche alimentés par l'IA violent les droits d'auteur, estiment les éditeurs japonais
    Les moteurs de recherche alimentés par l'IA, comme Google et Microsoft, violent les droits d'auteur en utilisant des articles de presse sans autorisation, selon des éditeurs japonnais.

    Les moteurs de recherche alimentés par l'IA, comme Google et Microsoft, violent les droits d'auteur en utilisant des articles de presse sans autorisation. Le gouvernement devrait donc réviser les lois sur la propriété intellectuelle, estiment les éditeurs japonais.

    Vers la fin de l'année 2023, le New York Times a intenté une action en justice contre OpenAI et Microsoft pour violation des droits d'auteur. Il affirme que les entreprises ont illégalement fourni des "millions d'articles" à Bing Chat de Microsoft et à ChatGPT d'OpenAI pour développer leurs produits. Le New York Times affirmait également que l'index de recherche Bing de Microsoft copie son contenu en ligne et le donne aux utilisateurs sans l'autorisation de la publication, ce qui le prive de revenus d'abonnement, de licence, de publicité et d'affiliation. Le procès indique que les entreprises devraient être tenues responsables de "milliards de dollars de dommages".

    Récemment, les médias japonais ont affirmé que la recherche par l'IA porte atteinte aux droits d'auteur et appellent à une réforme juridique. Les moteurs de recherche alimentés par l'intelligence artificielle fournis par les géants américains de la technologie tels que Google LLC et Microsoft Corp. enfreignent probablement les droits d'auteur, a déclaré une association gérée par les médias japonais.

    Dans un communiqué, l'Association japonaise des éditeurs et rédacteurs de journaux a demandé aux entreprises qui exploitent de tels services d'obtenir le consentement des organismes de presse, car les réponses des moteurs de recherche ressemblent souvent à des articles dont la source n'a pas été autorisée.

    Nom : 0.jpg
Affichages : 6012
Taille : 65,8 Ko

    L'association a analysé le fait que les moteurs de recherche IA renvoient parfois des réponses inexactes car ils réutilisent ou modifient des articles de manière inappropriée et a souligné que les entreprises devraient s'assurer de l'exactitude et de la fiabilité de leurs services avant de les lancer. L'association a également exhorté le gouvernement japonais à revoir et à réviser de toute urgence les lois relatives à la propriété intellectuelle, telles que la loi sur les droits d'auteur.

    Les moteurs de recherche IA, qui combinent les capacités des moteurs de recherche traditionnels avec l'IA générative, extraient des informations de plusieurs sites pour afficher une réponse résumée à la requête de l'utilisateur. Google a lancé ce service l'année dernière. L'association a fait valoir dans sa déclaration que si les moteurs de recherche traditionnels dirigent les utilisateurs vers divers documents protégés par le droit d'auteur disponibles en ligne, les moteurs de recherche à intelligence artificielle divulguent le contenu, ce qui en fait un type de service complètement différent.

    Tout en soulignant que, dans de nombreux cas, le contenu essentiel de l'article référencé est repris dans son intégralité et constitue donc une violation du droit d'auteur, l'association a également mis l'accent sur la question des « recherches sans clic », dans lesquelles les utilisateurs ne visitent pas le site source. Elle a averti que le manque de trafic pourrait conduire à la diminution des activités de reportage des organismes de presse, ce qui aurait alors un impact négatif sur la démocratie et la culture.

    La déclaration s'inquiète également des inexactitudes potentielles dans les réponses générées par les moteurs de recherche IA, qui pourraient donner l'impression que les articles sources eux-mêmes sont erronés et nuire à la crédibilité des organismes de presse. L'association a ajouté que la fourniture de services de moteurs de recherche d'IA sans avoir obtenu l'autorisation d'utiliser les articles sources pourrait constituer une violation de la loi antimonopole.

    Dans un rapport publié à l'automne dernier, la Japan Fair Trade Commission a laissé entendre que les entreprises exploitant des moteurs de recherche, qui servent de passerelles vers les sites d'information, pourraient occuper une position dominante par rapport aux entreprises de médias, et a averti que si les frais d'utilisation des articles étaient très faibles, cela poserait un problème au regard de la loi.

    Un porte-parole de Google a déclaré que ses services de recherche en intelligence artificielle respectaient les lois, notamment la loi japonaise sur le droit d'auteur. « Les services de Google permettent d'accéder à des informations de haute qualité et nous avons établi des relations de coopération à long terme avec les organismes de presse japonais », a déclaré le porte-parole.

    Source : Association japonaise des éditeurs et rédacteurs de journaux

    Et vous ?

    Pensez-vous que cette plainte est crédible ou pertinente ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    Le New York Times poursuit OpenAI et Microsoft pour violation des droits d'auteur, affirmant que des "millions d'articles" ont été utilisés pour former des chatbots

    Les moteurs de recherche devraient-ils rémunérer les éditeurs de presse pour afficher leurs articles ? Un projet adopté par les ambassadeurs de l'UE

    Huit éditeurs de presse poursuivent Microsoft et OpenAI pour violation du droit d'auteur lors de l'entraînement de ses modèles d'intelligence artificielle
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  14. #14
    Chroniqueur Actualités
    Avatar de Anthony
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Novembre 2022
    Messages
    1 959
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Rédacteur technique

    Informations forums :
    Inscription : Novembre 2022
    Messages : 1 959
    Par défaut Meta fait l'objet d'un nouveau recours collectif pour avoir volé des "centaines de milliers" de livres piratés
    Meta fait l'objet d'un nouveau recours collectif en matière de droits d'auteur pour avoir prétendument volé des "centaines de milliers" de livres piratés sous copyright, afin d'entraîner ses modèles d'IA Llama

    La société mère de Facebook, Meta Platforms Inc., est la dernière cible d'un litige visant les entreprises du secteur des grandes technologies qui utiliseraient des livres protégés par des droits d'auteur pour entraîner leurs modèles d'intelligence artificielle (IA) sans le consentement des auteurs. En effet, Meta fait actuellement l'objet d'une action collective devant le tribunal fédéral de Californie, l'accusant d'avoir volé des centaines de milliers de livres protégés par des droits d'auteur pour entraîner sa famille de grands modèles de langage (LLM) Llama. Selon la plainte en recours collectif, la société aurait téléchargé et copié près de 200 000 ouvrages à partir d'une collection de livres piratés.

    En septembre 2024, Meta a annoncé Llama 3.2, la dernière mise à jour de sa famille de LLM Llama visant à révolutionner l'IA et la vision grâce à des modèles ouverts et personnalisables. Les modèles légers 1B et 3B de Llama 3.2 peuvent être exécutés localement sur les appareils, préservant ainsi la confidentialité en évitant la transmission des données vers le cloud. Les modèles de vision 11B et 90B de Llama 3.2 remplacent quant à elles aisément les modèles textuels de taille équivalente et surpassent les modèles fermés dans les tâches de compréhension d'images. Cette mise à jour apporte également le framework Llama Stack qui simplifie le travail des développeurs dans divers environnements, avec des distributions pour single-node, on-prem, cloud et on-device.

    La récente action en justice pour violation du droit d'auteur n'est pas une première pour Meta. En 2023, l'entreprise avait déjà été poursuivie par un groupe d'auteurs pour des motifs similaires. La plainte déposée par la comédienne Sarah Silverman, le lauréat du prix Pulitzer Michael Chabon et d'autres auteurs de renom, consolide ainsi deux actions en justice intentées contre le propriétaire de Facebook et d'Instagram, qui allèguent que Meta a utilisé illégalement des livres protégés par le droit d'auteur pour l'entraînement de son IA, et ce malgré les avertissements de ses propres avocats. En effet, les avocats de Meta Platforms avaient prévenu l'entreprise des dangers juridiques liés à l'utilisation de milliers de livres piratés pour entraîner les modèles d'IA, mais Meta l'a quand même fait, précisait un dépôt dans le procès pour violation du droit d'auteur initialement intenté vers l'été 2023.


    Nouveau rebondissement dans cette affaire, ce mardi 1er octobre 2024, Lieff Cabraser Heimann & Bernstein et Cowan, DeBaets, Abrahams & Sheppard ont déposé une action collective au nom du plaignant principal Christopher Farnsworth, auteur de la série de fiction « Nathaniel Cade », contre Meta, affirmant que cette société a volé des « centaines de milliers » de livres protégés par le droit d'auteur à partir d'une collection en ligne piratée pour construire « Llama », son grand ensemble de modèles de langage. La plainte, déposée auprès du tribunal de district des États-Unis pour le district nord de la Californie à San Jose, allègue une violation des droits d'auteur en vertu de l'article 501 du code des États-Unis (17 U.S.C.). L'avocat du défendeur ne s'est pas encore manifesté.

    Meta a d'abord lancé sa famille phare de LLM, alors stylisée comme LLaMA, en février 2023 dans la course aux Big Tech pour concurrencer les débuts du chatbot d'IA générative révolutionnaire d'OpenAI, ChatGPT, en novembre 2022. Meta a publié « Llama 2 » pour un usage commercial en juillet 2023 et sa dernière itération, “Llama 3”, pour construire son assistant d'IA “Meta AI”, le 18 avril 2024.

    Selon la plainte, Meta a téléchargé et copié près de 200 000 livres protégés par le droit d'auteur à partir de « Books3 », une bibliothèque d'œuvres protégées par le droit d'auteur que le développeur Shawn Presser a récupérée sur le site Web de livres piratés Bibliotik. Books3 fait partie de « The Pile », un ensemble de données en ligne à source ouverte hébergé par l'organisation à but non lucratif EleutherAI, qui a été spécialement conçu pour former les LLM. Les LLM sont conditionnés pour simuler la communication humaine en ingérant et en traitant des quantités massives de données qui leur « apprennent » effectivement à générer des réponses écrites prédictives. La plainte affirme que Meta a révélé publiquement qu'il utilisait les données de Books3 pour former ses LLM dans un document de recherche datant de février 2023.

    Ces plateformes fonctionnent selon le principe « move fast and break things and pay for it later », a déclaré Mike Palmisciano, partenaire de Sullivan & Worcester, spécialisé dans les questions transactionnelles de propriété intellectuelle. « Développons ces produits, devenons en quelque sorte essentiels sur le marché, puis réfléchissons à la suite à donner à l'affaire ».

    Ce n'est pas la première fois que Meta est accusée d'avoir volé des documents protégés par le droit d'auteur à Books3 à des fins d'entraînement à l'IA. En juillet 2023, une coalition d'écrivains, dont la comédienne Sarah Silverman, a poursuivi Meta et OpenAI devant le tribunal fédéral de Californie pour des motifs similaires de violation des droits d'auteur. L'Associated Press a rapporté le 27 septembre que le PDG de Meta, Mark Zuckerberg, sera entendu dans le cadre de l'action collective intentée contre Meta.

    Lieff Cabraser, en collaboration avec Susman Godfrey, représente également les plaignants dans un recours collectif déposé en août qui accuse la startup d'IA Anthropic d'avoir détourné les textes de Books3 pour former sa propre collection de LLM, « Claude ».

    Selon Mike Palmisciano, ces types de plaintes pour violation du droit d'auteur continueront à se multiplier jusqu'à ce qu'une solution réglementaire ou une décision de justice « définisse les lignes directrices de ce qui est autorisé dans le contexte de l'IA ».

    « Je pense que l'argument de l'utilisation équitable avancé par la défense est difficile à concilier avec des décennies de jurisprudence sur l'utilisation équitable du droit d'auteur », a-t-il déclaré. « Cela dit, je suppose qu'à un moment donné, la Cour suprême se prononcera sur ce qui constitue un usage loyal dans le contexte de l'IA et sur la question de savoir si ce type d'ingestion de grands ensembles de données est transformateur d'une manière qui protège les fournisseurs ».

    Jusqu'à ce que la Cour suprême se prononce sur la question de l'usage loyal, Mike Palmisciano prédit que les entreprises visées par le litige continueront à conclure des règlements ponctuels et des accords monétaires.

    « Il semble que c'est à cela que sont destinés les premiers financements de plateformes telles qu'OpenAI », a-t-il déclaré. « Elles développent leur technologie, bien sûr, mais elles concluent également des accords de licence très coûteux et étendus pour le contenu qu'elles ont déjà intégré dans leur plateforme. »

    Source : Plainte en recours collectif contre Meta

    Et vous ?

    Quelle lecture faites-vous de cette situation ?
    Pensez-vous que l'action en justice menée par les auteurs contre Meta est pertinente et justifiée ?
    Selon vous, jusqu'à quel point les entreprises comme Meta devraient-elles être responsables de la vérification de la provenance légale des données utilisées pour former leurs modèles d'IA ?
    Pensez-vous que les règlements à venir sur l'utilisation équitable des données pour les modèles d'IA devraient être plus stricts ou plus souples ?

    Voir aussi :

    Meta annonce Llama 3.2 qui révolutionnerait l'IA et la vision grâce à des modèles ouverts et personnalisables, Llama 3.2 comprend des modèles légers qui s'exécutent localement sur l'appareil

    Meta a utilisé des livres protégés par le droit d'auteur pour l'entraînement de l'IA malgré les avertissements de ses propres avocats, selon une nouvelle plainte des auteurs

    OpenAI et Meta accusés d'avoir utilisé les œuvres de Sarah Silverman et de deux auteurs sans leur consentement, comme données d'entraînements de leurs IA. Les plaintes de ce type se multiplient
    Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  15. #15
    Membre très actif
    Homme Profil pro
    Expertise comptable
    Inscrit en
    Décembre 2019
    Messages
    862
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 35
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Expertise comptable
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Décembre 2019
    Messages : 862
    Par défaut
    Vu le niveau du journalisme actuel autant abdiquer et refiler la rédaction des infomercial à l'IA. On verra alors le retour du journalisme artisanal qui cherche juste la vérité plutôt que la complaisance avec les pouvoirs en place...

  16. #16
    Chroniqueur Actualités

    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Juin 2023
    Messages
    1 654
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Bénin

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 654
    Par défaut Un juge rejette une plainte déposée par des éditeurs contre OpenAI pour violation du droit d'auteur
    Un juge rejette une plainte déposée par des éditeurs contre OpenAI pour violation du droit d'auteur
    le juge estime qu'il n'y a pas de preuve que le scraping d'OpenAI leur a causé un préjudice réel

    Une plainte déposée par les éditeurs Raw Story et AltNet contre OpenAI pour violation de droit d'auteur vient d'être rejetée par un juge américain. Elle allègue qu'OpenAI a illégalement supprimé les informations de gestion des droits d'auteur lors de la construction d'ensembles de données pour la formation de ses modèles d'IA. Raw Story et AltNet ont ajouté que les pratiques d'OpenAI ont entraîné un « préjudice concret ». Toutefois, le juge a estimé que les plaignants n'ont pas pu démontrer qu'ils avaient subi un préjudice concret et réel du fait des actions d'OpenAI. Cela a entraîné le rejet de la plainte, ce qui constitue une victoire pour OpenAI.

    Rappel du contexte de l'action en justice des éditeurs Raw Story et AltNet

    Raw Story et AltNet ont déposé leur plainte en février 2024. Leur action en justice porte sur l'article 1202(b) du DMCA (Digital Millennium Copyright Act), une disposition qui vise à protéger les « informations sur la gestion des droits d'auteur » (copyright management information - CMI). Les informations protégées par l'article 1202(b) du DMCA incluent les noms d'auteurs, les titres et autres métadonnées permettant d'identifier les œuvres protégées par le droit d'auteur.

    Nom : Capture d'écran 2024-11-11 145808.png
Affichages : 5619
Taille : 96,0 Ko

    L'article 1202(b) interdit « la suppression ou la modification de ces informations sans autorisation, en particulier si cela facilite la violation des droits d'auteur ». Dans cette affaire, Raw Story et AlterNet allèguent qu'OpenAI avait utilisé des articles de leurs sites Web pour former ChatGPT et d'autres modèles sans préserver les informations sur la gestion des droits d'auteur, violant ainsi la section 1202(b). OpenAI a rejeté ces allégations et a demandé le rejet de la plainte.

    OpenAI n'est pas la seule entreprise de la course à l'IA susceptible d'avoir récupéré ce type de matériel sur le Web. Les fournisseurs de modèles d'IA ont tendance à garder précieusement leurs ensembles de données d'entraînement. Cependant, l'industrie dans son ensemble a sans aucun doute récupéré de larges pans du Web pour entraîner ses différents modèles. C'est pour cela que certains créateurs considèrent le scraping de données comme le péché originel de l'IA.

    Raw Story et AltNet ont allégué que les réponses générées par les modèles d'OpenAI sont parfois basées sur leurs articles et que l'entreprise a sciemment violé les droits d'auteur en supprimant les informations sur la gestion des droits d'auteur.

    Pourquoi le tribunal a-t-il rejeté les allégations de Raw Story et AltNet ?

    OpenAI a fait valoir que les éditeurs n'ont pas la capacité juridique d'intenter cette action en justice, car ils n'ont pas prouvé que ChatGPT avait été formé sur leur matériel, et encore moins que la formation était préjudiciable. La juge Colleen McMahon a accepté la requête d'OpenAI visant à rejeter l'affaire pour « défaut de qualité à agir ». Elle a déclaré que les plaignants n'ont pas pu démontrer qu'ils avaient subi un préjudice concret et réel du fait des actions d'OpenAI.

    « Nous construisons nos modèles d'IA en utilisant des données accessibles au public, d'une manière protégée par l'utilisation équitable et les principes connexes, et soutenus par des précédents juridiques de longue date et largement acceptés », explique Jason Deutrom, porte-parole d'OpenAI. Il s'agit d'un argument utilisé par l'ensemble des entreprises engagées dans la course à l'IA, mais il est largement critiqué dans l'industrie et de nombreux procès ont été intentés.

    En outre, la juge Colleen McMahon s'est aussi penchée sur l'évolution du paysage des interfaces des grands modèles de langage (LLM), notant que les mises à jour de ces systèmes compliquent encore davantage l'attribution et la traçabilité. Colleen McMahon a souligné notamment que « les améliorations itératives de l'IA générative rendent moins probable la reproduction du contenu mot à mot », ce qui rend les revendications des plaignants encore plus spéculatives.

    Elle affirme : « la probabilité que ChatGPT produise un contenu plagié à partir de l'un des articles des plaignants semble faible ». Cela reflète une difficulté majeure dans ce type d'affaires : l'IA générative est conçue pour synthétiser des informations plutôt que de les reproduire mot pour mot. Les plaignants n'ont pas présenté des preuves convaincantes que leurs œuvres spécifiques ont été directement contrefaites d'une manière qui a conduit à un préjudice identifiable.

    La charge de la preuve qui pèse sur les plaignants est très importante

    Cette décision s'inscrit dans la lignée d'affaires similaires dans lesquelles les tribunaux ont eu du mal à appliquer la loi traditionnelle sur le droit d'auteur à l'IA générative. Par exemple, l'affaire Doe 1 v. GitHub concernant GitHub Copilot portait également sur des réclamations au titre de l'article 1202(b) du DMCA. Dans cette affaire, un tribunal a estimé que le code généré par Copilot n'est pas une « copie identique » de l'original, mais plutôt des bribes reconfigurées.

    Cela était donc difficile de prouver la violation des exigences relatives aux informations sur la gestion des droits d'auteur. La décision de Colleen McMahon a une incidence sur la question de savoir si OpenAI a été autorisée à développer ses produits d'IA générative en utilisant des articles de journalistes en supprimant les informations sur la gestion des droits d'auteur. Colleen McMahon a déclaré qu'elle autoriserait les éditeurs à déposer une plainte modifiée contre OpenAI.

    Il n'existe pas de consensus ferme sur la manière dont la section 1202(b) s'applique à un large éventail de contenus en ligne. D'un côté, certains tribunaux ont imposé ce que l'on appelle « une exigence d'identité », ce qui signifie que les plaignants doivent prouver que les œuvres contrefaites sont une copie exacte du contenu original, sans les informations sur la gestion des droits d'auteur. D'autres, en revanche, ont autorisé des interprétations plus souples de la loi.

    Par exemple, le tribunal du district sud du Texas a récemment déclaré que même des reproductions partielles pouvaient être considérées comme des violations si les informations sur la gestion des droits d'auteur sont délibérément supprimées. Par ailleurs, dans le procès intenté par Sarah Silverman et un ensemble d'auteurs, le tribunal a estimé que la plaignante n'avait pas démontré de manière suffisante qu'OpenAI avait activement supprimé les CMI de son contenu.

    Comme l'explique Maria Crusey dans un article pour l'Authors Alliance, « l'augmentation des plaintes en vertu de l'article 1202(b) soulève des questions difficiles, à savoir : comment l'article 1202(b) s'applique-t-il à l'utilisation d'une œuvre protégée par le droit d'auteur dans le cadre d'un ensemble de données qui doit être nettoyé, restructuré et traité de manière à séparer les informations relatives à la gestion du droit d'auteur du contenu lui-même ? »

    Cette décision constitue un revers pour les créateurs et les éditeurs

    Le rejet de l'action en justice de Raw Story et AltNet est une victoire importante pour OpenAI. Selon certains analystes, il s'agit également d'un indicateur de la façon dont les tribunaux peuvent traiter des réclamations similaires à l'avenir. OpenAI et son investisseur Microsoft se défendent actuellement contre une action en justice similaire intentée par le New York Times, et la décision ne peut que contribuer à établir un précédent pour rejeter cette action et d'autres à venir.

    La décision de la juge Colleen McMahon suggère qu'en l'absence d'un préjudice clair et démontrable ou d'une reproduction exacte, les plaignants pourraient avoir du mal à obtenir gain de cause devant les tribunaux. Elle porte également sur un point plus large, à savoir la manière dont l'IA générative synthétise les données plutôt que de les reproduire directement. La synthèse rend difficile de prouver les violations des lois actuelles sur le droit d'auteur.

    Pour les créateurs de contenu, cela soulève un défi important : comment empêcher l'utilisation non autorisée de leur travail dans les ensembles de données de formation ? Des accords de licence comme ceux qu'OpenAI a conclus avec de grands éditeurs de presse tels que Vogue et Condé Nast pourraient devenir la nouvelle norme, donnant aux entreprises un moyen d'utiliser légalement des contenus protégés par le droit d'auteur tout en indemnisant leurs créateurs.

    Source : document juridique (PDF)

    Et vous ?

    Quel est votre avis sur le sujet ?
    Que pensez-vous de la décision de la juge américaine Colleen McMahon dans cette affaire ?
    Quels pourraient être les impacts de cette décision sur le travail des créateurs et des éditeurs ?
    Selon vous, quelles sont les menaces de l'IA générative pour les créateurs de contenus et les éditeurs ?

    Voir aussi

    The Intercept, Raw Story et AlterNet poursuivent OpenAI et Microsoft en justice pour violation du droit d'auteur, ils exigent des dommages-intérêts et le retrait de leurs contenus des modèles d'IA

    Le New York Times affirme qu'OpenAI a transcrit plus d'un million d'heures de vidéos YouTube pour entraîner son modèle d'IA GPT-4, violant ainsi les droits d'auteur des créateurs de la plateforme

    OpenAI et les médias : des accords de contenu dans l'ombre inquiètent les journalistes qui déplorent le manque de transparence et craignent des impacts négatifs sur leur travail

  17. #17
    Membre extrêmement actif Avatar de petitours
    Homme Profil pro
    Ingénieur développement matériel électronique
    Inscrit en
    Février 2003
    Messages
    2 054
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 45
    Localisation : France, Savoie (Rhône Alpes)

    Informations professionnelles :
    Activité : Ingénieur développement matériel électronique
    Secteur : Industrie

    Informations forums :
    Inscription : Février 2003
    Messages : 2 054
    Par défaut
    Inquiétant si un juge n'est pas capable de comprendre les notions de valeur et de droit.
    C'est bien comme ça on aura plus d’éditeurs de contenus (s'ils ne peuvent plus en vivre pourquoi continueraient ils ?), à part des amateurs et autres bavards du clavier ou encore les réseaux sociaux pleins d'experts avertis . Les IA continueront à apprendre sur ces contenus sans valeur pour pouvoir dire encore plus d'âneries au milieu de leurs propres hallucinations.

    Vivement le jour où on en aura tous raz le bol de lisser et tirer vers le bas la créativité et la création de valeur pour le simple profit de quelques entreprises. Ce jour là l'Homme pourra redonner du sens à sa propre existence.

  18. #18
    Chroniqueur Actualités

    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Juin 2023
    Messages
    1 654
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Bénin

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 654
    Par défaut OpenAI accusé de rendre l'examen de ses modèles d'IA excessivement cher pour dissuader les plaignants
    OpenAI accusé d'avoir tenté de tirer profit de l'inspection de ses modèles d'IA devant un tribunal en facturant des frais d'accès à son API
    qui rendent le processus très onéreux pour les plaignants

    OpenAI sous le feu des critiques pour avoir exigé une « compensation financière » en échange de l'inspection de ses modèles d'IA dans le cadre d'un procès intenté par le New York Times pour violation de droit d'auteur. Il s'agit d'une évolution inquiétante qui pourrait remodeler la façon dont nous tenons les entreprises d'IA pour responsables. En effet, il est probable que si un tribunal autorise OpenAI à facturer l'examen de modèles, cela pourrait potentiellement dissuader les plaignants qui n'ont pas les moyens de payer un expert en IA ou des prix commerciaux pour l'inspection de modèles. Ce qui pourrait donner un avantage important aux entreprises d'IA.

    OpenAI accusé de rendre l'examen de ses modèles d'IA excessivement cher

    Le New York Times a intenté une action en justice contre OpenAI fin Microsoft fin 2023 pour violation de droit d'auteur. La publication accuse OpenAI d'avoir utilisé des millions de ses articles pour former des chatbots qui lui font désormais concurrence. La plainte indique que les défendeurs devraient être tenus responsables « des milliards de dollars de dommages statutaires et réels liés à la copie et à l'utilisation illégales des œuvres de grande valeur du Times ».

    Nom : Capture d'écran 2024-11-18 151827.png
Affichages : 4749
Taille : 240,3 Ko

    La plainte ne comporte pas de demande monétaire précise. Mais elle demande aux entreprises de détruire tous les modèles de chatbot et les données de formation qui utilisent du matériel protégé par le droit d'auteur du Times. Pour étayer ses allégations, le Times affirme avoir besoin d'examiner en profondeur les ensembles de données de formation des grands modèles de langage (LLM) d'OpenAI. C'est là que les choses se corsent et deviennent coûteuses.

    OpenAI a mis en place un protocole d'examen qui exige que les plaignants paient des « prix de détail » pour les requêtes API nécessaires à l'inspection de ses modèles d'IA. Selon ce protocole, le Times pourrait engager un expert pour examiner les documents techniques hautement confidentiels d'OpenAI « sur un ordinateur sécurisé dans une pièce sécurisée sans accès à Internet ou à un réseau d'autres ordinateurs dans un lieu sécurisé » choisi par OpenAI lui-même.

    Dans cette arène fermée, l'expert disposerait d'un temps et de requêtes limités pour tenter de faire avouer au modèle d'IA ce qu'il contient. OpenAI a plafonné le nombre de requêtes que l'expert peut effectuer via une API à 15 000 $ de crédits de vente au détail. Une fois ce plafond atteint, OpenAI a proposé aux parties de partager les coûts des requêtes restantes ; le Times et les codemandeurs paieront la moitié du prix pour terminer le reste de leur enquête.

    Mais le Times s'est opposé au protocole d'examen mis en place par OpenAI. La publication accuse OpenAI d'avoir transformé l'inspection de ses modèles d'IA en centre de profit. En septembre 2024, le Times a expliqué au tribunal que « les parties étaient arrivées à une impasse concernant ce protocole d'examen, alléguant qu'OpenAI cherche à dissimuler son infraction en professant une dépense indue, mais non quantifiée ». Bien sûr, OpenAI a rejeté ces accusations.

    Selon le Times, les plaignants auraient besoin de 800 000 $ de crédits de vente au détail pour rechercher les preuves dont ils ont besoin pour prouver leur cas, mais il n'y aurait aucune chance que cela coûte réellement autant à OpenAI. « OpenAI a refusé d'indiquer quels seraient ses coûts réels et se concentre plutôt de manière inappropriée sur ce qu'il facture à ses clients pour les services de détail dans le cadre de son activité (à but lucratif) », a affirmé le Times.

    L'issue de ce procès pourrait avoir un impact important sur toute l'industrie

    Pour sa défense, OpenAI a déclaré que la fixation d'un plafond initial est nécessaire pour réduire le fardeau qui pèse sur OpenAI et empêcher « une expédition de pêche » (une recherche sans objectif précis). OpenAI a également allégué que « les plaignants demandent des centaines de milliers de dollars de crédits pour effectuer un nombre arbitraire et non justifié - et probablement inutile - de recherches sur les modèles d'OpenAI, le tout aux frais d'OpenAI ».

    Les implications de cette bataille juridique vont bien au-delà d'un simple procès. Si le tribunal approuve l'approche d'OpenAI consistant à facturer des crédits de vente au détail pour l'inspection des modèles, cela pourrait effectivement créer une barrière financière pour les futurs plaignants cherchant à enquêter sur les préjudices liés à l'IA. Cette situation survient à un moment où les préoccupations en matière de sécurité liées à l'IA se multiplient à l'échelle mondiale.

    Pour ajouter à la complexité de la situation, le Times fait état d'obstacles techniques importants dans leurs efforts d'inspection. En 27 jours de tentative d'examen des données, ils ont rencontré des perturbations, notamment des arrêts de système et des problèmes d'installation de logiciels. Malgré ces difficultés, ils auraient déjà découvert des preuves qui suggèrent que des millions de leurs œuvres pourraient être incluses dans les données d'entraînement de ChatGPT.

    Lucas Hansen, cofondateur de CivAI, apporte un éclairage précieux sur les aspects techniques de l'inspection des modèles. S'il est possible d'examiner les modèles publics dans une certaine mesure, il a déclaré que les versions affinées comportent souvent des mécanismes de censure qui compliquent la traçabilité de l'origine des données d'entraînement. C'est pourquoi l'accès aux modèles originaux par l'intermédiaire d'API est crucial pour une enquête appropriée.

    On ne sait pas exactement ce qu'il en coûte à OpenAI pour fournir ce niveau d'accès. Lucas Hansen a déclaré que les coûts de formation et d'expérimentation des modèles éclipsent les coûts d'exploitation des modèles pour fournir des solutions complètes. D'autres développeurs ont déclaré dans les forums que les coûts des requêtes d'API s'additionnent rapidement, l'un d'entre eux affirmant que « la tarification d'OpenAI tue la motivation de travailler avec les API ».

    Quel équilibre entre la protection du droit d'auteur et la transparence de l'IA ?

    Le contexte plus large de la surveillance de la sécurité de l'IA rend cette affaire particulièrement significative. Bien qu'il ait été créé pour répondre à ces préoccupations, l'Institut américain de sécurité de l'IA (AISI) est confronté à des défis uniques. Avec un budget proposé de 50 millions de dollars pour 2025 - un chiffre que de nombreux experts considèrent comme insuffisant - et des incertitudes politiques potentielles, l'efficacité future de l'institut reste incertaine.

    La bataille juridique en cours soulève des questions cruciales sur l'équilibre entre la protection des droits de propriété intellectuelle et la transparence de l'IA. OpenAI se défend en arguant que le plafond initial est nécessaire pour empêcher « une recherche sans objectif précis » et gérer la charge opérationnelle. Mais ses détracteurs affirment que « le fait de facturer des prix de détail pour la recherche dans un cadre juridique pourrait créer un dangereux précédent ».

    Le déroulement de cette bataille juridique met en lumière un défi majeur en matière de gouvernance de l'IA : comment assurer une surveillance efficace des systèmes d'IA tout en maintenant le processus financièrement accessible ? La question reste posée. L'issue de cette affaire pourrait créer des précédents importants pour les futurs litiges en matière d'IA et les exigences de transparence. L'industrie technologique suit de près l'évolution de cette affaire.

    Elle est consciente que l'issue pourrait influencer de manière significative la responsabilité des entreprises d'IA quant au comportement de leurs modèles. La technologie continuant à progresser rapidement, il devient de plus en plus urgent de mettre en place des mécanismes de contrôle équilibrés et efficaces.

    Pour l'instant, la bataille se poursuit, le New York Times faisant pression pour un accès plus complet aux données d'entraînement et OpenAI maintenant sa position sur le partage des coûts. Alors que la Cour évalue ces intérêts divergents, l'avenir de la responsabilité de l'IA est en jeu.

    Source : document judiciaire (PDF)

    Et vous ?

    Quel est votre avis sur le sujet ?
    Que pensez-vous des coûts exigés par OpenAI pour l'examen de ces modèles d'IA ?
    Selon vous, ces coûts sont-ils justifiés ? Ces coûts permettent-ils à OpenAI de cacher ses infractions ?
    Selon vous, quels impacts l'issue de ce procès pourrait-elle avoir sur les entreprises d'IA et l'ensemble de l'industrie ?

    Voir aussi

    Alors que le New York Times poursuit OpenAI pour violation des droits d'auteur, le Financial Times accepte de conclure un accord de licence de contenu avec OpenAI pour alimenter officiellement son IA générative

    OpenAI affirme que le New York Times a trompé ChatGPT pour qu'il copie ses articles. Malgré un procès intenté le mois dernier, l'entreprise IA souhaite toujours travailler avec le quotidien

    Microsoft accuse le New York Times de propager une « futurologie apocalyptique » dans le cadre du procès OpenAI et demande de rejeter des éléments clés du procès intenté pour violation du copyright

  19. #19
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 757
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 757
    Par défaut OpenAI aurait accidentellement supprimé des preuves potentielles dans le procès intenté par le New York Times
    OpenAI aurait accidentellement supprimé des preuves potentielles dans le procès intenté par le New York Times,
    sur les violations de droits d'auteur liées à l'utilisation de ses articles pour entraîner ChatGPT

    Dans une affaire qui suscite l'attention à l'intersection de la technologie et du droit d'auteur, OpenAI se retrouve au cœur d'une controverse juridique avec le New York Times. OpenAI, connue pour ses modèles de langage avancés comme ChatGPT, est accusée d’avoir utilisé des contenus du Times pour entraîner ses systèmes sans autorisation. Alors que le procès avance, une nouvelle révélation complique encore davantage la position d’OpenAI : l’entreprise aurait accidentellement supprimé des preuves potentielles cruciales.

    Un litige déjà complexe

    Le New York Times accuse OpenAI de violations de droits d'auteur liées à l'utilisation de ses articles pour entraîner des modèles d'IA. Ce type d'entraînement, connu sous le nom de data scraping ou d'extraction de données, consiste à collecter des informations sur Internet pour améliorer les performances des modèles. Cependant, cette pratique soulève des questions juridiques sur les droits des créateurs de contenu.

    Dans ce contexte, les tribunaux s'appuient souvent sur des preuves détaillant la manière dont les données ont été collectées, stockées et utilisées. Ces preuves peuvent inclure des logs d'activité, des bases de données ou même des captures d'écran montrant les processus internes des entreprises.

    La suppression accidentelle

    Selon des documents judiciaires récents, OpenAI aurait supprimé des informations importantes qui auraient pu être utilisées comme preuve dans l'affaire. Bien que l’entreprise affirme que cette suppression n’était pas intentionnelle, elle pourrait avoir des répercussions importantes sur le déroulement du procès.

    L’absence de ces preuves pourrait donner l'impression qu'OpenAI n’a pas pris suffisamment au sérieux ses obligations légales en matière de conservation des données, notamment dans le cadre d’un litige aussi sensible. De plus, cela pourrait compliquer la tâche des juges et des avocats pour évaluer objectivement la légitimité des allégations du New York Times.

    Nom : nyt.png
Affichages : 8023
Taille : 476,1 Ko
    Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge

    L'affaire en question

    Les avocats du New York Times et du Daily News, qui poursuivent OpenAI pour avoir prétendument utilisé leurs œuvres pour entraîner ses modèles d'intelligence artificielle sans autorisation, affirment que les ingénieurs d'OpenAI ont accidentellement supprimé des données potentiellement pertinentes pour l'affaire.

    Au début de l'automne, OpenAI a accepté de fournir deux machines virtuelles afin que les avocats du Times et du Daily News puissent effectuer des recherches sur leurs contenus protégés par le droit d'auteur dans les jeux d'entraînement de l'IA. Dans une lettre, les avocats des éditeurs déclarent qu'ils ont passé, avec les experts qu'ils ont engagés, plus de 150 heures depuis le 1er novembre à rechercher les données d'entraînement d'OpenAI.

    Mais le 14 novembre, les ingénieurs d'OpenAI ont effacé toutes les données de recherche des éditeurs stockées sur l'une des machines virtuelles, selon la lettre susmentionnée, qui a été déposée au tribunal de district des États-Unis pour le district sud de New York mercredi.

    OpenAI a tenté de récupérer les données, avec succès. Cependant, la structure des dossiers et les noms de fichiers ayant été « irrémédiablement » perdus, les données récupérées « ne peuvent pas être utilisées pour déterminer où les articles copiés par les plaignants ont été utilisés pour construire les modèles [d'OpenAI] », selon la lettre.

    Dans cette affaire et dans d'autres, OpenAI a soutenu que l'entraînement de modèles à l'aide de données accessibles au public - y compris des articles du Times et du Daily News - constituait un usage loyal. En d'autres termes, en créant des modèles tels que GPT-4o, qui « apprennent » à partir de milliards d'exemples de livres électroniques, d'essais et autres pour générer des textes à consonance humaine, OpenAI estime qu'elle n'est pas tenue de concéder des licences ou de payer pour ces exemples, même si elle gagne de l'argent grâce à ces modèles.

    Cela dit, OpenAI a conclu des accords de licence avec un nombre croissant de nouveaux éditeurs, dont l'Associated Press, Axel Springer, propriétaire de Business Insider, le Financial Times, Dotdash Meredith, société mère de People, et News Corp. OpenAI a refusé de rendre publiques les conditions de ces accords, mais l'un des partenaires de contenu, Dotdash, recevrait au moins 16 millions de dollars par an.

    « Les plaignants ont été contraints de recréer leur travail à partir de zéro en utilisant un nombre important d'heures de travail et de temps de traitement informatique », ont écrit les avocats du Times et du Daily News. « Les plaignants n'ont appris qu'hier que les données récupérées étaient inutilisables et qu'une semaine entière de travail de leurs experts et avocats devait être refaite, ce qui explique pourquoi cette lettre complémentaire est déposée aujourd'hui ».

    Les avocats des plaignants précisent qu'ils n'ont aucune raison de croire que la suppression était intentionnelle. Mais ils affirment que l'incident souligne qu'OpenAI « est la mieux placée pour rechercher dans ses propres ensembles de données » des contenus potentiellement illicites à l'aide de ses propres outils.

    Nom : micro.png
Affichages : 1280
Taille : 143,5 Ko

    Les enjeux pour OpenAI et l’industrie

    Ce litige dépasse le simple conflit entre OpenAI et le New York Times. Il met en lumière un enjeu fondamental dans l’industrie de l’intelligence artificielle : le respect des droits des créateurs de contenu face à une technologie qui s’appuie massivement sur des données préexistantes.

    Si le tribunal décide en faveur du Times, cela pourrait créer un précédent juridique contraignant pour OpenAI et d'autres entreprises développant des modèles d'IA. Ces entreprises pourraient être obligées d’instaurer des pratiques de transparence accrues, notamment en matière de collecte et d’utilisation des données.

    OpenAI estime que « légalement, la loi sur le droit d'auteur n'interdit pas l'entraînement »

    La formation des modèles d’IA, tels que ceux développés par OpenAI, nécessite une quantité massive de données. Selon OpenAI, les matériaux disponibles dans le domaine public ne suffisent pas pour créer des modèles capables de répondre aux besoins actuels des utilisateurs. L’entreprise affirme que le droit d’auteur couvre pratiquement toutes les formes d’expression humaine, rendant ainsi indispensable l’utilisation de contenus protégés pour former des IA performantes.

    Cette position a provoqué une vague de réactions négatives, notamment de la part de grandes institutions comme le New York Times et la Authors Guild. Ces entités accusent OpenAI de violer massivement les droits d’auteur et de profiter commercialement des œuvres protégées sans compensation adéquate. Les auteurs célèbres, tels que John Grisham et George R.R. Martin, ont également rejoint les rangs des plaignants, soulignant que l’utilisation non autorisée de leurs œuvres menace leur subsistance.

    Les arguments d'OpenAI

    OpenAI supplie le Parlement britannique de l'autoriser à utiliser des œuvres protégées par le droit d'auteur, car il lui serait « impossible » d'entraîner ses modèles d'intelligence artificielle - et de poursuivre la croissance de son entreprise, qui pèse plusieurs milliards de dollars - sans ces œuvres.

    La société d'intelligence artificielle a déclaré dans un document soumis à une sous-commission de la Chambre des Lords que l'utilisation exclusive de contenus du domaine public serait insuffisante pour entraîner le type de grands modèles de langage (LLM) qu'elle construit, suggérant que l'entreprise doit donc être autorisée à utiliser du matériel protégé par le droit d'auteur.

    « Étant donné que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine - y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux - il serait impossible d'entraîner les meilleurs modèles d'IA actuels sans utiliser des documents protégés par le droit d'auteur », a écrit l'entreprise dans son dossier de preuves. « Limiter les données d'entraînement aux livres et dessins du domaine public créés il y a plus d'un siècle pourrait donner lieu à une expérience intéressante, mais ne permettrait pas de fournir des systèmes d'IA répondant aux besoins des citoyens d'aujourd'hui ».

    OpenAI poursuit en insistant dans le document, soumis au comité des communications et du numérique de la Chambre des Lords, sur le fait qu'elle se conforme aux lois sur le droit d'auteur et qu'elle estime que « légalement, la loi sur le droit d'auteur n'interdit pas l'entraînement ».

    Nom : rr.png
Affichages : 1306
Taille : 430,2 Ko
    Des auteurs, dont George RR Martin, ont également intenté un procès à OpenAI

    Sans l'utilisation d'œuvres protégées par le droit d'auteur, OpenAI « aurait un produit commercial très différent »

    De plus en plus de parties intéressées s'opposent fermement à l'affirmation d'OpenAI selon laquelle l'utilisation d'œuvres protégées par le droit d'auteur pour entraîner l'IA est légale et sans danger.

    Le New York Times a intenté un procès à OpenAI et à Microsoft, son principal investisseur, pour avoir profité d'une prétendue « violation massive des droits d'auteur, d'une exploitation commerciale et d'une appropriation illicite » de la propriété intellectuelle du quotidien.

    Le journal en question est loin d'être le seul à s'attaquer à OpenAI. Quelques mois auparavant, l'Authors Guild a poursuivi l'entreprise au nom de certains des plus grands noms de la fiction - dont John Grisham, Jodi Picoult, Jonathan Franzen, David Baldacci et George R.R. Martin - parce qu'elle s'opposait à ce que les œuvres de ces écrivains soient utilisées pour former ChatGPT.

    Sans l'utilisation d'œuvres protégées par le droit d'auteur, OpenAI « aurait un produit commercial très différent », a déclaré Rachel Geman, l'un des avocats de la guilde dans le cadre de l'action collective, dans un communiqué de presse relatif au dépôt de la plainte. En tant que telle, la décision de l'entreprise de copier les œuvres des auteurs, sans offrir de choix ni de compensation, menace le rôle et les moyens de subsistance des écrivains dans leur ensemble.

    Du côté d'OpenAI, la société affirme qu'elle cherche à établir de nouveaux partenariats avec des éditeurs. Quoi qu'il en soit, il est difficile d'imaginer que chaque journal, site web ou maison d'édition accepte de telles conditions en bloc, et encore moins les écrivains indépendants qui dépendent de leurs droits d'auteur pour gagner leur vie.

    OpenAI a toutefois admis qu'il y avait « encore du travail à faire pour soutenir les créateurs et leur donner les moyens d'agir ». L'entreprise a évoqué les moyens mis en œuvre pour permettre aux éditeurs d'empêcher le robot GPTBot d'accéder à leurs sites web. Elle a également indiqué qu'elle mettait au point des mécanismes supplémentaires permettant aux titulaires de droits de se retirer de la formation et qu'elle s'engageait avec eux à trouver des accords mutuellement bénéfiques.

    Dans certaines des actions en justice intentées contre OpenAI et Microsoft, les plaignants accusent les sociétés de refuser de payer les auteurs pour leur travail tout en construisant une industrie d'un milliard de dollars et en profitant d'un énorme gain financier à partir de matériel protégé par le droit d'auteur. Dans un cas, déposé par un couple d'auteurs de non-fiction, il est soutenu que les entreprises auraient pu explorer d'autres options de financement, telles que la participation aux bénéfices, mais qu'elles ont « décidé de voler » à la place.

    Conclusion

    Alors que le procès entre le New York Times et OpenAI continue, l'industrie technologique suit de près les développements de cette affaire. Si la suppression des preuves par OpenAI était réellement accidentelle, elle met néanmoins en lumière l’importance cruciale pour les entreprises d’adopter des protocoles robustes de conservation des données, en particulier lorsqu’elles opèrent dans des domaines juridiquement sensibles.

    Ce litige n’est pas seulement une question de droits d'auteur : il représente un tournant potentiel pour l’avenir de l’IA et de son interaction avec le contenu protégé.

    Source : lettre

    Et vous ?

    La suppression accidentelle de preuves par OpenAI peut-elle être considérée comme une négligence, et dans quelle mesure cela affecte-t-il leur crédibilité juridique ? D'ailleurs, pensez-vous qu'elle serait accidentelle ou volontaire ?

    Est-il plausible de considérer la suppression accidentelle de preuves comme un événement fortuit, ou cela reflète-t-il un problème structurel dans la gestion interne d’OpenAI ?

    Le concept de "fair use" est-il suffisant pour encadrer légalement l’entraînement des modèles d’IA, ou faut-il des lois spécifiques pour ce domaine émergent ?

    Si le tribunal statue en faveur du New York Times, quelles pourraient être les répercussions pour d'autres entreprises développant des technologies similaires ?
    Images attachées Images attachées
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  20. #20
    Membre actif
    Profil pro
    Inscrit en
    Novembre 2003
    Messages
    160
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2003
    Messages : 160
    Par défaut
    Ca me rappelle les suppressions accidentelles des témoins dans les films de mafia.

Discussions similaires

  1. Réponses: 10
    Dernier message: 30/01/2025, 03h43
  2. [AJAX] votre avis sur les livres sur Ajax
    Par gtraxx dans le forum Général JavaScript
    Réponses: 4
    Dernier message: 02/11/2006, 18h15
  3. question sur les livres c++ proposées...
    Par Davidp dans le forum C++
    Réponses: 6
    Dernier message: 09/12/2004, 22h37

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo