IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

  1. #101
    Chroniqueur Actualités
    Avatar de Patrick Ruiz
    Homme Profil pro
    Redacteur web
    Inscrit en
    Février 2017
    Messages
    2 110
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Cameroun

    Informations professionnelles :
    Activité : Redacteur web
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Février 2017
    Messages : 2 110
    Points : 56 813
    Points
    56 813
    Par défaut Le patron de l'IA chez Microsoft pense qu'il est tout à fait acceptable de voler du contenu sue le web ouvert
    Le patron de l'IA chez Microsoft pense qu'il est tout à fait acceptable de voler du contenu s'il se trouve sur le web ouvert
    Et justifie l’entraînement des modèles d’IA à partir de données sous copyright

    Mustafa Suleyman fait montre d’une curieuse compréhension du droit d'auteur sur le web et vient d’en faire la démonstration. Ce dernier est d’avis que dès que l'on publie quelque chose sur le web, cela devient un "freeware" que tout le monde peut copier et utiliser librement. Ce positionnement est néanmoins en contradiction avec la suppression par OpenAI de jeux de données utilisés pour entraîner GPT-3. La décision laissait ainsi entendre que l’entraînement des modèles d’IA tel qu’effectué en l’état se fait en violation des lois sur le copyright contrairement à ce que semble laisser entendre le patron de l’intelligence artificielle chez Microsoft.

    [ Des documents récemment dévoilés dans le cadre d’un recours collectif contre OpenAI révèlent que la startup a supprimé deux énormes ensembles de données, appelés "books1" et "books2", qui avaient été utilisés pour entraîner son modèle d'intelligence artificielle GPT-3. Les avocats de la firme Authors Guild ont déclaré dans les documents déposés au tribunal que les ensembles de données contenaient probablement plus de 100 000 livres publiés et qu'ils étaient au cœur des allégations selon lesquelles OpenAI avait utilisé des documents protégés par le droit d'auteur pour entraîner des modèles d'intelligence artificielle.

    Pendant des mois, la firme Authors Guild a cherché à obtenir des informations sur ces données auprès d'OpenAI. L'entreprise a d'abord résisté, invoquant des problèmes de confidentialité, avant de révéler qu'elle avait supprimé toutes les copies des données, selon les documents juridiques examinés par certains médias

    Dans un livre blanc publié en 2020, OpenAI a décrit les ensembles de données books1 et books2 comme des "corpus de livres basés sur Internet" et a indiqué qu'ils représentaient 16 % des données d'entraînement utilisées pour créer le GPT-3. Le livre blanc indique également que "books1" et "books2" contiennent ensemble 67 milliards de tokens de données, soit à peu près l'équivalent de 50 milliards de mots. À titre de comparaison, la Bible du roi Jacques contient 783 137 mots.

    La lettre non scellée des avocats d'OpenAI, qui porte la mention « hautement confidentiel - réservé aux avocats », indique que l'utilisation de books1 et books2 pour l'entraînement des modèles a cessé à la fin de 2021 et que les ensembles de données ont été supprimés à la mi-2022 en raison de leur non-utilisation. La lettre poursuit en indiquant qu'aucune des autres données utilisées pour entraîner le GPT-3 n'a été supprimée et offre aux avocats de la Guilde des auteurs l'accès à ces autres ensembles de données.

    Les documents non scellés révèlent également que les deux chercheurs qui ont créé books1 et books2 ne sont plus employés par OpenAI. OpenAI a d'abord refusé de révéler l'identité des deux employés.

    La startup a depuis identifié les employés auprès des avocats de la firme Authors Guild, mais n'a pas révélé publiquement leurs noms. OpenAI a demandé au tribunal de garder sous scellés les noms des deux employés, ainsi que les informations sur les ensembles de données. Authors Guild s'y est opposée, arguant du droit du public à être informé. Le litige est en cours.

    "Les modèles qui alimentent ChatGPT et notre API aujourd'hui n'ont pas été développés à partir de ces ensembles de données", a déclaré OpenAI dans un communiqué mardi. "Ces jeux de données, créés par d'anciens employés qui ne font plus partie d'OpenAI, ont été utilisés pour la dernière fois en 2021 et supprimés pour cause de non-utilisation en 2022."

    Nom : 1.png
Affichages : 5195
Taille : 19,0 Ko

    C’est la raison pour laquelle les entreprises de la filière intelligence artificielle s’ouvrent de plus en plus à la conclusion d’accords de licence de contenu avec des éditeurs de presse

    Le Financial Times (FT) a annoncé un partenariat stratégique et un accord de licence avec OpenAI. Cet accord permettra à OpenAI d’utiliser le contenu archivé du FT pour former ses modèles d’IA, avec l’objectif d’améliorer la technologie de l’IA générative, capable de créer du texte, des images et du code qui ressemblent étroitement aux créations humaines.

    Le partenariat entre le FT et OpenAI est décrit comme une collaboration visant à enrichir ChatGPT avec du contenu attribué, à améliorer l’utilité des modèles de l’IA en intégrant le journalisme du FT, et à collaborer au développement de nouveaux produits et fonctionnalités d’IA pour les lecteurs du FT. Le FT est également devenu client de ChatGPT Enterprise plus tôt cette année, offrant ainsi à tous ses employés l’accès à la technologie pour bénéficier des gains de créativité et de productivité rendus possibles par les outils d’OpenAI.

    Selon les termes de l'accord, le FT accordera une licence d'utilisation de son matériel au créateur de ChatGPT pour l'aider à développer une technologie d'IA générative capable de créer des textes, des images et des codes impossibles à différencier des créations humaines. L'accord permet également à ChatGPT de répondre aux questions par de courts résumés d'articles du FT, avec des liens vers FT.com. Cela signifie que les 100 millions d'utilisateurs du chatbot dans le monde peuvent accéder aux articles du FT par l'intermédiaire de ChatGPT, tout en renvoyant à la source originale.

    « Grâce à ce partenariat, les utilisateurs de ChatGPT pourront voir des résumés attribués, des citations et des liens riches vers le journalisme du FT en réponse à des requêtes pertinentes. En outre, le FT est devenu un client de ChatGPT Enterprise au début de cette année, en achetant un accès pour tous les employés du FT afin de s'assurer que ses équipes sont bien familiarisées avec la technologie et peuvent bénéficier de la créativité et des gains de productivité rendus possibles par les outils d'OpenAI », indique OpenAI.

    Source : Mustafa Suleyman

    Et vous ?

    Que pensez-vous du positionnement de Mustafa Suleyman selon lequel dès que l'on publie quelque chose sur le web, cela devient un "freeware" que tout le monde peut copier et utiliser librement ?

    Voir aussi :

    Le New York Times envisage d'initier une action en justice contre OpenAI pour l'obliger à effacer les données d'entraînement de ChatGPT, le média dit non à l'usage de son contenu sans son accord

    Musk s'engage à poursuivre Microsoft en justice, l'accusant de s'être « entraînée illégalement avec les données de Twitter », tandis qu'elle abandonne l'intégration de Twitter de sa plateforme pub

    Des auteurs de livres poursuivent OpenAI en justice, affirmant que la société a abusé de leurs travaux pour former ChatGPT. Selon eux, les livres sont un « ingrédient clé » du chabot IA

  2. #102
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 057
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 057
    Points : 209 181
    Points
    209 181
    Par défaut GitHub Copilot : un juge rejette la demande de protection des droits d'auteur en vertu de la DMCA
    GitHub Copilot : un juge rejette la demande de protection des droits d'auteur en vertu de la DMCA,
    dans le cadre d'un procès contre l'outil IA de Microsoft

    En novembre 2022, des développeurs ont intenté une action en justice contre GitHub, Microsoft et OpenAI, alléguant que l’assistant de codage Copilot copiait illégalement leur code. Cependant, le juge a largement rejeté ces allégations, ne laissant que deux accusations en suspens. Le litige portait sur le fait que Copilot suggérait des extraits de code provenant de projets open source hébergés sur GitHub, sans respecter les licences d’origine ni donner le crédit approprié aux créateurs.

    GitHub Copilot, qu'est-ce que c'est ?

    Copilot a été lancé en fin juin 2021 dans le cadre d'une Preview technique sur invitation uniquement, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.

    GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.

    Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.

    Nom : copilot.png
Affichages : 5194
Taille : 84,9 Ko

    Quel est le problème avec Copilot ?

    Peu après le lancement de la Preview de Copilot en 2021, certains développeurs ont commencé à s'alarmer de l'utilisation d'un code public pour entraîner l'IA de l'outil. L'une des préoccupations est que si Copilot reproduit des parties suffisamment importantes du code existant, il puisse violer les droits d'auteur ou blanchir le code open source dans des utilisations commerciales sans licence appropriée. L'outil peut également reproduire des informations personnelles que les développeurs ont publiées, et dans un cas, il a reproduit le code largement cité du jeu PC Quake III Arena de 1999, y compris le commentaire du développeur John Carmack.

    Nom : brian.png
Affichages : 1296
Taille : 32,5 Ko

    L’utilisateur Hogan a aussi ajouté dans son fil de discussion : « Ce qui serait vraiment drôle, c'est que les gens qui maintiennent des dépôts populaires commençaient à mettre du mauvais code exprès ».

    GitHub affirme que les dérapages de Copilot sont rares. Mais un autre utilisateur de Twitter, répondant au post de Ronacher, a écrit : « Et ici nous avons la preuve directe que GitHub reproduit directement un morceau de code sous GPL, ce qui prouve que c'est un outil vraiment dangereux à utiliser dans des environnements commerciaux ». Dans une autre réponse, on peut lire : « Lol, c'est du blanchiment de code… »

    Selon le développeur et avocat Matthieu Butterick, Copilot soulève des questions juridiques relatives à la fois à la formation du système et à l'utilisation du système.

    Après avoir mené une enquête avec ses confrères, il a décidé en novembre 2022 de porter plainte, décrivant la solution de Microsoft comme un produit d'IA qui « s'appuie sur un piratage de logiciels open source sans précédent » :

    Aujourd'hui, nous avons déposé un recours collectif devant le tribunal fédéral américain de San Francisco, en Californie, au nom d'un groupe proposé de millions d'utilisateurs de GitHub. Nous contestons la légalité de GitHub Copilot (et d'un produit connexe, OpenAI Codex, qui alimente Copilot). La poursuite a été déposée contre un ensemble de défendeurs qui comprend GitHub, Microsoft (propriétaire de GitHub) et OpenAI.

    En formant leurs systèmes d'IA sur des référentiels publics GitHub (bien que basés sur leurs déclarations publiques, peut-être bien plus), nous soutenons que les accusés ont violé les droits légaux d'un grand nombre de créateurs qui ont publié du code ou d'autres travaux sous certaines licences open source sur GitHub. Quelles licences ? Un ensemble de 11 licences open source populaires qui nécessitent toutes l'attribution du nom de l'auteur et des droits d'auteur, y compris la licence MIT, la GPL et la licence Apache. (Celles-ci sont énumérées dans l'annexe à la plainte.)

    En plus d'avoir enfreint les exigences d'attribution de ces licences, nous soutenons que les défendeurs ont enfreint :
    • les conditions d'utilisation et les politiques de confidentialité de GitHub ;
    • le DMCA § 1202, qui interdit la suppression des informations de gestion des droits d'auteur ;
    • la loi californienne sur la protection de la vie privée des consommateurs ;
    • et d'autres lois donnant lieu à des réclamations légales connexes.
    Un avis qui n'est finalement pas partagé par la justice

    Microsoft possède GitHub et utilise la technologie générative d'apprentissage automatique d'OpenAI pour alimenter Copilot, qui complète automatiquement le code source pour les ingénieurs à mesure qu'ils saisissent des commentaires, des définitions de fonctions et d'autres invites.

    Les plaignants sont donc mécontents que, selon eux, des parties de leur code source libre protégé par le droit d'auteur puissent être fournies - copiées, plutôt - par Copilot à d'autres développeurs pour qu'ils les utilisent, sans qu'ils soient dûment crédités et sans que les autres exigences des licences d'origine soient respectées.

    L'affaire a débuté avec un total de 22 plaintes, qui ont été réduites au fur et à mesure que les sociétés défenderesses demandaient à ce que les accusations soient rejetées par le tribunal, demandes que le juge Jon Tigar a pour la plupart acceptées.

    Dans une ordonnance rendue publique le vendredi 5 juillet, le juge Tigar a statué sur une nouvelle série de plaintes des plaignants et, dans l'ensemble, il a donné gain de cause à GitHub, à Microsoft et à OpenAI. Trois plaintes ont été rejetées et une seule a été maintenue. D'après le décompte des avocats de Microsoft et de GitHub, il ne reste plus que deux allégations au total.

    Les plaintes les plus récemment rejetées étaient relativement importantes, l'une d'entre elles portant sur une infraction au Digital Millennium Copyright Act (DMCA), section 1202(b), qui stipule essentiellement que vous ne devez pas supprimer sans permission des informations cruciales relatives à la « gestion des droits d'auteur », telles que, dans ce contexte, l'identité de l'auteur du code et les conditions d'utilisation, comme les licences tendent à l'exiger. Dans le cadre de l'action collective, il a été avancé que Copilot supprimait ces informations lorsqu'il proposait des extraits de code des projets des utilisateurs, ce qui, selon eux, constituait une violation de l'article 1202(b).

    Le juge n'a toutefois pas été d'accord, estimant que le code proposé par Copilot n'était pas suffisamment identique au travail des développeurs, protégé par le droit d'auteur, et que l'article 1202(b) ne s'appliquait donc pas. En effet, l'année dernière, GitHub aurait réglé son assistant de programmation pour qu'il génère de légères variations du code de formation ingéré, afin d'éviter que son résultat ne soit accusé d'être une copie exacte d'un logiciel sous licence.

    Les plaignants ne seront pas en mesure de présenter une nouvelle plainte au titre de l'article 1202(b) du DMCA, le juge Tigar ayant rejeté l'allégation avec préjudice.

    Nom : github.png
Affichages : 1300
Taille : 57,7 Ko

    Les développeurs ont insisté à plusieurs reprises sur le fait que Copilot pouvait générer, et générerait, du code identique à ce qu'ils avaient eux-mêmes écrit, ce qui constitue un pilier essentiel de leur action en justice puisque leur plainte en vertu de la loi sur le droit d'auteur (DMCA) est subordonnée à une exigence d'identité. Toutefois, le juge Tigar a estimé que les plaignants n'avaient pas démontré l'existence d'un tel cas, ce qui a entraîné le rejet de la plainte avec la possibilité de la modifier.

    La plainte modifiée soutenait que la copie illégale de code était inévitable si les utilisateurs désactivaient l'interrupteur de sécurité anti-duplication de Copilot, et citait également une étude sur le code généré par l'IA pour tenter d'étayer leur position selon laquelle Copilot plagiait les sources, mais une fois de plus, le juge n'a pas été convaincu que le système de Microsoft volait le travail des gens de manière significative.

    Plus précisément, le juge a cité l'observation de l'étude selon laquelle Copilot « émet rarement du code mémorisé dans des situations bénignes, et la plupart de la mémorisation ne se produit que lorsque le modèle a été invité avec de longs extraits de code qui sont très similaires aux données d'entraînement ».

    « En conséquence, l'appui des plaignants sur une étude qui, tout au plus, affirme que Copilot peut théoriquement être incité par un utilisateur à générer une correspondance avec le code de quelqu'un d'autre n'est pas convaincant », conclut-il.

    Implications

    Cette décision a des implications majeures :
    • Légitimité de l’IA dans le développement : La décision renforce l’utilisation de l’IA pour accélérer le développement logiciel. Cependant, elle soulève également des questions sur la responsabilité et la transparence.
    • Licences open source : La communauté des développeurs doit réfléchir à la manière dont les licences open source sont respectées par les outils d’IA comme Copilot. Devrions-nous exiger un crédit explicite pour le code généré ?
    • Équilibre entre innovation et droits d’auteur : Comment pouvons-nous encourager l’innovation tout en protégeant les droits d’auteur des créateurs ? Cette affaire met en lumière ce dilemme.

    En fin de compte, la décision du juge a des répercussions sur l’avenir de l’IA dans le développement logiciel. La communauté des développeurs doit continuer à débattre et à trouver des solutions équilibrées pour le bien de tous.

    Sources : décision de justice (au format PDF), Quantifying Memorization Across Neural Language Models

    Et vous ?

    Quelle est votre opinion sur l’utilisation de l’IA pour générer du code ? Certains soutiennent que Copilot accélère le développement, tandis que d’autres craignent qu’il ne viole les droits d’auteur.
    Comment devrions-nous équilibrer l’innovation technologique et le respect des droits d’auteur ? Copilot est-il un outil révolutionnaire ou une menace pour les créateurs ?
    Quelles mesures devraient être prises pour garantir que Copilot respecte les licences open source ? Devrions-nous exiger un crédit explicite pour les extraits de code générés par l’IA ?
    Pensez-vous que la décision du juge était juste ? Pourquoi ou pourquoi pas ?
    Images attachées Images attachées

  3. #103
    Chroniqueur Actualités
    Avatar de Anthony
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Novembre 2022
    Messages
    1 301
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Rédacteur technique

    Informations forums :
    Inscription : Novembre 2022
    Messages : 1 301
    Points : 21 443
    Points
    21 443
    Par défaut Un juge rejette la majorité des plaintes des développeurs contre GitHub Copilot, Microsoft et OpenAI
    Un juge a rejeté la majorité des plaintes dans un procès sur les droits d'auteur intenté par des développeurs contre l'assistant de codage GitHub Copilot, Microsoft et OpenAI, mais en laisse deux en suspens

    Un juge a rejeté la majorité des plaintes dans le cadre d'un procès sur les droits d'auteur intenté par des développeurs contre GitHub, Microsoft et OpenAI.

    GitHub est une plateforme de développement qui permet aux développeurs de créer, stocker, gérer et partager leur code. Il utilise le logiciel Git, fournissant le contrôle de version distribué de Git plus le contrôle d'accès, le suivi des bogues, les demandes de fonctionnalités logicielles, la gestion des tâches, l'intégration continue et les wikis pour chaque projet. Basée en Californie, elle est une filiale de Microsoft depuis 2018.

    Microsoft Corporation est une multinationale américaine et une entreprise technologique dont le siège se trouve à Redmond, dans l'État de Washington. Ses produits logiciels les plus connus sont la gamme de systèmes d'exploitation Windows, la suite d'applications de productivité Microsoft 365, la plateforme de cloud computing Azure et le navigateur web Edge. Ses produits matériels phares sont les consoles de jeux vidéo Xbox et la gamme d'ordinateurs personnels à écran tactile Microsoft Surface. Microsoft a été classée n° 14 dans le classement Fortune 500 2022 des plus grandes entreprises américaines en fonction de leur chiffre d'affaires total, et elle a été le plus grand fabricant de logiciels au monde en termes de chiffre d'affaires en 2022, selon Forbes Global 2000. Elle est considérée comme l'une des cinq grandes entreprises américaines de technologies de l'information, aux côtés d'Alphabet (société mère de Google), d'Amazon, d'Apple et de Meta (société mère de Facebook).

    OpenAI est une organisation américaine de recherche en intelligence artificielle (IA) fondée en décembre 2015 et dont le siège se trouve à San Francisco. Sa mission est de développer une intelligence artificielle générale "sûre et bénéfique", qu'elle définit comme "des systèmes hautement autonomes qui surpassent les humains dans la plupart des tâches économiquement utiles". En tant qu'organisation leader dans le boom actuel de l'IA, OpenAI est connue pour la famille GPT de grands modèles de langage, la série DALL-E de modèles texte-image, et un modèle texte-vidéo nommé Sora. Son lancement de ChatGPT en novembre 2022 est considéré comme le catalyseur d'un intérêt généralisé pour l'IA générative.


    Le procès a été intenté par un groupe de développeurs en 2022 et comportait à l'origine 22 plaintes contre les entreprises, alléguant des violations de droits d'auteur liées à l'assistant de codage GitHub Copilot, doté d'une intelligence artificielle.

    La décision du juge Jon Tigar, rendue publique la semaine dernière, ne laisse subsister que deux plaintes : l'une accusant les sociétés de violation de la licence open-source et l'autre de rupture de contrat. Cette décision marque un net recul pour les développeurs qui affirmaient que GitHub Copilot, qui utilise la technologie d'OpenAI et appartient à Microsoft, s'était illégalement entraîné sur leur travail.

    Le rejet du tribunal s'est principalement concentré sur l'accusation selon laquelle GitHub Copilot viole le Digital Millennium Copyright Act (DMCA) en suggérant du code sans attribution appropriée. Une version modifiée de la plainte mettait en cause le filtre de détection de duplication de GitHub, qui permet aux utilisateurs de "détecter et supprimer" les suggestions de Copilot correspondant à du code public sur GitHub.

    Les développeurs ont fait valoir que la désactivation de ce filtre permettrait de "recevoir du code identique" et ont cité une étude montrant comment les modèles d'IA peuvent "mémoriser" et reproduire des parties de leurs données d'apprentissage, y compris potentiellement du code protégé par le droit d'auteur.

    Le juge Tigar a toutefois estimé que ces arguments n'étaient pas convaincants. Il a estimé que le code prétendument copié par GitHub n'était pas suffisamment similaire au travail original des développeurs. Le juge a également noté que l'étude citée mentionne elle-même que GitHub Copilot "émet rarement du code mémorisé dans des situations bénignes".

    En conséquence, le juge Tigar a rejeté cette allégation avec préjudice, ce qui signifie que les développeurs ne peuvent pas déposer une nouvelle plainte. En outre, le tribunal a rejeté les demandes de dommages-intérêts punitifs et de réparation pécuniaire sous la forme d'un enrichissement sans cause.

    Malgré cette décision importante, la bataille juridique n'est pas terminée. Les plaintes restantes concernant la rupture de contrat et les violations de la licence open-source sont susceptibles d'être poursuivies en justice.

    Cette affaire met en lumière les défis et les complexités juridiques qui entourent les assistants de codage alimentés par l'IA et leur utilisation de bases de code existantes pour la formation.

    Source : Ordonnance du juge Jon Tigar

    Et vous ?

    Quel est votre avis sur le sujet ?
    Trouvez-vous la décision du juge Tigar crédible ou pertinente ?

    Voir aussi :

    GitHub Copilot, l'assistant de programmation basé sur l'IA, sous le feu des critiques, un développeur affirme qu'il émet de nombreux bouts de son code protégé par le droit d'auteur

    Un développeur porte plainte contre GitHub Copilot, le décrivant comme un produit d'IA qui «s'appuie sur un piratage de logiciels open source sans précédent». Il vise le statut de recours collectif

  4. #104
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    1 745
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 745
    Points : 121 828
    Points
    121 828
    Par défaut Les moteurs de recherche alimentés par l'IA violent les droits d'auteur, estiment les éditeurs japonais
    Les moteurs de recherche alimentés par l'IA, comme Google et Microsoft, violent les droits d'auteur en utilisant des articles de presse sans autorisation, selon des éditeurs japonnais.

    Les moteurs de recherche alimentés par l'IA, comme Google et Microsoft, violent les droits d'auteur en utilisant des articles de presse sans autorisation. Le gouvernement devrait donc réviser les lois sur la propriété intellectuelle, estiment les éditeurs japonais.

    Vers la fin de l'année 2023, le New York Times a intenté une action en justice contre OpenAI et Microsoft pour violation des droits d'auteur. Il affirme que les entreprises ont illégalement fourni des "millions d'articles" à Bing Chat de Microsoft et à ChatGPT d'OpenAI pour développer leurs produits. Le New York Times affirmait également que l'index de recherche Bing de Microsoft copie son contenu en ligne et le donne aux utilisateurs sans l'autorisation de la publication, ce qui le prive de revenus d'abonnement, de licence, de publicité et d'affiliation. Le procès indique que les entreprises devraient être tenues responsables de "milliards de dollars de dommages".

    Récemment, les médias japonais ont affirmé que la recherche par l'IA porte atteinte aux droits d'auteur et appellent à une réforme juridique. Les moteurs de recherche alimentés par l'intelligence artificielle fournis par les géants américains de la technologie tels que Google LLC et Microsoft Corp. enfreignent probablement les droits d'auteur, a déclaré une association gérée par les médias japonais.

    Dans un communiqué, l'Association japonaise des éditeurs et rédacteurs de journaux a demandé aux entreprises qui exploitent de tels services d'obtenir le consentement des organismes de presse, car les réponses des moteurs de recherche ressemblent souvent à des articles dont la source n'a pas été autorisée.

    Nom : 0.jpg
Affichages : 4760
Taille : 65,8 Ko

    L'association a analysé le fait que les moteurs de recherche IA renvoient parfois des réponses inexactes car ils réutilisent ou modifient des articles de manière inappropriée et a souligné que les entreprises devraient s'assurer de l'exactitude et de la fiabilité de leurs services avant de les lancer. L'association a également exhorté le gouvernement japonais à revoir et à réviser de toute urgence les lois relatives à la propriété intellectuelle, telles que la loi sur les droits d'auteur.

    Les moteurs de recherche IA, qui combinent les capacités des moteurs de recherche traditionnels avec l'IA générative, extraient des informations de plusieurs sites pour afficher une réponse résumée à la requête de l'utilisateur. Google a lancé ce service l'année dernière. L'association a fait valoir dans sa déclaration que si les moteurs de recherche traditionnels dirigent les utilisateurs vers divers documents protégés par le droit d'auteur disponibles en ligne, les moteurs de recherche à intelligence artificielle divulguent le contenu, ce qui en fait un type de service complètement différent.

    Tout en soulignant que, dans de nombreux cas, le contenu essentiel de l'article référencé est repris dans son intégralité et constitue donc une violation du droit d'auteur, l'association a également mis l'accent sur la question des « recherches sans clic », dans lesquelles les utilisateurs ne visitent pas le site source. Elle a averti que le manque de trafic pourrait conduire à la diminution des activités de reportage des organismes de presse, ce qui aurait alors un impact négatif sur la démocratie et la culture.

    La déclaration s'inquiète également des inexactitudes potentielles dans les réponses générées par les moteurs de recherche IA, qui pourraient donner l'impression que les articles sources eux-mêmes sont erronés et nuire à la crédibilité des organismes de presse. L'association a ajouté que la fourniture de services de moteurs de recherche d'IA sans avoir obtenu l'autorisation d'utiliser les articles sources pourrait constituer une violation de la loi antimonopole.

    Dans un rapport publié à l'automne dernier, la Japan Fair Trade Commission a laissé entendre que les entreprises exploitant des moteurs de recherche, qui servent de passerelles vers les sites d'information, pourraient occuper une position dominante par rapport aux entreprises de médias, et a averti que si les frais d'utilisation des articles étaient très faibles, cela poserait un problème au regard de la loi.

    Un porte-parole de Google a déclaré que ses services de recherche en intelligence artificielle respectaient les lois, notamment la loi japonaise sur le droit d'auteur. « Les services de Google permettent d'accéder à des informations de haute qualité et nous avons établi des relations de coopération à long terme avec les organismes de presse japonais », a déclaré le porte-parole.

    Source : Association japonaise des éditeurs et rédacteurs de journaux

    Et vous ?

    Pensez-vous que cette plainte est crédible ou pertinente ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    Le New York Times poursuit OpenAI et Microsoft pour violation des droits d'auteur, affirmant que des "millions d'articles" ont été utilisés pour former des chatbots

    Les moteurs de recherche devraient-ils rémunérer les éditeurs de presse pour afficher leurs articles ? Un projet adopté par les ambassadeurs de l'UE

    Huit éditeurs de presse poursuivent Microsoft et OpenAI pour violation du droit d'auteur lors de l'entraînement de ses modèles d'intelligence artificielle

  5. #105
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 057
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 057
    Points : 209 181
    Points
    209 181
    Par défaut De nombreux sites restreignent l'utilisation de leurs données pour empêcher la formation de modèles d'IA
    De nombreux sites restreignent l'utilisation de leurs données pour empêcher la formation de modèles d'IA, selon une étude.
    La « crise émergente du consentement » pourrait constituer une menace pour les entreprises d'IA

    Au cours de l'année dernière, de nombreuses sources web essentielles utilisées pour former les modèles d’intelligence artificielle (IA) ont restreint l’utilisation de leurs données. Cette tendance a été mise en évidence par une étude du Data Provenance Initiative, un groupe de recherche dirigé par le MIT. L’étude a examiné 14 000 domaines web inclus dans trois ensembles de données d’entraînement couramment utilisés pour l’IA. Elle a révélé une « crise émergente du consentement », car les éditeurs et les plateformes en ligne ont pris des mesures pour empêcher l’extraction de leurs données.

    Pendant des années, les concepteurs de puissants systèmes d'intelligence artificielle ont utilisé d'énormes quantités de textes, d'images et de vidéos tirés de l'internet pour entraîner leurs modèles.

    Désormais, ces données sont en train de se tarir.

    Selon une étude publiée par la Data Provenance Initiative, un groupe de recherche dirigé par le MIT, au cours de l'année écoulée, un grand nombre des principales sources web utilisées pour l'entraînement des modèles d'intelligence artificielle ont restreint l'utilisation de leurs données. L'étude, qui a porté sur 14 000 domaines web inclus dans trois ensembles de données d'entraînement d'IA couramment utilisés, a mis en évidence une « crise émergente du consentement », les éditeurs et les plateformes en ligne ayant pris des mesures pour éviter que leurs données ne soient récoltées.

    Les chercheurs estiment que dans les trois ensembles de données (appelés C4, RefinedWeb et Dolma), 5 % de toutes les données, et 25 % des données provenant des sources de la plus haute qualité, ont été restreintes. Ces restrictions sont mises en place par le biais du protocole d'exclusion des robots, une méthode vieille de plusieurs décennies qui permet aux propriétaires de sites web d'empêcher les robots d'explorer leurs pages à l'aide d'un fichier appelé robots.txt.

    L'étude a également révélé que 45 % des données d'un ensemble, C4, avaient été restreintes par les conditions d'utilisation des sites web.

    Nom : un.png
Affichages : 15519
Taille : 72,7 Ko

    La crise émergente du consentement

    « Nous assistons à un déclin rapide du consentement à l'utilisation des données sur le web, ce qui aura des conséquences non seulement pour les entreprises d'intelligence artificielle, mais aussi pour les chercheurs, les universitaires et les entités non commerciales », a déclaré Shayne Longpre, l'auteur principal de l'étude, dans une interview.

    Les données sont le principal ingrédient des systèmes d'IA générative actuels, qui sont alimentés par des milliards d'exemples de textes, d'images et de vidéos. La plupart de ces données sont extraites de sites web publics par des chercheurs et compilées dans de grands ensembles de données, qui peuvent être téléchargés et utilisés librement, ou complétés par des données provenant d'autres sources.

    L'apprentissage à partir de ces données est ce qui permet aux outils d'IA générative tels que ChatGPT d'OpenAI, Gemini de Google et Claude d'Anthropic d'écrire, de coder et de générer des images et des vidéos. Plus ces modèles sont alimentés en données de haute qualité, meilleurs sont leurs résultats.

    Pendant des années, les développeurs d'IA ont pu collecter des données assez facilement. Mais le boom de l'IA générative de ces dernières années a provoqué des tensions avec les propriétaires de ces données, dont beaucoup ont des réticences à être utilisés pour l'entraînement de l'I.A. ou, du moins, veulent être payés pour cela.

    Face à la levée de boucliers, certains éditeurs ont mis en place des paywall ou modifié leurs conditions de service pour limiter l'utilisation de leurs données à des fins de formation de l'IA. D'autres ont bloqué les robots d'exploration du web, qui ne sont plus autorisés à utiliser leurs données à des fins de formation. D'autres ont bloqué les robots d'exploration du web utilisés par des sociétés comme OpenAI, Anthropic et Google.

    Plusieurs sites ont commencé à faire payer l'accès aux données aux entreprises d'IA, et quelques éditeurs ont intenté des actions en justice, notamment le New York Times, qui a poursuivi OpenAI et Microsoft pour violation des droits d'auteur l'année dernière, alléguant que les entreprises avaient utilisé des articles d'actualité pour entraîner leurs modèles sans autorisation.

    Ces dernières années, des entreprises comme OpenAI, Google et Meta ont déployé des efforts considérables pour recueillir davantage de données afin d'améliorer leurs systèmes, notamment en transcrivant des vidéos sur YouTube et en faisant des entorses à leurs propres politiques en matière de données.

    Plus récemment, certaines entreprises d'IA ont conclu des accords avec des éditeurs tels que l'Associated Press et News Corp, le propriétaire du Wall Street Journal, leur donnant un accès permanent à leur contenu.

    Nom : deux.png
Affichages : 2640
Taille : 68,7 Ko

    Les conséquences pour l’IA

    Les restrictions généralisées en matière de données peuvent constituer une menace pour les entreprises d'IA, qui ont besoin d'un approvisionnement régulier en données de haute qualité pour maintenir leurs modèles frais et à jour.

    Elles pourraient également poser problème aux petites entreprises d'IA et aux chercheurs universitaires qui s'appuient sur des ensembles de données publiques et n'ont pas les moyens d'obtenir des licences directement auprès des éditeurs. Common Crawl, l'un de ces ensembles de données qui comprend des milliards de pages de contenu web et qui est géré par une organisation à but non lucratif, a été cité dans plus de 10 000 études universitaires, a déclaré Longpre.

    On ne sait pas exactement quels produits d'IA populaires ont été formés à partir de ces sources, car peu de développeurs divulguent la liste complète des données qu'ils utilisent. Mais les ensembles de données dérivés de Common Crawl, y compris C4 (qui signifie Colossal, Cleaned Crawled Corpus) ont été utilisés par des entreprises telles que Google et OpenAI pour entraîner les versions précédentes de leurs modèles.

    Yacine Jernite, chercheur en apprentissage automatique chez Hugging Face, une société qui fournit des outils et des données aux développeurs d'IA, a décrit la crise du consentement comme une réponse naturelle aux pratiques agressives de l'industrie de l'IA en matière de collecte de données. « Il n'est pas surprenant que les créateurs de données se rebiffent après que les textes, les images et les vidéos qu'ils ont partagés en ligne ont été utilisés pour développer des systèmes commerciaux qui menacent parfois directement leurs moyens de subsistance », a-t-il déclaré.

    Il a toutefois mis en garde contre le fait que si toutes les données de formation à l'IA devaient être obtenues par le biais d'accords de licence, cela exclurait « les chercheurs et la société civile de la participation à la gouvernance de la technologie ».

    Stella Biderman, directrice exécutive d'EleutherAI, une organisation à but non lucratif spécialisée dans la recherche sur l'IA, s'est fait l'écho de ces craintes. « Les grandes entreprises technologiques possèdent déjà toutes les données », a-t-elle déclaré. « Changer la licence sur les données ne révoque pas rétroactivement cette permission, et l'impact principal est sur les acteurs qui arrivent plus tard, qui sont typiquement soit des start-ups plus petites, soit des chercheurs ».

    Les difficultés rencontrées par les entreprises d'IA et les solutions qu'elles envisagent

    Les entreprises d'IA ont affirmé que leur utilisation des données publiques du web était légalement protégée par le principe de l'usage loyal. Mais la collecte de nouvelles données est devenue plus délicate. Certains dirigeants d'entreprises d'IA craignent de se heurter au « mur des données », terme qui désigne le moment où toutes les données de formation disponibles sur l'internet public ont été épuisées et où le reste a été caché derrière des paywalls, bloqué par des robots.txt ou enfermé dans des accords d'exclusivité.

    Certaines entreprises pensent pouvoir franchir le mur des données en utilisant des données synthétiques (c'est-à-dire des données générées par des systèmes d'intelligence artificielle) pour entraîner leurs modèles. Mais de nombreux chercheurs doutent que les systèmes d'IA actuels soient capables de générer suffisamment de données synthétiques de haute qualité pour remplacer les données créées par l'homme qu'ils perdent.

    Autre difficulté : si les éditeurs peuvent tenter d'empêcher les entreprises d'IA de récupérer leurs données en plaçant des restrictions dans leurs fichiers robots.txt, ces demandes ne sont pas juridiquement contraignantes et la conformité est volontaire. (Il s'agit en quelque sorte d'un panneau d'interdiction d'accès aux données, mais qui n'a pas force de loi).

    Les principaux moteurs de recherche respectent ces demandes d'exclusion et plusieurs grandes entreprises d'IA, dont OpenAI et Anthropic, ont déclaré publiquement qu'elles les respectaient également. Mais d'autres entreprises, dont le moteur de recherche Perplexity, alimenté par l'IA, ont été accusées de les ignorer. Le directeur général de Perplexity, Aravind Srinivas, a déclaré que l'entreprise respectait les restrictions imposées par les éditeurs en matière de données. Il a ajouté que, bien que la société ait déjà travaillé avec des robots d'indexation tiers qui ne respectaient pas toujours le protocole d'exclusion des robots, elle avait « procédé à des ajustements avec nos fournisseurs pour s'assurer qu'ils respectent le protocole robots.txt lorsqu'ils effectuent des indexations pour le compte de Perplexity ».

    Source : Le consentement en crise : le déclin rapide des données communes sur l'IA

    Et vous ?

    Quelle est la responsabilité des entreprises et des chercheurs dans la préservation des données utilisées pour l’entraînement des modèles d’IA ?
    Comment pouvons-nous garantir un accès éthique et responsable aux données tout en respectant les droits des propriétaires de ces informations ?
    Quels sont les risques potentiels si nous ne parvenons pas à résoudre cette crise émergente du consentement ?
    Pensez-vous que les gouvernements devraient jouer un rôle plus actif dans la régulation de l’accès aux données pour l’IA ? Pourquoi ou pourquoi pas ?
    Images attachées Images attachées

  6. #106
    Chroniqueur Actualités

    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Juin 2023
    Messages
    975
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Bénin

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2023
    Messages : 975
    Points : 17 355
    Points
    17 355
    Par défaut Eric Schmidt estime qu'il n'y a pas de mal à ce que les entreprises spécialisées dans l'IA volent des contenus
    L'ancien PDG de Google estime qu'il n'y a pas de mal à ce que les entreprises spécialisées dans l'IA volent des contenus
    « vous pourrez nettoyer le gâchis plus tard avec de l'argent et une armée d'avocats »

    Eric Schmidt, ancien PDG de Google, encourage sans scrupule les startups spécialisées dans l'IA à voler tous les contenus dont elles ont besoin pour atteindre leurs objectifs. L'homme d'affaires conseille aux startups d'IA de ne pas se soucier des retombées et dit qu'il y a deux issues possibles. Si vous réussissez, vous gagnerez beaucoup d'argent afin d'embaucher un peloton d'avocats pour nettoyer le gâchis. En revanche, il pense que le fait que vous ayez volé du contenu n'aura pas d'importance si vous échouez. Ses propos ont suscité des préoccupations majeures l'éthique des données dans les entreprises tels que Google et OpenAI.

    Eric Schmidt : volez ce dont vous avez besoin et laissez vos avocats réparer les dégâts

    Eric Schmidt a récemment participé à une conférence à l'université de Stanford, où il a parlé de l'avenir de l'IA et s'est lancé dans une diatribe contre le télétravail, sur laquelle il est revenu par la suite. Lors de la conférence, l'ancien PDG de Google a pris ses aises et a fait de nombreuses déclarations préoccupantes, tout en donnant des conseils douteux aux étudiants et aux startups spécialisées dans l'IA. La chose la plus surprenante que Schmidt ait dite lors de son intervention est que "les startups d'IA peuvent voler les données dont elles ont besoin pour entraîner leurs modèles d'IA", sans avoir peur des retombées.


    Schmidt a déclaré à l'assemblée : « il n'y a pas de mal à voler du contenu si l'on réussit, car il suffit d'engager des avocats pour réparer les dégâts. Si personne n'utilise votre produit, le fait que vous ayez volé tout le contenu n'a pas d'importance ». Ayant dirigé Google de 2001 à 2011, Schmidt sait très bien ce que c'est que de devoir faire appel à une armée d'avocats pour réparer les dégâts. YouTube s'est développé à ses débuts grâce à des vidéos dont il n'avait pas les droits.

    On pourrait dire que l'activité de Google Search elle-même s'est d'abord construite en accélérant le système juridique. Schmidt a tenu ces propos pendant qu'il exposait "un scénario théorique" dans lequel les étudiants présents dans la salle pourraient utiliser un grand modèle de langage (LLM) pour créer un concurrent de TikTok, dans le cas où la plateforme serait interdite aux États-Unis. Il a reconnu que le scénario pouvait être criblé de questions juridiques et éthiques.

    Citation Envoyé par Eric Schmidt

    Voici ce que je propose à chacun d'entre vous. Dites à votre LLM ce qui suit : « faites-moi une copie de TikTok, volez tous les utilisateurs, volez toute la musique, mettez-y mes préférences, produisez ce programme dans les 30 prochaines secondes, publiez-le et dans une heure, s'il n'est pas viral, faites quelque chose d'autre dans la même veine ». C'est la commande.

    Et ce que vous feriez si vous étiez un entrepreneur de la Silicon Valley, c'est que si cela décollait, vous embaucheriez tout un tas d'avocats pour réparer les dégâts, n'est-ce pas ? Si personne n'utilise votre produit, le fait que vous ayez volé tout le contenu n'a pas d'importance. Ne me citez pas. Oups !
    À un moment donné, il a tenté de se rattraper en déclarant qu'il n'affirmait pas qu'il fallait voler illégalement la musique de tout le monde, bien qu'il ait conseillé aux étudiants, quelques instants plus tôt, de faire exactement la même chose. À bien des égards, les propos de l'ancien PDG de Google résument parfaitement l'attitude générale de l'industrie de l'IA à l'égard des contenus publiés en ligne et des produits d'autrui. OpenAI, Anthropic et bien d'autres sont tous concernés.

    Cela fait des années que les entreprises récupèrent des contenus produits par des humains pour entraîner leurs modèles d'IA toujours plus gourmands. Et tandis que certaines entités, comme le New York Times, dénoncent les atteintes au droit d'auteur, Schmidt considère apparemment le vol présumé de propriété intellectuelle comme un « gâchis » que les avocats devront nettoyer plus tard. « La Silicon Valley effectuera ces tests et nettoiera le désordre », a déclaré Schmidt.

    « Et c'est typiquement comme cela que ces choses sont faites », a-t-il ajouté, selon une transcription de l'événement. Il est revenu sur nombre de ses déclarations lors de l'événement et la vidéo a depuis été retirée du site après avoir fait l'objet de nombreuses critiques et d'une couverture médiatique très négative.

    La capacité de la technologie à devenir rapidement et extrêmement rentable semble avoir dépassé de loin le système judiciaire et ce que n'importe quel procès peut être utilisé contre eux. Il en va de même pour tous les mastodontes de l'industrie pour lesquels les amendes sont comparables une petite tape sur les doigts.

    L'IA déclenche une avalanche de poursuites pour violation de la propriété intellectuelle

    Google n'est pas le seul dans ce cas. Les entreprises les plus influentes de la Silicon Valley ont adopté la même stratégie. À quelques exceptions près, elles ont décidé très tôt qu'il valait mieux demander le pardon que la permission. Lorsque les amendes devaient être payées, l'argent avait déjà été gagné. L'histoire se répète, et les entreprises d'IA les plus en vue, telles qu'OpenAI et Anthropic, suivent le même schéma, avec le soutien de dirigeants de la vieille garde comme Schmidt. Lors de la conférence à l'université de Stanford, Schmidt a déclaré que Sam Altman, PDG d'OpenAI, figure parmi ses amis très proches.

    Selon les analystes, de nombreux dirigeants partagent le point de vue de Schmidt. Ils considèrent que l'argent et le pouvoir qui se profilent à l'horizon suffisent amplement à faire face aux dégâts causés en chemin. Ainsi, le développement de l'IA repose actuellement sur des données collectées à partir du travail des créateurs de contenu sans leur consentement ni un paiement. Cela a fonctionné pour Google, alors pourquoi cela ne fonctionnerait-il pas pour eux ?

    Pourtant, une stratégie similaire a également mis certaines entreprises d'IA dans l'eau chaude. En décembre, le New York Times a intenté un procès à OpenAI et à Microsoft pour violation des droits d'auteur, alléguant que les deux entreprises ont formé leur IA sur des millions de ses articles. En avril, huit autres éditeurs de presse ont poursuivi OpenAI pour avoir prétendument utilisé leurs articles de presse protégés par des droits d'auteur sans autorisation ni paiement.

    Schmidt a occupé plusieurs postes au sein de Google, dont celui de PDG pendant dix ans, au cours desquels il a dirigé l'entreprise lors du lancement de Chrome et de Gmail, de l'acquisition de YouTube et de son introduction en bourse en 2004. Schmidt, dont la valeur nette est estimée aujourd'hui à environ 31 milliards de dollars selon l'indice Bloomberg Billionaires, est un investisseur important, notamment dans des entreprises d'IA telles que Mistral AI, basée en France.

    OpenAI a reconnu qu'il est impossible de créer des outils comme ChatGPT sans s’appuyer sur des contenus protégés par le droit d'auteur. Et alors que la course à l'IA s'intensifie, les éditeurs de journaux et autres propriétaires de données exigent une part du marché potentiellement gigantesque de l'IA générative, qui devrait atteindre 1300 millions de dollars d'ici à 2032. De nombreux rapports suggèrent que l'IA pourrait changer à jamais l'édition et le journalisme.

    C'est la raison pour laquelle les éditeurs exigent une protection contre l'IA et une partie du butin que l'IA va générer, mais les contrats proposés aux éditeurs sont critiqués. OpenAI a signé des accords avec The Atlantic et Vox Media pour utiliser leur contenu afin de perfectionner ses modèles de langage, ce qui a surpris et inquiété les journalistes et leurs syndicats. Ils déplorent le manque de transparence de ces accords et craignent des impacts négatifs sur leur travail.

    Perplexity AI, qui propose un moteur de recherche basé sur l'IA, est également au beau milieu d'un scandale de vol de données. Le moteur de recherche ignore le standard largement utilisé sur le Web depuis des décennies, appelé "Robots Exclusion Protocol" (protocole d'exclusion des robots - robots.txt), pour explorer subrepticement des zones de sites Web auxquels les opérateurs ne veulent pas que les robots d'indexation accèdent. Ce qui suscite des préoccupations majeures.

    Une étude a révélé le mois dernier que Salesforce, Apple, Anthropic et d'autres ont formé leurs modèles d'IA sur des vidéos YouTube sans le consentement des créateurs. Ils se sont appuyés sur l'ensemble de données The Pile, compilé à partir de plus de 170 000 vidéos, dont des vidéos de vidéastes populaires tels que MKBHD, MrBeast et Jimmy Kimmel. Les experts affirment que ce comportement viole les droits des créateurs et les conditions d'utilisation de YouTube.

    Mais les entreprises semblent prêtes à tout pour glaner des données indispensables à la formation de leurs modèles d'IA, à un moment où les sources de données se tarissent. L'IA bouleverse la propriétaire intellectuelle et pose d'autres défis. Il sera intéressant de voir comment ces questions seront traitées à l'avenir.

    Et vous ?

    Quel est votre avis sur le sujet ?
    Que pensez-vous des propos de l'ancien PDG de Google sur le vol des données pour former l'IA ?
    Que pensez-vous de la philosophie « aller vite et casser les choses » des entreprises de la Silicon Valley ?
    Pensez-vous que l'éthique des données sur laquelle se base l'industrie devrait s'appliquer aux IA ?
    Quels impacts l'IA pourrait-elle avoir sur l'éthique des données et la propriétaire intellectuelle à l'avenir ?

    Voir aussi

    « Il est impossible de créer des outils comme ChatGPT sans contenus sous copyright », selon OpenAI qui suscite des réactions dont celles de fermer le service ou de l'amener à rémunérer les auteurs

    OpenAI conteste les affirmations des auteurs selon lesquelles chaque réponse de ChatGPT est une œuvre dérivée, l'entreprise affirme que ces plaintes sont irrecevables et demande leur rejet

    OpenAI et les médias : des accords de contenu dans l'ombre inquiètent les journalistes qui déplorent le manque de transparence et craignent des impacts négatifs sur leur travail

  7. #107
    Chroniqueur Actualités
    Avatar de Anthony
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Novembre 2022
    Messages
    1 301
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Rédacteur technique

    Informations forums :
    Inscription : Novembre 2022
    Messages : 1 301
    Points : 21 443
    Points
    21 443
    Par défaut Meta fait l'objet d'un nouveau recours collectif pour avoir volé des "centaines de milliers" de livres piratés
    Meta fait l'objet d'un nouveau recours collectif en matière de droits d'auteur pour avoir prétendument volé des "centaines de milliers" de livres piratés sous copyright, afin d'entraîner ses modèles d'IA Llama

    La société mère de Facebook, Meta Platforms Inc., est la dernière cible d'un litige visant les entreprises du secteur des grandes technologies qui utiliseraient des livres protégés par des droits d'auteur pour entraîner leurs modèles d'intelligence artificielle (IA) sans le consentement des auteurs. En effet, Meta fait actuellement l'objet d'une action collective devant le tribunal fédéral de Californie, l'accusant d'avoir volé des centaines de milliers de livres protégés par des droits d'auteur pour entraîner sa famille de grands modèles de langage (LLM) Llama. Selon la plainte en recours collectif, la société aurait téléchargé et copié près de 200 000 ouvrages à partir d'une collection de livres piratés.

    En septembre 2024, Meta a annoncé Llama 3.2, la dernière mise à jour de sa famille de LLM Llama visant à révolutionner l'IA et la vision grâce à des modèles ouverts et personnalisables. Les modèles légers 1B et 3B de Llama 3.2 peuvent être exécutés localement sur les appareils, préservant ainsi la confidentialité en évitant la transmission des données vers le cloud. Les modèles de vision 11B et 90B de Llama 3.2 remplacent quant à elles aisément les modèles textuels de taille équivalente et surpassent les modèles fermés dans les tâches de compréhension d'images. Cette mise à jour apporte également le framework Llama Stack qui simplifie le travail des développeurs dans divers environnements, avec des distributions pour single-node, on-prem, cloud et on-device.

    La récente action en justice pour violation du droit d'auteur n'est pas une première pour Meta. En 2023, l'entreprise avait déjà été poursuivie par un groupe d'auteurs pour des motifs similaires. La plainte déposée par la comédienne Sarah Silverman, le lauréat du prix Pulitzer Michael Chabon et d'autres auteurs de renom, consolide ainsi deux actions en justice intentées contre le propriétaire de Facebook et d'Instagram, qui allèguent que Meta a utilisé illégalement des livres protégés par le droit d'auteur pour l'entraînement de son IA, et ce malgré les avertissements de ses propres avocats. En effet, les avocats de Meta Platforms avaient prévenu l'entreprise des dangers juridiques liés à l'utilisation de milliers de livres piratés pour entraîner les modèles d'IA, mais Meta l'a quand même fait, précisait un dépôt dans le procès pour violation du droit d'auteur initialement intenté vers l'été 2023.


    Nouveau rebondissement dans cette affaire, ce mardi 1er octobre 2024, Lieff Cabraser Heimann & Bernstein et Cowan, DeBaets, Abrahams & Sheppard ont déposé une action collective au nom du plaignant principal Christopher Farnsworth, auteur de la série de fiction « Nathaniel Cade », contre Meta, affirmant que cette société a volé des « centaines de milliers » de livres protégés par le droit d'auteur à partir d'une collection en ligne piratée pour construire « Llama », son grand ensemble de modèles de langage. La plainte, déposée auprès du tribunal de district des États-Unis pour le district nord de la Californie à San Jose, allègue une violation des droits d'auteur en vertu de l'article 501 du code des États-Unis (17 U.S.C.). L'avocat du défendeur ne s'est pas encore manifesté.

    Meta a d'abord lancé sa famille phare de LLM, alors stylisée comme LLaMA, en février 2023 dans la course aux Big Tech pour concurrencer les débuts du chatbot d'IA générative révolutionnaire d'OpenAI, ChatGPT, en novembre 2022. Meta a publié « Llama 2 » pour un usage commercial en juillet 2023 et sa dernière itération, “Llama 3”, pour construire son assistant d'IA “Meta AI”, le 18 avril 2024.

    Selon la plainte, Meta a téléchargé et copié près de 200 000 livres protégés par le droit d'auteur à partir de « Books3 », une bibliothèque d'œuvres protégées par le droit d'auteur que le développeur Shawn Presser a récupérée sur le site Web de livres piratés Bibliotik. Books3 fait partie de « The Pile », un ensemble de données en ligne à source ouverte hébergé par l'organisation à but non lucratif EleutherAI, qui a été spécialement conçu pour former les LLM. Les LLM sont conditionnés pour simuler la communication humaine en ingérant et en traitant des quantités massives de données qui leur « apprennent » effectivement à générer des réponses écrites prédictives. La plainte affirme que Meta a révélé publiquement qu'il utilisait les données de Books3 pour former ses LLM dans un document de recherche datant de février 2023.

    Ces plateformes fonctionnent selon le principe « move fast and break things and pay for it later », a déclaré Mike Palmisciano, partenaire de Sullivan & Worcester, spécialisé dans les questions transactionnelles de propriété intellectuelle. « Développons ces produits, devenons en quelque sorte essentiels sur le marché, puis réfléchissons à la suite à donner à l'affaire ».

    Ce n'est pas la première fois que Meta est accusée d'avoir volé des documents protégés par le droit d'auteur à Books3 à des fins d'entraînement à l'IA. En juillet 2023, une coalition d'écrivains, dont la comédienne Sarah Silverman, a poursuivi Meta et OpenAI devant le tribunal fédéral de Californie pour des motifs similaires de violation des droits d'auteur. L'Associated Press a rapporté le 27 septembre que le PDG de Meta, Mark Zuckerberg, sera entendu dans le cadre de l'action collective intentée contre Meta.

    Lieff Cabraser, en collaboration avec Susman Godfrey, représente également les plaignants dans un recours collectif déposé en août qui accuse la startup d'IA Anthropic d'avoir détourné les textes de Books3 pour former sa propre collection de LLM, « Claude ».

    Selon Mike Palmisciano, ces types de plaintes pour violation du droit d'auteur continueront à se multiplier jusqu'à ce qu'une solution réglementaire ou une décision de justice « définisse les lignes directrices de ce qui est autorisé dans le contexte de l'IA ».

    « Je pense que l'argument de l'utilisation équitable avancé par la défense est difficile à concilier avec des décennies de jurisprudence sur l'utilisation équitable du droit d'auteur », a-t-il déclaré. « Cela dit, je suppose qu'à un moment donné, la Cour suprême se prononcera sur ce qui constitue un usage loyal dans le contexte de l'IA et sur la question de savoir si ce type d'ingestion de grands ensembles de données est transformateur d'une manière qui protège les fournisseurs ».

    Jusqu'à ce que la Cour suprême se prononce sur la question de l'usage loyal, Mike Palmisciano prédit que les entreprises visées par le litige continueront à conclure des règlements ponctuels et des accords monétaires.

    « Il semble que c'est à cela que sont destinés les premiers financements de plateformes telles qu'OpenAI », a-t-il déclaré. « Elles développent leur technologie, bien sûr, mais elles concluent également des accords de licence très coûteux et étendus pour le contenu qu'elles ont déjà intégré dans leur plateforme. »

    Source : Plainte en recours collectif contre Meta

    Et vous ?

    Quelle lecture faites-vous de cette situation ?
    Pensez-vous que l'action en justice menée par les auteurs contre Meta est pertinente et justifiée ?
    Selon vous, jusqu'à quel point les entreprises comme Meta devraient-elles être responsables de la vérification de la provenance légale des données utilisées pour former leurs modèles d'IA ?
    Pensez-vous que les règlements à venir sur l'utilisation équitable des données pour les modèles d'IA devraient être plus stricts ou plus souples ?

    Voir aussi :

    Meta annonce Llama 3.2 qui révolutionnerait l'IA et la vision grâce à des modèles ouverts et personnalisables, Llama 3.2 comprend des modèles légers qui s'exécutent localement sur l'appareil

    Meta a utilisé des livres protégés par le droit d'auteur pour l'entraînement de l'IA malgré les avertissements de ses propres avocats, selon une nouvelle plainte des auteurs

    OpenAI et Meta accusés d'avoir utilisé les œuvres de Sarah Silverman et de deux auteurs sans leur consentement, comme données d'entraînements de leurs IA. Les plaintes de ce type se multiplient
    Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  8. #108
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 057
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 057
    Points : 209 181
    Points
    209 181
    Par défaut OpenAI et Microsoft vont injecter 10 Mns $ pour subventionner le journalisme basé sur l'IA
    OpenAI et Microsoft vont injecter 10 millions de dollars pour subventionner le journalisme basé sur l'IA,
    en soutenant les rédactions dans l'adoption des technologies IA pour la collecte et la distribution de l'information

    OpenAI et Microsoft ont récemment annoncé un projet visant à injecter 10 millions de dollars de subventions pour favoriser le développement du journalisme alimenté par l'intelligence artificielle (IA). Cette initiative a pour objectif de transformer le paysage médiatique en favorisant l'innovation et en soutenant les rédactions dans l'adoption des technologies IA pour la collecte et la distribution de l'information. Le financement est destiné à soutenir divers projets, allant de l'expérimentation de nouvelles méthodes de reportage avec l'IA, à l'analyse avancée de données, en passant par la personnalisation du contenu.

    OpenAI et Microsoft financent des projets visant à introduire davantage d'outils d'IA dans les salles de rédaction. Le duo accordera des subventions allant jusqu'à 10 millions de dollars à Chicago Public Media, au Minnesota Star Tribune, à Newsday (Long Island, NY), au Philadelphia Inquirer et au Seattle Times. Chacune de ces publications embauchera pour deux ans un spécialiste de l'IA chargé d'élaborer des projets de mise en œuvre de la technologie et d'amélioration de la viabilité de l'entreprise. Trois autres médias devraient recevoir des bourses lors d'une deuxième phase.

    OpenAI et Microsoft apportent chacun 2,5 millions de dollars en financement direct, ainsi que 2,5 millions de dollars en logiciels et en crédits d'entreprise. Le Lenfest Institute of Journalism collabore avec OpenAI et Microsoft sur le projet et a annoncé la nouvelle.

    La bourse fournira également des crédits OpenAI et Microsoft Azure pour aider ces publications à expérimenter et à développer des outils d'aide à l'information locale. Dans le cadre du programme, les organismes de presse travailleront en collaboration les uns avec les autres et avec l'ensemble de l'industrie de l'information afin de partager les orientations, les développements de produits, les études de cas et les informations techniques nécessaires pour aider à reproduire leur travail dans d'autres salles de rédaction. Trois autres organismes se verront attribuer des bourses dans le cadre d'une deuxième série de subventions. 

    « Nous sommes heureux de collaborer avec OpenAI et Microsoft dans le cadre de cette importante initiative visant à soutenir l'information locale », a déclaré Jim Friedlich, directeur exécutif et chef de la direction de l'Institut Lenfest. « Grâce à ces bourses - et en partageant les résultats avec l'ensemble de l'industrie de l'information - nous aiderons les rédactions locales à explorer, mettre en œuvre et défendre des solutions commerciales d'IA qui respectent les normes éthiques les plus strictes tout en renforçant leurs perspectives d'avenir. L'Institut Lenfest et OpenAI ont incubé le programme de bourses, qui est conçu pour promouvoir l'utilisation de l'IA dans la création d'un avenir durable pour le journalisme local indépendant, et nous nous félicitons de l'expansion de sa portée et de ses ressources grâce à l'engagement de Microsoft ».  

    Nom : open.png
Affichages : 4427
Taille : 153,0 Ko

    Un nouvel élan pour le journalisme

    Les premiers membres de l'AI Collaborative and Fellowship travailleront sur des projets axés sur l'utilisation de l'IA pour l'analyse des données publiques, pour mieux utiliser les archives visuelles et d'actualités, pour renforcer l'engagement du public, pour créer de nouveaux outils et produits d'information basés sur l'IA, et plus encore. Les projets ont été sélectionnés à l'issue d'un processus de candidature mené par l'Institut Lenfest avec l'aide de FT Strategies, un consultant mondial en médias, et de Nota, un fournisseur d'outils d'IA pour le journalisme. 

    « Même si rien ne remplacera le rôle central des journalistes, nous pensons que la technologie de l'IA peut aider à la recherche, à l'investigation, à la distribution et à la monétisation d'un journalisme important. Nous sommes profondément investis dans le soutien aux éditeurs indépendants de plus petite taille par le biais d'initiatives telles que The Lenfest Institute AI Collaborative and Fellowship, en veillant à ce qu'ils aient accès aux mêmes outils et opportunités de pointe que les grandes organisations », a déclaré Tom Rubin, chef de la propriété intellectuelle et du contenu d'OpenAI. « Les informations locales sont un domaine particulièrement vulnérable du journalisme, et nous pensons que l'IA peut l'aider à prospérer. »

    « Nous avons besoin du journalisme local pour informer et éduquer les citoyens, dénoncer les actes répréhensibles et encourager l'engagement civique. Nous travaillerons avec la Lenfest AI Fellowship pour stimuler l'innovation en matière d'IA qui peut aider les organismes de presse à créer de nouveaux produits pour étendre leurs reportages, trouver de nouvelles sources de revenus et, en fin de compte, construire un avenir plus durable », a déclaré Teresa Hutson, vice-présidente de la division Technologie pour les droits fondamentaux chez Microsoft. « Nous espérons que ces organismes de presse seront des phares pour l'industrie, afin de fournir des exemples de la façon dont l'IA peut construire un meilleur avenir pour le secteur de l'information. »

    Pour soutenir le nouveau programme et les ressources du Lenfest Institute AI Collaborative and Fellowship, OpenAI et Microsoft accordent chacun 2,5 millions de dollars en financement direct et 2,5 millions de dollars en logiciels et crédits d'entreprise, pour un total pouvant aller jusqu'à 10 millions de dollars. Le programme pilote de deux ans est mené en partenariat avec la Local Independent News Coalition (LINC) de l'Institut Lenfest, un groupe de huit des plus grandes organisations de presse métropolitaines indépendantes des États-Unis. 

    Par ailleurs, OpenAI a engagé Aaron Chatterji comme premier économiste en chef. Chatterji est professeur à la Fuqua School of Business de l'université Duke. Il a également fait partie du Conseil des conseillers économiques du président Barack Obama et du département du commerce du président Joe Biden.

    Une initiative loin d'être exempte de critiques

    L'introduction de l'IA dans le journalisme suscite des inquiétudes quant à la déshumanisation de la profession. Les critiques soulignent que l'IA, bien qu'efficace pour traiter et analyser des données à grande échelle, manque de la nuance et du jugement humain nécessaires pour interpréter les événements complexes et sensibles.

    De plus, il existe une préoccupation concernant la dépendance accrue des rédactions envers les technologies fournies par de grandes entreprises technologiques. Cette dépendance pourrait potentiellement mener à un manque de diversité dans les perspectives médiatiques, car les outils et algorithmes de l'IA sont souvent conçus par un nombre limité de développeurs.

    À ce jour, les liens entre le journalisme et l'IA vont de la suspicion au litige. OpenAI et Microsoft ont été poursuivis en justice par le Center for Investigative Reporting, le New York Times, The Intercept, Raw Story et AlterNet. Certaines publications ont accusé ChatGPT d'avoir plagié leurs articles, tandis que d'autres procès portaient sur l'utilisation de contenus web pour l'entraînement de modèles d'IA sans autorisation ni compensation. D'autres médias ont choisi de négocier ; Condé Nast a été l'un des derniers à conclure un accord avec OpenAI pour les droits sur leur contenu.


    OpenAI et les médias : des accords de contenu dans l'ombre inquiètent les journalistes qui déplorent le manque de transparence

    Le 29 mai, Axios a annoncé que The Atlantic et Vox Media ont conclu des accords avec OpenAI, permettant à la société d'utiliser sous licence leur contenu éditorial pour améliorer ses modèles de langage, dont ChatGPT. Ces accords renforcent OpenAI en lui fournissant des contenus pour entraîner ses algorithmes et chatbots, tout en la protégeant contre les responsabilités liées aux droits d'auteur. Les partenariats permettent à OpenAI d'utiliser les contenus archivés et actuels de The Atlantic et de Vox Media, en citant les sources et en incluant des liens vers les articles des éditeurs lorsqu'ils sont mentionnés dans les réponses générées par ChatGPT.

    Les accords signés par OpenAI avec The Atlantic et Vox Media pour utiliser leur contenu afin de perfectionner ses modèles de langage ont suscité des réactions diverses parmi les journalistes et leurs syndicats. Ces derniers déplorent le manque de transparence de ces accords et craignent des impacts négatifs sur leur travail, notamment en ce qui concerne l'intégrité éditoriale et les implications éthiques et environnementales de l'IA. De plus, ils s'inquiètent des conséquences potentielles de ces partenariats sur le trafic et les revenus des éditeurs.

    Le manque de consultation des rédacteurs, comme l'a exprimé la journaliste de Vox Kelsey Piper, souligne une fracture entre la direction et les employés sur des décisions stratégiques majeures. Elle a déclaré sur X : « Je suis très frustrée qu'ils aient annoncé cela sans consulter leurs rédacteurs, mais j'ai reçu des assurances écrites de notre rédacteur en chef qu'ils veulent plus de reportages comme ceux des deux dernières semaines et qu'ils n'interviendront jamais dans ces reportages. Si c'est faux, je démissionnerai ».

    Les accords, bien que potentiellement bénéfiques pour la technologie de l'IA, suscitent des inquiétudes concernant la pérennité des emplois journalistiques et la qualité de l'information produite. D'un côté, certains estiment que l'automatisation pourrait libérer les travailleurs des tâches répétitives et pénibles, permettant ainsi une réinvention du travail et de l'économie. D'autres, cependant, perçoivent ces évolutions comme une menace directe pour les emplois existants, en particulier dans le journalisme, où l'IA pourrait remplacer les rédacteurs pour certaines tâches sans garantir la même profondeur et nuance dans le traitement des informations.

    Les journalistes de Vox, qui avaient des attentes spécifiques concernant l'utilisation de leur travail, se sentent trahis par les changements unilatéraux imposés par la direction. Cette situation souligne l'importance de consulter et de renégocier avec les employés lorsque des modifications substantielles de la nature de leur travail sont envisagées. De plus, les inquiétudes liées à la baisse du trafic des moteurs de recherche vers les éditeurs en raison des chatbots et des produits de recherche génératifs représentent une préoccupation légitime. Cela pourrait non seulement menacer les moyens de subsistance des créateurs de contenu, mais aussi appauvrir la diversité et la richesse de l'Internet.

    Sources : Lenfest Institute, OpenAI signe un partenariat avec Condé Nast

    Et vous ?

    Que pensez-vous de la collaboration entre Microsoft et OpenAI avec la presse ? Véritable volonté de trouver des solutions ou tentative visant à faire intégrer leurs produits au sein des équipes de rédaction ?
    Quel impact l'IA peut-elle avoir sur l'objectivité et la diversité des perspectives dans les médias ?
    Comment les rédactions peuvent-elles s'assurer que l'IA ne remplace pas le jugement critique journalistique ?
    Quels sont les avantages et les inconvénients potentiels de l'utilisation de l'IA dans le journalisme pour le public ?
    Pensez-vous que la dépendance accrue des rédactions envers les grandes entreprises technologiques est une bonne chose ?

    Voir aussi :

    Wordfreq : « l'IA générative a pollué les données ». Le projet qui analyse l'évolution de l'utilisation des mots dans plus de 40 langues s'arrête à cause de la prolifération des textes générés par IA
    L'éditeur de revues académiques Wiley ferme 19 revues scientifiques et retire plus 11 000 articles douteux dont plusieurs ont été générés par IA. Comment les algorithmes ont contribué à la fraude scientifique
    La prolifération des articles scientifiques falsifiés générés par IA de type GPT sur Google Scholar : une menace croissante pour l'intégrité de la recherche académique. Des chercheurs mettent en garde
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  9. #109
    Membre confirmé
    Homme Profil pro
    autre
    Inscrit en
    Juin 2014
    Messages
    183
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Aveyron (Midi Pyrénées)

    Informations professionnelles :
    Activité : autre

    Informations forums :
    Inscription : Juin 2014
    Messages : 183
    Points : 631
    Points
    631
    Par défaut
    Youpi

  10. #110
    Membre émérite
    Homme Profil pro
    Expertise comptable
    Inscrit en
    Décembre 2019
    Messages
    782
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Expertise comptable
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Décembre 2019
    Messages : 782
    Points : 2 774
    Points
    2 774
    Par défaut
    Vu le niveau du journalisme actuel autant abdiquer et refiler la rédaction des infomercial à l'IA. On verra alors le retour du journalisme artisanal qui cherche juste la vérité plutôt que la complaisance avec les pouvoirs en place...

  11. #111
    Chroniqueur Actualités

    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Juin 2023
    Messages
    975
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Bénin

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2023
    Messages : 975
    Points : 17 355
    Points
    17 355
    Par défaut Un juge rejette une plainte déposée par des éditeurs contre OpenAI pour violation du droit d'auteur
    Un juge rejette une plainte déposée par des éditeurs contre OpenAI pour violation du droit d'auteur
    le juge estime qu'il n'y a pas de preuve que le scraping d'OpenAI leur a causé un préjudice réel

    Une plainte déposée par les éditeurs Raw Story et AltNet contre OpenAI pour violation de droit d'auteur vient d'être rejetée par un juge américain. Elle allègue qu'OpenAI a illégalement supprimé les informations de gestion des droits d'auteur lors de la construction d'ensembles de données pour la formation de ses modèles d'IA. Raw Story et AltNet ont ajouté que les pratiques d'OpenAI ont entraîné un « préjudice concret ». Toutefois, le juge a estimé que les plaignants n'ont pas pu démontrer qu'ils avaient subi un préjudice concret et réel du fait des actions d'OpenAI. Cela a entraîné le rejet de la plainte, ce qui constitue une victoire pour OpenAI.

    Rappel du contexte de l'action en justice des éditeurs Raw Story et AltNet

    Raw Story et AltNet ont déposé leur plainte en février 2024. Leur action en justice porte sur l'article 1202(b) du DMCA (Digital Millennium Copyright Act), une disposition qui vise à protéger les « informations sur la gestion des droits d'auteur » (copyright management information - CMI). Les informations protégées par l'article 1202(b) du DMCA incluent les noms d'auteurs, les titres et autres métadonnées permettant d'identifier les œuvres protégées par le droit d'auteur.

    Nom : Capture d'écran 2024-11-11 145808.png
Affichages : 4117
Taille : 96,0 Ko

    L'article 1202(b) interdit « la suppression ou la modification de ces informations sans autorisation, en particulier si cela facilite la violation des droits d'auteur ». Dans cette affaire, Raw Story et AlterNet allèguent qu'OpenAI avait utilisé des articles de leurs sites Web pour former ChatGPT et d'autres modèles sans préserver les informations sur la gestion des droits d'auteur, violant ainsi la section 1202(b). OpenAI a rejeté ces allégations et a demandé le rejet de la plainte.

    OpenAI n'est pas la seule entreprise de la course à l'IA susceptible d'avoir récupéré ce type de matériel sur le Web. Les fournisseurs de modèles d'IA ont tendance à garder précieusement leurs ensembles de données d'entraînement. Cependant, l'industrie dans son ensemble a sans aucun doute récupéré de larges pans du Web pour entraîner ses différents modèles. C'est pour cela que certains créateurs considèrent le scraping de données comme le péché originel de l'IA.

    Raw Story et AltNet ont allégué que les réponses générées par les modèles d'OpenAI sont parfois basées sur leurs articles et que l'entreprise a sciemment violé les droits d'auteur en supprimant les informations sur la gestion des droits d'auteur.

    Pourquoi le tribunal a-t-il rejeté les allégations de Raw Story et AltNet ?

    OpenAI a fait valoir que les éditeurs n'ont pas la capacité juridique d'intenter cette action en justice, car ils n'ont pas prouvé que ChatGPT avait été formé sur leur matériel, et encore moins que la formation était préjudiciable. La juge Colleen McMahon a accepté la requête d'OpenAI visant à rejeter l'affaire pour « défaut de qualité à agir ». Elle a déclaré que les plaignants n'ont pas pu démontrer qu'ils avaient subi un préjudice concret et réel du fait des actions d'OpenAI.

    « Nous construisons nos modèles d'IA en utilisant des données accessibles au public, d'une manière protégée par l'utilisation équitable et les principes connexes, et soutenus par des précédents juridiques de longue date et largement acceptés », explique Jason Deutrom, porte-parole d'OpenAI. Il s'agit d'un argument utilisé par l'ensemble des entreprises engagées dans la course à l'IA, mais il est largement critiqué dans l'industrie et de nombreux procès ont été intentés.

    En outre, la juge Colleen McMahon s'est aussi penchée sur l'évolution du paysage des interfaces des grands modèles de langage (LLM), notant que les mises à jour de ces systèmes compliquent encore davantage l'attribution et la traçabilité. Colleen McMahon a souligné notamment que « les améliorations itératives de l'IA générative rendent moins probable la reproduction du contenu mot à mot », ce qui rend les revendications des plaignants encore plus spéculatives.

    Elle affirme : « la probabilité que ChatGPT produise un contenu plagié à partir de l'un des articles des plaignants semble faible ». Cela reflète une difficulté majeure dans ce type d'affaires : l'IA générative est conçue pour synthétiser des informations plutôt que de les reproduire mot pour mot. Les plaignants n'ont pas présenté des preuves convaincantes que leurs œuvres spécifiques ont été directement contrefaites d'une manière qui a conduit à un préjudice identifiable.

    La charge de la preuve qui pèse sur les plaignants est très importante

    Cette décision s'inscrit dans la lignée d'affaires similaires dans lesquelles les tribunaux ont eu du mal à appliquer la loi traditionnelle sur le droit d'auteur à l'IA générative. Par exemple, l'affaire Doe 1 v. GitHub concernant GitHub Copilot portait également sur des réclamations au titre de l'article 1202(b) du DMCA. Dans cette affaire, un tribunal a estimé que le code généré par Copilot n'est pas une « copie identique » de l'original, mais plutôt des bribes reconfigurées.

    Cela était donc difficile de prouver la violation des exigences relatives aux informations sur la gestion des droits d'auteur. La décision de Colleen McMahon a une incidence sur la question de savoir si OpenAI a été autorisée à développer ses produits d'IA générative en utilisant des articles de journalistes en supprimant les informations sur la gestion des droits d'auteur. Colleen McMahon a déclaré qu'elle autoriserait les éditeurs à déposer une plainte modifiée contre OpenAI.

    Il n'existe pas de consensus ferme sur la manière dont la section 1202(b) s'applique à un large éventail de contenus en ligne. D'un côté, certains tribunaux ont imposé ce que l'on appelle « une exigence d'identité », ce qui signifie que les plaignants doivent prouver que les œuvres contrefaites sont une copie exacte du contenu original, sans les informations sur la gestion des droits d'auteur. D'autres, en revanche, ont autorisé des interprétations plus souples de la loi.

    Par exemple, le tribunal du district sud du Texas a récemment déclaré que même des reproductions partielles pouvaient être considérées comme des violations si les informations sur la gestion des droits d'auteur sont délibérément supprimées. Par ailleurs, dans le procès intenté par Sarah Silverman et un ensemble d'auteurs, le tribunal a estimé que la plaignante n'avait pas démontré de manière suffisante qu'OpenAI avait activement supprimé les CMI de son contenu.

    Comme l'explique Maria Crusey dans un article pour l'Authors Alliance, « l'augmentation des plaintes en vertu de l'article 1202(b) soulève des questions difficiles, à savoir : comment l'article 1202(b) s'applique-t-il à l'utilisation d'une œuvre protégée par le droit d'auteur dans le cadre d'un ensemble de données qui doit être nettoyé, restructuré et traité de manière à séparer les informations relatives à la gestion du droit d'auteur du contenu lui-même ? »

    Cette décision constitue un revers pour les créateurs et les éditeurs

    Le rejet de l'action en justice de Raw Story et AltNet est une victoire importante pour OpenAI. Selon certains analystes, il s'agit également d'un indicateur de la façon dont les tribunaux peuvent traiter des réclamations similaires à l'avenir. OpenAI et son investisseur Microsoft se défendent actuellement contre une action en justice similaire intentée par le New York Times, et la décision ne peut que contribuer à établir un précédent pour rejeter cette action et d'autres à venir.

    La décision de la juge Colleen McMahon suggère qu'en l'absence d'un préjudice clair et démontrable ou d'une reproduction exacte, les plaignants pourraient avoir du mal à obtenir gain de cause devant les tribunaux. Elle porte également sur un point plus large, à savoir la manière dont l'IA générative synthétise les données plutôt que de les reproduire directement. La synthèse rend difficile de prouver les violations des lois actuelles sur le droit d'auteur.

    Pour les créateurs de contenu, cela soulève un défi important : comment empêcher l'utilisation non autorisée de leur travail dans les ensembles de données de formation ? Des accords de licence comme ceux qu'OpenAI a conclus avec de grands éditeurs de presse tels que Vogue et Condé Nast pourraient devenir la nouvelle norme, donnant aux entreprises un moyen d'utiliser légalement des contenus protégés par le droit d'auteur tout en indemnisant leurs créateurs.

    Source : document juridique (PDF)

    Et vous ?

    Quel est votre avis sur le sujet ?
    Que pensez-vous de la décision de la juge américaine Colleen McMahon dans cette affaire ?
    Quels pourraient être les impacts de cette décision sur le travail des créateurs et des éditeurs ?
    Selon vous, quelles sont les menaces de l'IA générative pour les créateurs de contenus et les éditeurs ?

    Voir aussi

    The Intercept, Raw Story et AlterNet poursuivent OpenAI et Microsoft en justice pour violation du droit d'auteur, ils exigent des dommages-intérêts et le retrait de leurs contenus des modèles d'IA

    Le New York Times affirme qu'OpenAI a transcrit plus d'un million d'heures de vidéos YouTube pour entraîner son modèle d'IA GPT-4, violant ainsi les droits d'auteur des créateurs de la plateforme

    OpenAI et les médias : des accords de contenu dans l'ombre inquiètent les journalistes qui déplorent le manque de transparence et craignent des impacts négatifs sur leur travail

  12. #112
    Membre émérite Avatar de petitours
    Homme Profil pro
    Ingénieur développement matériel électronique
    Inscrit en
    Février 2003
    Messages
    2 003
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 44
    Localisation : France, Savoie (Rhône Alpes)

    Informations professionnelles :
    Activité : Ingénieur développement matériel électronique
    Secteur : Industrie

    Informations forums :
    Inscription : Février 2003
    Messages : 2 003
    Points : 2 260
    Points
    2 260
    Par défaut
    Inquiétant si un juge n'est pas capable de comprendre les notions de valeur et de droit.
    C'est bien comme ça on aura plus d’éditeurs de contenus (s'ils ne peuvent plus en vivre pourquoi continueraient ils ?), à part des amateurs et autres bavards du clavier ou encore les réseaux sociaux pleins d'experts avertis . Les IA continueront à apprendre sur ces contenus sans valeur pour pouvoir dire encore plus d'âneries au milieu de leurs propres hallucinations.

    Vivement le jour où on en aura tous raz le bol de lisser et tirer vers le bas la créativité et la création de valeur pour le simple profit de quelques entreprises. Ce jour là l'Homme pourra redonner du sens à sa propre existence.
    Il y a 10 sortes de personnes dans le monde : ceux qui comprennent le binaire et les autres

  13. #113
    Chroniqueur Actualités

    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Juin 2023
    Messages
    975
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Bénin

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2023
    Messages : 975
    Points : 17 355
    Points
    17 355
    Par défaut OpenAI accusé de rendre l'examen de ses modèles d'IA excessivement cher pour dissuader les plaignants
    OpenAI accusé d'avoir tenté de tirer profit de l'inspection de ses modèles d'IA devant un tribunal en facturant des frais d'accès à son API
    qui rendent le processus très onéreux pour les plaignants

    OpenAI sous le feu des critiques pour avoir exigé une « compensation financière » en échange de l'inspection de ses modèles d'IA dans le cadre d'un procès intenté par le New York Times pour violation de droit d'auteur. Il s'agit d'une évolution inquiétante qui pourrait remodeler la façon dont nous tenons les entreprises d'IA pour responsables. En effet, il est probable que si un tribunal autorise OpenAI à facturer l'examen de modèles, cela pourrait potentiellement dissuader les plaignants qui n'ont pas les moyens de payer un expert en IA ou des prix commerciaux pour l'inspection de modèles. Ce qui pourrait donner un avantage important aux entreprises d'IA.

    OpenAI accusé de rendre l'examen de ses modèles d'IA excessivement cher

    Le New York Times a intenté une action en justice contre OpenAI fin Microsoft fin 2023 pour violation de droit d'auteur. La publication accuse OpenAI d'avoir utilisé des millions de ses articles pour former des chatbots qui lui font désormais concurrence. La plainte indique que les défendeurs devraient être tenus responsables « des milliards de dollars de dommages statutaires et réels liés à la copie et à l'utilisation illégales des œuvres de grande valeur du Times ».

    Nom : Capture d'écran 2024-11-18 151827.png
Affichages : 3335
Taille : 240,3 Ko

    La plainte ne comporte pas de demande monétaire précise. Mais elle demande aux entreprises de détruire tous les modèles de chatbot et les données de formation qui utilisent du matériel protégé par le droit d'auteur du Times. Pour étayer ses allégations, le Times affirme avoir besoin d'examiner en profondeur les ensembles de données de formation des grands modèles de langage (LLM) d'OpenAI. C'est là que les choses se corsent et deviennent coûteuses.

    OpenAI a mis en place un protocole d'examen qui exige que les plaignants paient des « prix de détail » pour les requêtes API nécessaires à l'inspection de ses modèles d'IA. Selon ce protocole, le Times pourrait engager un expert pour examiner les documents techniques hautement confidentiels d'OpenAI « sur un ordinateur sécurisé dans une pièce sécurisée sans accès à Internet ou à un réseau d'autres ordinateurs dans un lieu sécurisé » choisi par OpenAI lui-même.

    Dans cette arène fermée, l'expert disposerait d'un temps et de requêtes limités pour tenter de faire avouer au modèle d'IA ce qu'il contient. OpenAI a plafonné le nombre de requêtes que l'expert peut effectuer via une API à 15 000 $ de crédits de vente au détail. Une fois ce plafond atteint, OpenAI a proposé aux parties de partager les coûts des requêtes restantes ; le Times et les codemandeurs paieront la moitié du prix pour terminer le reste de leur enquête.

    Mais le Times s'est opposé au protocole d'examen mis en place par OpenAI. La publication accuse OpenAI d'avoir transformé l'inspection de ses modèles d'IA en centre de profit. En septembre 2024, le Times a expliqué au tribunal que « les parties étaient arrivées à une impasse concernant ce protocole d'examen, alléguant qu'OpenAI cherche à dissimuler son infraction en professant une dépense indue, mais non quantifiée ». Bien sûr, OpenAI a rejeté ces accusations.

    Selon le Times, les plaignants auraient besoin de 800 000 $ de crédits de vente au détail pour rechercher les preuves dont ils ont besoin pour prouver leur cas, mais il n'y aurait aucune chance que cela coûte réellement autant à OpenAI. « OpenAI a refusé d'indiquer quels seraient ses coûts réels et se concentre plutôt de manière inappropriée sur ce qu'il facture à ses clients pour les services de détail dans le cadre de son activité (à but lucratif) », a affirmé le Times.

    L'issue de ce procès pourrait avoir un impact important sur toute l'industrie

    Pour sa défense, OpenAI a déclaré que la fixation d'un plafond initial est nécessaire pour réduire le fardeau qui pèse sur OpenAI et empêcher « une expédition de pêche » (une recherche sans objectif précis). OpenAI a également allégué que « les plaignants demandent des centaines de milliers de dollars de crédits pour effectuer un nombre arbitraire et non justifié - et probablement inutile - de recherches sur les modèles d'OpenAI, le tout aux frais d'OpenAI ».

    Les implications de cette bataille juridique vont bien au-delà d'un simple procès. Si le tribunal approuve l'approche d'OpenAI consistant à facturer des crédits de vente au détail pour l'inspection des modèles, cela pourrait effectivement créer une barrière financière pour les futurs plaignants cherchant à enquêter sur les préjudices liés à l'IA. Cette situation survient à un moment où les préoccupations en matière de sécurité liées à l'IA se multiplient à l'échelle mondiale.

    Pour ajouter à la complexité de la situation, le Times fait état d'obstacles techniques importants dans leurs efforts d'inspection. En 27 jours de tentative d'examen des données, ils ont rencontré des perturbations, notamment des arrêts de système et des problèmes d'installation de logiciels. Malgré ces difficultés, ils auraient déjà découvert des preuves qui suggèrent que des millions de leurs œuvres pourraient être incluses dans les données d'entraînement de ChatGPT.

    Lucas Hansen, cofondateur de CivAI, apporte un éclairage précieux sur les aspects techniques de l'inspection des modèles. S'il est possible d'examiner les modèles publics dans une certaine mesure, il a déclaré que les versions affinées comportent souvent des mécanismes de censure qui compliquent la traçabilité de l'origine des données d'entraînement. C'est pourquoi l'accès aux modèles originaux par l'intermédiaire d'API est crucial pour une enquête appropriée.

    On ne sait pas exactement ce qu'il en coûte à OpenAI pour fournir ce niveau d'accès. Lucas Hansen a déclaré que les coûts de formation et d'expérimentation des modèles éclipsent les coûts d'exploitation des modèles pour fournir des solutions complètes. D'autres développeurs ont déclaré dans les forums que les coûts des requêtes d'API s'additionnent rapidement, l'un d'entre eux affirmant que « la tarification d'OpenAI tue la motivation de travailler avec les API ».

    Quel équilibre entre la protection du droit d'auteur et la transparence de l'IA ?

    Le contexte plus large de la surveillance de la sécurité de l'IA rend cette affaire particulièrement significative. Bien qu'il ait été créé pour répondre à ces préoccupations, l'Institut américain de sécurité de l'IA (AISI) est confronté à des défis uniques. Avec un budget proposé de 50 millions de dollars pour 2025 - un chiffre que de nombreux experts considèrent comme insuffisant - et des incertitudes politiques potentielles, l'efficacité future de l'institut reste incertaine.

    La bataille juridique en cours soulève des questions cruciales sur l'équilibre entre la protection des droits de propriété intellectuelle et la transparence de l'IA. OpenAI se défend en arguant que le plafond initial est nécessaire pour empêcher « une recherche sans objectif précis » et gérer la charge opérationnelle. Mais ses détracteurs affirment que « le fait de facturer des prix de détail pour la recherche dans un cadre juridique pourrait créer un dangereux précédent ».

    Le déroulement de cette bataille juridique met en lumière un défi majeur en matière de gouvernance de l'IA : comment assurer une surveillance efficace des systèmes d'IA tout en maintenant le processus financièrement accessible ? La question reste posée. L'issue de cette affaire pourrait créer des précédents importants pour les futurs litiges en matière d'IA et les exigences de transparence. L'industrie technologique suit de près l'évolution de cette affaire.

    Elle est consciente que l'issue pourrait influencer de manière significative la responsabilité des entreprises d'IA quant au comportement de leurs modèles. La technologie continuant à progresser rapidement, il devient de plus en plus urgent de mettre en place des mécanismes de contrôle équilibrés et efficaces.

    Pour l'instant, la bataille se poursuit, le New York Times faisant pression pour un accès plus complet aux données d'entraînement et OpenAI maintenant sa position sur le partage des coûts. Alors que la Cour évalue ces intérêts divergents, l'avenir de la responsabilité de l'IA est en jeu.

    Source : document judiciaire (PDF)

    Et vous ?

    Quel est votre avis sur le sujet ?
    Que pensez-vous des coûts exigés par OpenAI pour l'examen de ces modèles d'IA ?
    Selon vous, ces coûts sont-ils justifiés ? Ces coûts permettent-ils à OpenAI de cacher ses infractions ?
    Selon vous, quels impacts l'issue de ce procès pourrait-elle avoir sur les entreprises d'IA et l'ensemble de l'industrie ?

    Voir aussi

    Alors que le New York Times poursuit OpenAI pour violation des droits d'auteur, le Financial Times accepte de conclure un accord de licence de contenu avec OpenAI pour alimenter officiellement son IA générative

    OpenAI affirme que le New York Times a trompé ChatGPT pour qu'il copie ses articles. Malgré un procès intenté le mois dernier, l'entreprise IA souhaite toujours travailler avec le quotidien

    Microsoft accuse le New York Times de propager une « futurologie apocalyptique » dans le cadre du procès OpenAI et demande de rejeter des éléments clés du procès intenté pour violation du copyright

  14. #114
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 057
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 057
    Points : 209 181
    Points
    209 181
    Par défaut OpenAI aurait accidentellement supprimé des preuves potentielles dans le procès intenté par le New York Times
    OpenAI aurait accidentellement supprimé des preuves potentielles dans le procès intenté par le New York Times,
    sur les violations de droits d'auteur liées à l'utilisation de ses articles pour entraîner ChatGPT

    Dans une affaire qui suscite l'attention à l'intersection de la technologie et du droit d'auteur, OpenAI se retrouve au cœur d'une controverse juridique avec le New York Times. OpenAI, connue pour ses modèles de langage avancés comme ChatGPT, est accusée d’avoir utilisé des contenus du Times pour entraîner ses systèmes sans autorisation. Alors que le procès avance, une nouvelle révélation complique encore davantage la position d’OpenAI : l’entreprise aurait accidentellement supprimé des preuves potentielles cruciales.

    Un litige déjà complexe

    Le New York Times accuse OpenAI de violations de droits d'auteur liées à l'utilisation de ses articles pour entraîner des modèles d'IA. Ce type d'entraînement, connu sous le nom de data scraping ou d'extraction de données, consiste à collecter des informations sur Internet pour améliorer les performances des modèles. Cependant, cette pratique soulève des questions juridiques sur les droits des créateurs de contenu.

    Dans ce contexte, les tribunaux s'appuient souvent sur des preuves détaillant la manière dont les données ont été collectées, stockées et utilisées. Ces preuves peuvent inclure des logs d'activité, des bases de données ou même des captures d'écran montrant les processus internes des entreprises.

    La suppression accidentelle

    Selon des documents judiciaires récents, OpenAI aurait supprimé des informations importantes qui auraient pu être utilisées comme preuve dans l'affaire. Bien que l’entreprise affirme que cette suppression n’était pas intentionnelle, elle pourrait avoir des répercussions importantes sur le déroulement du procès.

    L’absence de ces preuves pourrait donner l'impression qu'OpenAI n’a pas pris suffisamment au sérieux ses obligations légales en matière de conservation des données, notamment dans le cadre d’un litige aussi sensible. De plus, cela pourrait compliquer la tâche des juges et des avocats pour évaluer objectivement la légitimité des allégations du New York Times.

    Nom : nyt.png
Affichages : 5209
Taille : 476,1 Ko
    Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge

    L'affaire en question

    Les avocats du New York Times et du Daily News, qui poursuivent OpenAI pour avoir prétendument utilisé leurs œuvres pour entraîner ses modèles d'intelligence artificielle sans autorisation, affirment que les ingénieurs d'OpenAI ont accidentellement supprimé des données potentiellement pertinentes pour l'affaire.

    Au début de l'automne, OpenAI a accepté de fournir deux machines virtuelles afin que les avocats du Times et du Daily News puissent effectuer des recherches sur leurs contenus protégés par le droit d'auteur dans les jeux d'entraînement de l'IA. Dans une lettre, les avocats des éditeurs déclarent qu'ils ont passé, avec les experts qu'ils ont engagés, plus de 150 heures depuis le 1er novembre à rechercher les données d'entraînement d'OpenAI.

    Mais le 14 novembre, les ingénieurs d'OpenAI ont effacé toutes les données de recherche des éditeurs stockées sur l'une des machines virtuelles, selon la lettre susmentionnée, qui a été déposée au tribunal de district des États-Unis pour le district sud de New York mercredi.

    OpenAI a tenté de récupérer les données, avec succès. Cependant, la structure des dossiers et les noms de fichiers ayant été « irrémédiablement » perdus, les données récupérées « ne peuvent pas être utilisées pour déterminer où les articles copiés par les plaignants ont été utilisés pour construire les modèles [d'OpenAI] », selon la lettre.

    Dans cette affaire et dans d'autres, OpenAI a soutenu que l'entraînement de modèles à l'aide de données accessibles au public - y compris des articles du Times et du Daily News - constituait un usage loyal. En d'autres termes, en créant des modèles tels que GPT-4o, qui « apprennent » à partir de milliards d'exemples de livres électroniques, d'essais et autres pour générer des textes à consonance humaine, OpenAI estime qu'elle n'est pas tenue de concéder des licences ou de payer pour ces exemples, même si elle gagne de l'argent grâce à ces modèles.

    Cela dit, OpenAI a conclu des accords de licence avec un nombre croissant de nouveaux éditeurs, dont l'Associated Press, Axel Springer, propriétaire de Business Insider, le Financial Times, Dotdash Meredith, société mère de People, et News Corp. OpenAI a refusé de rendre publiques les conditions de ces accords, mais l'un des partenaires de contenu, Dotdash, recevrait au moins 16 millions de dollars par an.

    « Les plaignants ont été contraints de recréer leur travail à partir de zéro en utilisant un nombre important d'heures de travail et de temps de traitement informatique », ont écrit les avocats du Times et du Daily News. « Les plaignants n'ont appris qu'hier que les données récupérées étaient inutilisables et qu'une semaine entière de travail de leurs experts et avocats devait être refaite, ce qui explique pourquoi cette lettre complémentaire est déposée aujourd'hui ».

    Les avocats des plaignants précisent qu'ils n'ont aucune raison de croire que la suppression était intentionnelle. Mais ils affirment que l'incident souligne qu'OpenAI « est la mieux placée pour rechercher dans ses propres ensembles de données » des contenus potentiellement illicites à l'aide de ses propres outils.

    Nom : micro.png
Affichages : 658
Taille : 143,5 Ko

    Les enjeux pour OpenAI et l’industrie

    Ce litige dépasse le simple conflit entre OpenAI et le New York Times. Il met en lumière un enjeu fondamental dans l’industrie de l’intelligence artificielle : le respect des droits des créateurs de contenu face à une technologie qui s’appuie massivement sur des données préexistantes.

    Si le tribunal décide en faveur du Times, cela pourrait créer un précédent juridique contraignant pour OpenAI et d'autres entreprises développant des modèles d'IA. Ces entreprises pourraient être obligées d’instaurer des pratiques de transparence accrues, notamment en matière de collecte et d’utilisation des données.

    OpenAI estime que « légalement, la loi sur le droit d'auteur n'interdit pas l'entraînement »

    La formation des modèles d’IA, tels que ceux développés par OpenAI, nécessite une quantité massive de données. Selon OpenAI, les matériaux disponibles dans le domaine public ne suffisent pas pour créer des modèles capables de répondre aux besoins actuels des utilisateurs. L’entreprise affirme que le droit d’auteur couvre pratiquement toutes les formes d’expression humaine, rendant ainsi indispensable l’utilisation de contenus protégés pour former des IA performantes.

    Cette position a provoqué une vague de réactions négatives, notamment de la part de grandes institutions comme le New York Times et la Authors Guild. Ces entités accusent OpenAI de violer massivement les droits d’auteur et de profiter commercialement des œuvres protégées sans compensation adéquate. Les auteurs célèbres, tels que John Grisham et George R.R. Martin, ont également rejoint les rangs des plaignants, soulignant que l’utilisation non autorisée de leurs œuvres menace leur subsistance.

    Les arguments d'OpenAI

    OpenAI supplie le Parlement britannique de l'autoriser à utiliser des œuvres protégées par le droit d'auteur, car il lui serait « impossible » d'entraîner ses modèles d'intelligence artificielle - et de poursuivre la croissance de son entreprise, qui pèse plusieurs milliards de dollars - sans ces œuvres.

    La société d'intelligence artificielle a déclaré dans un document soumis à une sous-commission de la Chambre des Lords que l'utilisation exclusive de contenus du domaine public serait insuffisante pour entraîner le type de grands modèles de langage (LLM) qu'elle construit, suggérant que l'entreprise doit donc être autorisée à utiliser du matériel protégé par le droit d'auteur.

    « Étant donné que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine - y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux - il serait impossible d'entraîner les meilleurs modèles d'IA actuels sans utiliser des documents protégés par le droit d'auteur », a écrit l'entreprise dans son dossier de preuves. « Limiter les données d'entraînement aux livres et dessins du domaine public créés il y a plus d'un siècle pourrait donner lieu à une expérience intéressante, mais ne permettrait pas de fournir des systèmes d'IA répondant aux besoins des citoyens d'aujourd'hui ».

    OpenAI poursuit en insistant dans le document, soumis au comité des communications et du numérique de la Chambre des Lords, sur le fait qu'elle se conforme aux lois sur le droit d'auteur et qu'elle estime que « légalement, la loi sur le droit d'auteur n'interdit pas l'entraînement ».

    Nom : rr.png
Affichages : 682
Taille : 430,2 Ko
    Des auteurs, dont George RR Martin, ont également intenté un procès à OpenAI

    Sans l'utilisation d'œuvres protégées par le droit d'auteur, OpenAI « aurait un produit commercial très différent »

    De plus en plus de parties intéressées s'opposent fermement à l'affirmation d'OpenAI selon laquelle l'utilisation d'œuvres protégées par le droit d'auteur pour entraîner l'IA est légale et sans danger.

    Le New York Times a intenté un procès à OpenAI et à Microsoft, son principal investisseur, pour avoir profité d'une prétendue « violation massive des droits d'auteur, d'une exploitation commerciale et d'une appropriation illicite » de la propriété intellectuelle du quotidien.

    Le journal en question est loin d'être le seul à s'attaquer à OpenAI. Quelques mois auparavant, l'Authors Guild a poursuivi l'entreprise au nom de certains des plus grands noms de la fiction - dont John Grisham, Jodi Picoult, Jonathan Franzen, David Baldacci et George R.R. Martin - parce qu'elle s'opposait à ce que les œuvres de ces écrivains soient utilisées pour former ChatGPT.

    Sans l'utilisation d'œuvres protégées par le droit d'auteur, OpenAI « aurait un produit commercial très différent », a déclaré Rachel Geman, l'un des avocats de la guilde dans le cadre de l'action collective, dans un communiqué de presse relatif au dépôt de la plainte. En tant que telle, la décision de l'entreprise de copier les œuvres des auteurs, sans offrir de choix ni de compensation, menace le rôle et les moyens de subsistance des écrivains dans leur ensemble.

    Du côté d'OpenAI, la société affirme qu'elle cherche à établir de nouveaux partenariats avec des éditeurs. Quoi qu'il en soit, il est difficile d'imaginer que chaque journal, site web ou maison d'édition accepte de telles conditions en bloc, et encore moins les écrivains indépendants qui dépendent de leurs droits d'auteur pour gagner leur vie.

    OpenAI a toutefois admis qu'il y avait « encore du travail à faire pour soutenir les créateurs et leur donner les moyens d'agir ». L'entreprise a évoqué les moyens mis en œuvre pour permettre aux éditeurs d'empêcher le robot GPTBot d'accéder à leurs sites web. Elle a également indiqué qu'elle mettait au point des mécanismes supplémentaires permettant aux titulaires de droits de se retirer de la formation et qu'elle s'engageait avec eux à trouver des accords mutuellement bénéfiques.

    Dans certaines des actions en justice intentées contre OpenAI et Microsoft, les plaignants accusent les sociétés de refuser de payer les auteurs pour leur travail tout en construisant une industrie d'un milliard de dollars et en profitant d'un énorme gain financier à partir de matériel protégé par le droit d'auteur. Dans un cas, déposé par un couple d'auteurs de non-fiction, il est soutenu que les entreprises auraient pu explorer d'autres options de financement, telles que la participation aux bénéfices, mais qu'elles ont « décidé de voler » à la place.

    Conclusion

    Alors que le procès entre le New York Times et OpenAI continue, l'industrie technologique suit de près les développements de cette affaire. Si la suppression des preuves par OpenAI était réellement accidentelle, elle met néanmoins en lumière l’importance cruciale pour les entreprises d’adopter des protocoles robustes de conservation des données, en particulier lorsqu’elles opèrent dans des domaines juridiquement sensibles.

    Ce litige n’est pas seulement une question de droits d'auteur : il représente un tournant potentiel pour l’avenir de l’IA et de son interaction avec le contenu protégé.

    Source : lettre

    Et vous ?

    La suppression accidentelle de preuves par OpenAI peut-elle être considérée comme une négligence, et dans quelle mesure cela affecte-t-il leur crédibilité juridique ? D'ailleurs, pensez-vous qu'elle serait accidentelle ou volontaire ?

    Est-il plausible de considérer la suppression accidentelle de preuves comme un événement fortuit, ou cela reflète-t-il un problème structurel dans la gestion interne d’OpenAI ?

    Le concept de "fair use" est-il suffisant pour encadrer légalement l’entraînement des modèles d’IA, ou faut-il des lois spécifiques pour ce domaine émergent ?

    Si le tribunal statue en faveur du New York Times, quelles pourraient être les répercussions pour d'autres entreprises développant des technologies similaires ?
    Images attachées Images attachées
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  15. #115
    Membre habitué
    Profil pro
    Inscrit en
    Novembre 2003
    Messages
    91
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations forums :
    Inscription : Novembre 2003
    Messages : 91
    Points : 170
    Points
    170
    Par défaut
    Ca me rappelle les suppressions accidentelles des témoins dans les films de mafia.

  16. #116
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 057
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 057
    Points : 209 181
    Points
    209 181
    Par défaut OpenAI reproche au NYT un problème technique qui a effacé les preuves potentielles d'abus de droits d'auteur
    OpenAI reproche au NYT un problème technique qui a effacé les preuves potentielles d'abus de droits d'auteur par ChatGPT
    et rejette toute intention malveillante

    Les avocats du New York Times, qui poursuivent OpenAI pour avoir prétendument utilisé leurs œuvres pour entraîner ses modèles d'intelligence artificielle sans autorisation, affirment que les ingénieurs d'OpenAI ont accidentellement supprimé des données potentiellement pertinentes pour l'affaire. OpenAI a déposé une lettre en réponse, alléguant que non seulement elle n'a pas supprimé de données, mais qu'elle blâme également le journal pour tout ce fiasco : « OpenAI n'a supprimé aucune preuve. Ce qui s'est passé, c'est que les plaignants ont demandé un changement de configuration [qui] a entraîné la suppression de la structure des dossiers et de certains noms de fichiers sur un disque dur », ont expliqué les avocats d'OpenAI ».

    Le conflit de fond : IA et propriété intellectuelle

    Le développement des modèles d’intelligence artificielle, comme ceux de la série GPT d’OpenAI, repose souvent sur l’entraînement à partir de vastes corpus de données textuelles. Ces données incluent parfois des articles de presse, des œuvres littéraires ou d’autres contenus protégés par le droit d’auteur. Depuis plusieurs mois, le New York Times, comme d’autres éditeurs, critique les pratiques des entreprises d’IA, accusant celles-ci d’exploiter illégalement leurs contenus sans consentement ni compensation.

    La dernière accusation porte sur un incident où des preuves potentielles de cette exploitation auraient été effacées à cause d’un problème technique, attribué à OpenAI. Selon le Times, cette suppression compromet leur capacité à documenter les abus supposés et à obtenir justice.

    Un problème technique ou une manœuvre délibérée ?

    OpenAI a reconnu qu’un problème technique était à l’origine de la disparition de ces données, mais rejette toute intention malveillante. L’entreprise affirme travailler sur des correctifs pour éviter que des incidents similaires ne se reproduisent. Cependant, pour le Times, cet événement suscite des doutes quant à la volonté réelle des acteurs de l’IA de respecter les droits des créateurs de contenu.

    Les critiques soulignent que l’effacement accidentel de données clés pourrait affaiblir les recours juridiques potentiels contre OpenAI et d'autres entreprises similaires. De plus, cela alimente la perception d’un déséquilibre de pouvoir entre les géants technologiques et les industries créatives.

    OpenAI accuse le NYT de négligence

    Tout récemment, le New York Times a accusé OpenAI d'avoir effacé involontairement des informations qui, selon le journal, pourraient être utilisés comme preuves d'abus de droit d'auteur.

    Le NYT aurait passé plus de 150 heures à extraire des données d'entraînement, tout en suivant un protocole d'inspection de modèle qu'OpenAI a mis en place précisément pour éviter d'effectuer des recherches potentiellement accablantes dans sa propre base de données. Ce processus a débuté en octobre, mais à la mi-novembre, le NYT a découvert que certaines des données recueillies avaient été effacées en raison de ce qu'OpenAI a appelé un « pépin ».

    Soucieux d'informer le tribunal des retards potentiels dans la communication des pièces, le NYT a demandé à OpenAI de collaborer à la rédaction d'une déclaration commune admettant que l'effacement s'était produit. Mais OpenAI a refusé, préférant déposer une réponse séparée qualifiant « d'exagérée » l'accusation du journal selon laquelle des preuves ont été supprimées et reprochant au NYT le problème technique qui a déclenché l'effacement des données.

    OpenAI a nié avoir supprimé « toute preuve », admettant seulement que des informations sur le système de fichiers ont été « supprimées par inadvertance » après que le NYT a demandé une modification qui a entraîné des « blessures auto-infligées ». Selon OpenAI, le problème technique est apparu parce que le NYT espérait accélérer ses recherches et a demandé une modification de la configuration de l'inspection du modèle qui, selon OpenAI, « ne produirait aucune amélioration de la vitesse et pourrait même nuire aux performances ».

    L'entreprise spécialisée dans l'IA a accusé le NYT de négligence au cours de la procédure d'enquête, en « exécutant de manière répétée un code défectueux » lors de recherches d'URL et de phrases tirées de divers articles de journaux, et en omettant de sauvegarder ses données. La modification demandée par le NYT aurait « entraîné la suppression de la structure des dossiers et de certains noms de fichiers sur un disque dur », qui « était censé être utilisé comme cache temporaire pour stocker les données d'OpenAI, mais qui, de toute évidence, a également été utilisé par les plaignants pour sauvegarder certains de leurs résultats de recherche (apparemment sans aucune sauvegarde) ».

    Nom : open.png
Affichages : 2886
Taille : 143,4 Ko

    Une fois qu'OpenAI a compris ce qui s'était passé, les données ont été restaurées, selon OpenAI. Mais le NYT a allégué que les seules données qu'OpenAI a pu récupérer « n'incluaient pas la structure originale des dossiers et les noms originaux des fichiers » et que, par conséquent, « elles ne sont pas fiables et ne peuvent pas être utilisées pour déterminer où les articles copiés par les plaignants ont été utilisés pour construire les modèles des défendeurs ».

    En réponse, OpenAI a suggéré que le NYT pourrait simplement prendre quelques jours et relancer les recherches, en insistant sur le fait que « contrairement aux insinuations des plaignants, il n'y a aucune raison de penser que le contenu de n'importe quel fichier a été perdu ». Mais le NYT ne semble pas heureux d'avoir à refaire une partie de l'inspection du modèle, continuellement frustré par l'attente d'OpenAI selon laquelle les plaignants doivent trouver eux-mêmes des termes de recherche alors qu'OpenAI comprend le mieux ses modèles.

    OpenAI a déclaré qu'elle avait été consultée sur les termes de recherche et qu'elle avait été « obligée de consacrer d'énormes ressources » pour soutenir les efforts d'inspection des modèles du NYT, tout en continuant d'éviter de dire combien cela lui coûte. Auparavant, le NYT avait accusé OpenAI de chercher à tirer profit de ces recherches, en essayant de facturer des prix de détail au lieu d'être transparent sur les coûts réels.

    Aujourd'hui, OpenAI semble plus disposée à effectuer pour le compte du NYT des recherches qu'elle cherchait auparavant à éviter. Dans sa requête, OpenAI a demandé au tribunal d'ordonner aux plaignants de « collaborer avec OpenAI pour élaborer un plan de recherches raisonnables et ciblées à exécuter soit par les plaignants, soit par OpenAI ».

    Les modalités de cette collaboration seront discutées lors d'une audience le 3 décembre. OpenAI a déclaré qu'elle s'engageait à prévenir de futurs problèmes techniques et qu'elle était « déterminée à résoudre ces problèmes de manière efficace et équitable ».

    Ce n'est pas la première fois qu'OpenAI est accusée d'avoir supprimé des données

    Ce n'est pas la seule fois que l'OpenAI est accusée d'avoir supprimé des données dans le cadre d'une affaire de droit d'auteur.

    En mai, des auteurs de livres, dont Sarah Silverman et Paul Tremblay, ont déclaré à un tribunal de district américain en Californie qu'OpenAI avait admis avoir supprimé les ensembles de données d'entraînement à l'IA controversés en cause dans ce litige. En outre, OpenAI a admis que « des témoins connaissant la création de ces ensembles de données ont apparemment quitté l'entreprise », selon le dossier déposé par les auteurs. Contrairement au NYT, les auteurs du livre semblent suggérer que la suppression par OpenAI semblait potentiellement suspecte.

    « La campagne de retardement d'OpenAI se poursuit », affirment les auteurs, alléguant que « les preuves de ce que contenaient ces ensembles de données, de leur utilisation, des circonstances de leur suppression et des raisons de cette suppression » sont toutes très pertinentes.

    Le juge dans cette affaire, Robert Illman, a écrit que le litige entre OpenAI et les auteurs avait jusqu'à présent nécessité une intervention judiciaire trop importante, notant que les deux parties « ne procédaient pas exactement à la procédure de découverte avec le degré de collégialité et de coopération qui pourrait être optimal ».

    Dans les deux cas, les plaignants s'efforcent de choisir les termes de recherche qui leur permettront d'obtenir les éléments de preuve qu'ils recherchent. Alors que l'affaire du NYT s'enlise parce qu'OpenAI semble refuser d'effectuer des recherches au nom des éditeurs, l'affaire des auteurs de livres s'éternise parce que les auteurs ne fournissent pas de termes de recherche. Seuls quatre des 15 auteurs poursuivis ont envoyé des termes de recherche, alors que la date limite pour la communication des pièces approche le 27 janvier 2025.

    Le juge du NYT rejette une partie importante de la défense de l'utilisation équitable

    La défense d'OpenAI repose principalement sur le fait que les tribunaux reconnaissent que la copie d'œuvres d'auteurs pour former l'IA est une utilisation équitable transformatrice qui bénéficie au public, mais le juge du NYT, Ona Wang, a rejeté une partie clé de cette défense d'utilisation équitable à la fin de la semaine dernière.

    Pour obtenir gain de cause, OpenAI tentait de modifier un facteur d'utilisation équitable concernant « l'effet de l'utilisation sur le marché potentiel ou la valeur de l'œuvre protégée par le droit d'auteur » en invoquant un argument commun selon lequel le facteur devrait être modifié pour inclure les « avantages publics que la copie est susceptible de produire ».

    Une partie de cette tactique de défense visait à prouver que le journalisme du NYT bénéficie des technologies d'IA générative comme ChatGPT, OpenAI espérant faire tomber l'affirmation du NYT selon laquelle ChatGPT représentait une menace existentielle pour son activité. À cette fin, OpenAI a demandé des documents montrant que le NYT utilise des outils d'IA, crée ses propres outils d'IA et soutient généralement l'utilisation de l'IA dans le journalisme en dehors de la bataille judiciaire.

    Vendredi, cependant, Wang a rejeté la requête d'OpenAI visant à obtenir ce type de preuves. Wang a estimé qu'il n'était pas pertinent dans cette affaire, malgré les affirmations d'OpenAI selon lesquelles si les outils d'IA « profitent » au journalisme du NYT, ce « profit » serait pertinent pour la défense de l'utilisation équitable d'OpenAI.

    Mais la Cour suprême déclare spécifiquement qu'une discussion sur les « bénéfices publics » doit porter sur les « bénéfices de la copie », écrit Wang dans une note de bas de page, et non sur le fait que « le détenteur des droits d'auteur a admis que d'autres utilisations de ses droits d'auteur peuvent ou non constituer un usage loyal, ou que le détenteur des droits d'auteur a noué des relations commerciales avec d'autres entités dans l'industrie du défendeur ».

    Cela risque d'étouffer la défense de l'usage loyal d'OpenAI en coupant un domaine de découverte pour lequel OpenAI s'est battu avec acharnement. Il ne reste plus à OpenAI qu'à faire valoir que sa copie du contenu du NYT sert spécifiquement un bien public, et non l'acte d'entraînement de l'IA en général.

    Un débat plus large sur l’éthique de l’IA

    Cette affaire illustre un enjeu plus global : comment équilibrer les avancées technologiques avec le respect des lois sur la propriété intellectuelle ? Les grandes entreprises technologiques, souvent en avance sur la législation, exploitent un vide juridique autour de l’utilisation des données pour l’entraînement des modèles d’IA.

    Les critiques appellent à une réglementation plus stricte pour garantir une utilisation équitable des données et une transparence accrue dans les processus. Certains experts suggèrent également des mécanismes de partage des bénéfices entre les entreprises d’IA et les détenteurs de droits d’auteur.

    Les répercussions possibles

    Si les accusations du New York Times se confirment, OpenAI pourrait faire face à des conséquences juridiques, mais aussi à une érosion de sa réputation. Plus largement, cela pourrait renforcer la pression pour une réglementation internationale sur l’IA et relancer le débat sur les pratiques de collecte de données.

    En conclusion, cette controverse met en lumière les tensions croissantes entre innovation technologique et respect des droits d’auteur, tout en soulignant l’urgence d’un dialogue transparent entre les parties prenantes. Si OpenAI et d’autres acteurs de l’IA souhaitent maintenir la confiance du public, ils devront démontrer une réelle volonté de respecter les cadres légaux et éthiques.

    Sources : réponse OpenAI, NYT, auteurs de livres, juge Robert Illman, juge Ona Wang

    Et vous ?

    Qu'en pensez-vous ? Problème technique ou manœuvre délibérée de la part d'OpenAI ?

    Les raisons évoquées par OpenAI pour accusées le NYT du problème vous semblent-elles crédibles ou pertinentes ? Dans quelle mesure ?

    Les entreprises comme OpenAI devraient-elles être obligées de fournir des rapports détaillés sur les sources utilisées pour entraîner leurs modèles ?

    Quels mécanismes techniques pourraient être mis en place pour éviter la suppression accidentelle ou délibérée de données cruciales ?

    Les lois actuelles sur le droit d'auteur sont-elles adaptées à l'ère de l'intelligence artificielle ? Que faudrait-il modifier ou ajouter ?
    Images attachées Images attachées
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  17. #117
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    1 745
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 1 745
    Points : 121 828
    Points
    121 828
    Par défaut Les principaux organismes de presse du Canada s'unissent pour poursuivre OpenAI
    Une large coalition de grands organismes de presse canadiens poursuit le géant technologique OpenAI, affirmant que l'entreprise utilise illégalement des articles de presse pour former son logiciel ChatGPT.

    Les principaux organismes de presse du Canada s'unissent pour poursuivre OpenAI, l'éditeur de ChatGPT. La plainte accuse OpenAI d'avoir utilisé des articles sans le consentement des organismes de presse pour former ChatGPT. Ce procès fait suite à d'autres procédures similaires engagées par des organismes de presse du monde entier, qui cherchent à obtenir une compensation de la part d'OpenAI pour l'utilisation de travaux publiés dans le cadre de la formation de ChatGPT.

    La formation des modèles d’IA, tels que ceux développés par OpenAI, nécessite une quantité massive de données. Cependant, Microsoft et OpenAI sont poursuivis par des éditeurs de presse pour l'utilisation de contenus protégés par le droit d'auteur dans l'entraînement de ses modèles d'IA. Des éditeurs de presse de Californie, du Colorado, de l'Illinois, de Floride, du Minnesota et de New York ont déclaré que Microsoft et OpenAI avaient utilisé des millions de leurs articles sans paiement ni autorisation pour développer des modèles d'intelligence artificielle pour ChatGPT et d'autres produits.

    Récemment, OpenAI doit faire face à une nouvelle bataille juridique pour les mêmes raisons. Une large coalition de grands organes de presse canadiens, dont le Toronto Star, Metroland Media, Postmedia, The Globe and Mail, The Canadian Press et CBC, poursuit le géant technologique OpenAI, affirmant que l'entreprise utilise illégalement des articles de presse pour former son logiciel d'intelligence artificielle (IA) ChatGPT. C'est la première fois que les principaux éditeurs de presse d'un pays s'unissent pour intenter un procès à OpenAI.

    La plainte, déposée devant la Cour supérieure de justice de l'Ontario, demande des dommages-intérêts punitifs, la restitution de tous les bénéfices réalisés par OpenAI grâce à l'utilisation des articles des organismes de presse, ainsi qu'une injonction interdisant à OpenAI d'utiliser les articles en question à l'avenir. Le procès vise à obtenir jusqu'à 20 000 dollars de dommages-intérêts par article utilisé par OpenAI, ce qui pourrait porter la valeur totale du procès à plusieurs milliards de dollars. Selon des rapports, OpenAI serait évaluée à 157 milliards de dollars américains après sa dernière levée de fonds auprès d'investisseurs.


    La plainte accuse OpenAI d'avoir utilisé des articles sans le consentement des organismes de presse pour former ChatGPT, un chatbot d'intelligence artificielle générative qui répond aux messages et aux questions des utilisateurs.

    "Pour obtenir les quantités importantes de données textuelles nécessaires à l'élaboration de ses modèles GPT, OpenAI "pille" délibérément (c'est-à-dire qu'elle accède et copie) le contenu des sites web des entreprises de médias d'information.... Elle utilise ensuite ce contenu propriétaire pour développer ses modèles GPT, sans consentement ni autorisation", affirme la plainte.

    "Le journalisme est d'intérêt public. L'utilisation par OpenAI du journalisme d'autres entreprises à des fins commerciales ne l'est pas. C'est illégal", indique une déclaration commune des organisations de médias, représentées par le cabinet d'avocats Lenczner Slaght. Pour l'instant, aucune des allégations contenues dans la plainte n'a été prouvée devant les tribunaux.

    "Les défendeurs se sont engagés dans un détournement continu, délibéré et non autorisé des précieux travaux des plaignants dans le domaine des médias d'information. Les plaignants intentent cette action afin d'empêcher ces activités illégales et d'obtenir un dédommagement", ajoute une autre déclaration des organismes de presse à l'encontre d'OpenAI et de plusieurs de ses filiales et sociétés affiliées.

    Ce procès fait suite à d'autres procédures similaires engagées par des organismes de presse du monde entier, qui cherchent à obtenir une compensation de la part d'OpenAI pour l'utilisation de travaux publiés dans le cadre de la formation de ChatGPT, l'une des applications logicielles grand public les plus populaires qui aient jamais été produites. OpenAI a déjà signé des accords de licence avec certains médias. En juillet dernier, elle a signé un accord de licence avec l'agence de presse américaine The Associated Press. Elle a également conclu des accords avec NewsCorp et Condé Nast.

    Un procès est également en cours entre le New York Times et OpenAI et son partenaire Microsoft, les avocats du journal accusant les ingénieurs d'OpenAI d'avoir effacé des preuves que les avocats du journal avaient rassemblées en vue de leur utilisation dans le procès. OpenAI a également fait l'objet de poursuites de la part de son cofondateur Elon Musk.

    Fait intéressant, face à ces poursuites, OpenAI s'est défendu en assurant ne pouvoir gagner de l'argent sans utiliser gratuitement du matériel protégé par le droit d'auteur. Selon OpenAI, les matériaux disponibles dans le domaine public ne suffisent pas pour créer des modèles capables de répondre aux besoins actuels des utilisateurs. L’entreprise affirme que le droit d’auteur couvre pratiquement toutes les formes d’expression humaine, rendant ainsi indispensable l’utilisation de contenus protégés pour former des IA performantes. L'éditeur de ChatGPT a même déclaré que "légalement, la loi sur le droit d'auteur n'interdit pas l'entraînement". Une position qui a provoqué une vague de réactions négatives.

    Source : Cabinet d'avocats Lenczner Slaght

    Et vous ?

    Pensez-vous que ces poursuites sont crédibles ou pertinentes ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    OpenAI reproche au NYT un problème technique qui a effacé les preuves potentielles d'abus de droits d'auteur par ChatGPT et rejette toute intention malveillante

    Pour le sénateur Peter Welch, si votre travail a été utilisé pour former une IA, vous devriez être indemnisé. Son projet de loi TRAIN Act vise à obliger les développeurs d'IA à plus de transparence

    « Il est impossible de créer des outils comme ChatGPT sans contenus sous copyright », selon OpenAI qui suscite des réactions dont celles de fermer le service ou de l'amener à rémunérer les auteurs
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

Discussions similaires

  1. Réponses: 3
    Dernier message: 08/09/2012, 14h16
  2. Android : grande enquête sur les utilisateurs français
    Par Gordon Fowler dans le forum Android
    Réponses: 2
    Dernier message: 21/10/2011, 22h15
  3. Enquête sur les salariés de SSII
    Par Etudiante-RH dans le forum SSII
    Réponses: 26
    Dernier message: 23/09/2011, 10h41
  4. Réponses: 0
    Dernier message: 17/09/2008, 19h41
  5. Question sur les problèmes d'allocation dynamique
    Par slylafone dans le forum C++
    Réponses: 23
    Dernier message: 25/10/2004, 15h18

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo