IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

  1. #81
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 057
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 057
    Points : 209 140
    Points
    209 140
    Par défaut OpenAI affirme que le New York Times a « piraté » ChatGPT pour intenter un procès sur les droits d'auteur
    OpenAI affirme que le New York Times a « piraté » ChatGPT pour générer des preuves trompeuses et intenter un procès sur les droits d'auteur,
    une activité qui équivaut à des « attaques fabriquées » par un « tueur à gages » selon OpenAI

    Dans une requête déposée lundi, OpenAI affirme que le New York Times a utilisé des méthodes de hacking pour générer des preuves trompeuses dans le cadre de son procès en contrefaçon de droits d’auteur. Selon OpenAI, un tiers engagé par le Times a effectué des dizaines de milliers de tentatives pour obtenir des résultats hautement anormaux à partir de ChatGPT et d’autres systèmes d’intelligence artificielle. Le journal aurait utilisé des instructions trompeuses qui enfreignent clairement les conditions d’utilisation d’OpenAI pour inciter la technologie à reproduire son contenu.

    OpenAI a accusé le New York Times d'avoir payé quelqu'un pour "pirater" ChatGPT afin de générer des paragraphes textuels à partir d'articles de son journal. Par piratage, l'entreprise entend sans doute : se connecter comme d'habitude et lui poser des questions visant à piéger le chatbot IA.

    En décembre, le NYT a intenté un procès à OpenAI et à son bailleur de fonds Microsoft, les accusant de s'être emparés sans autorisation du site web du journal pour entraîner de grands modèles de langage. L'action en justice comprenait ce qui était censé être la preuve que ChatGPT reproduisait des passages entiers d'articles du New York Times à la suite d'invites envoyées par les utilisateurs.

    La plainte du New York Times citait plusieurs exemples où les chatbots d’OpenAI et de Microsoft donnaient aux utilisateurs des extraits quasi textuels de ses articles lorsqu’ils étaient sollicités. Elle accusait OpenAI et Microsoft de vouloir « profiter gratuitement de l’énorme investissement du Times dans le journalisme » et de créer un substitut au journal.

    L'éditeur estime que les utilisateurs de la technologie d'OpenAI - que Microsoft applique à l'ensemble de son empire logiciel et cloud - pourraient effectivement contourner le paywall du journal et lire des articles gratuitement en demandant au chatbot de générer des morceaux de texte qu'il a couvert, privant ainsi l'entreprise de l'argent de ses abonnements.

    Nom : un.png
Affichages : 6073
Taille : 476,5 Ko
    Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge.

    Mais OpenAI n'est pas d'accord et demande au tribunal de rejeter l'affaire

    OpenAI a toutefois riposté cette semaine à ces allégations en demandant au tribunal de rejeter l'affaire. La startup a estimé que les preuves fournies par le journal « semblent avoir été des efforts prolongés et étendus pour pirater les modèles d'OpenAI », et a nié que ChatGPT puisse détourner les gens des paywall, ajoutant que les gens n'utilisent pas le chatbot pour lire des articles publiés de toute façon.

    OpenAI a allégué que « 100 exemples dans lesquels une version du modèle GPT-4 d'OpenAI a soi-disant généré plusieurs paragraphes du contenu du Times en réponse à des invites de l'utilisateur » ne reflètent pas la façon dont les gens normaux utilisent ChatGPT.

    Au contraire, il aurait fallu au Times « des dizaines de milliers de tentatives pour générer » ces supposés « résultats hautement anormaux » en « ciblant et en exploitant un bogue » qu'OpenAI affirme s'être maintenant « engagée à corriger ».

    Selon OpenAI, cette activité équivaut à des « attaques fabriquées » par un « tueur à gages », qui aurait piraté les modèles OpenAI jusqu'à ce qu'ils hallucinent du faux contenu du NYT ou régurgitent des données d'entraînement pour reproduire les articles du NYT. Le NYT aurait payé pour ces « attaques » afin de recueillir des preuves à l'appui des affirmations du Times selon lesquelles les produits d'OpenAI mettent en péril son journalisme en régurgitant prétendument des reportages et en volant l'audience du Times.

    OpenAI n’a pas nommé la personne qu’elle qualifie de « tueur à gages » et n’a pas accusé le journal d’enfreindre les lois anti-piratage.

    Dans une précédente tentative de décrédibiliser le New York Times, OpenAI avait indiqué :

    Citation Envoyé par OpenAI
    Nos discussions avec le New York Times semblaient progresser de manière constructive jusqu'à notre dernière communication du 19 décembre. Les négociations portaient sur un partenariat de grande valeur autour de l'affichage en temps réel avec attribution dans ChatGPT, dans lequel le New York Times gagnerait un nouveau moyen de se connecter avec ses lecteurs existants et nouveaux, et nos utilisateurs auraient accès à leurs reportages. Nous avions expliqué au New York Times que, comme toute source unique, son contenu ne contribuait pas de manière significative à la formation de nos modèles existants et n'aurait pas non plus suffisamment d'impact pour les formations futures. Le procès qu'ils ont intenté le 27 décembre - dont nous avons pris connaissance en lisant le New York Times - nous a surpris et déçus.

    En cours de route, ils ont mentionné avoir constaté une certaine régurgitation de leur contenu, mais ils ont refusé à plusieurs reprises de partager des exemples, malgré notre engagement à enquêter et à résoudre les problèmes. Nous avons montré à quel point nous prenons cette question au sérieux, comme en juillet, lorsque nous avons supprimé une fonction de ChatGPT immédiatement après avoir appris qu'elle pouvait reproduire du contenu en temps réel de manière involontaire.

    Il est intéressant de noter que les régurgitations provoquées par le New York Times semblent provenir d’articles vieux de plusieurs années qui ont proliféré sur plusieurs sites Web tiers. Il semble qu’ils aient intentionnellement manipulé les invites, comprenant souvent de longs extraits d’articles, afin de faire régurgiter notre modèle. Même lorsqu’ils utilisent de telles invites, nos modèles ne se comportent généralement pas comme le laisse entendre le New York Times, ce qui suggère qu’ils ont soit demandé au modèle de régurgiter, soit sélectionné leurs exemples parmi de nombreuses tentatives.
    « Contrairement aux allégations de la plainte, ChatGPT n'est en aucun cas un substitut à un abonnement au New York Times », a déclaré OpenAI dans une requête visant à rejeter la majorité des demandes du Times. « Dans le monde réel, les gens n'utilisent pas ChatGPT ou tout autre produit d'OpenAI à cette fin. Ils ne le pourraient pas non plus. Dans le cours normal des choses, on ne peut pas utiliser ChatGPT pour servir des articles du Times à volonté ».

    Dans sa plainte, OpenAI a décrit le Times comme ayant rendu compte avec enthousiasme de ses développements en matière de chatbot pendant des années, sans soulever la moindre inquiétude quant à la violation des droits d'auteur. OpenAI affirme avoir révélé que les articles du Times étaient utilisés pour entraîner ses modèles d'IA en 2020, mais que le Times ne s'en est préoccupé qu'après l'explosion de la popularité de ChatGPT après ses débuts en 2022.

    Selon OpenAI, « ce n'est qu'après cette adoption rapide, ainsi que des rapports sur la valeur débloquée par ces nouvelles technologies », que le Times a prétendu qu'OpenAI avait « violé ses droits d'auteur » et a pris contact avec lui pour demander des « conditions commerciales ». Après des mois de discussions, le Times a intenté une action en justice deux jours après Noël, réclamant des « milliards de dollars ».

    Nom : nyt.png
Affichages : 1998
Taille : 263,9 Ko

    Des arguments sans fondements, pour les avocats du New York Times

    Ian Crosby, associé de Susman Godfrey et avocat principal du New York Times, a déclaré que « ce qu'OpenAI qualifie bizarrement à tort de "piratage" consiste simplement à utiliser les produits d'OpenAI pour chercher des preuves qu'ils ont volé et reproduit les œuvres protégées par le droit d'auteur du Times. Et c'est exactement ce que nous avons trouvé. En fait, l'ampleur de la copie d'OpenAI est bien plus importante que la centaine d'exemples présentés dans la plainte ».

    Crosby a déclaré que le dépôt d'OpenAI, notamment, « ne conteste pas - ni ne peut contester - le fait qu'ils ont copié des millions d'œuvres du Times pour construire et alimenter leurs produits commerciaux sans notre permission ». « Construire de nouveaux produits n'est pas une excuse pour violer la loi sur le droit d'auteur, et c'est exactement ce qu'OpenAI a fait à une échelle sans précédent », a déclaré Crosby.

    OpenAI a fait valoir que le tribunal devrait « rejeter les plaintes relatives au droit d'auteur direct, à la contrefaçon contributive, aux violations du Digital Millennium Copyright Act et à l'appropriation illicite, qu'elle qualifie toutes d'"infirmes d'un point de vue juridique ». Certaines échouent parce qu'elles sont prescrites - la demande de dommages-intérêts sur les données de formation pour les anciens modèles d'OpenAI - a affirmé OpenAI. D'autres échouent parce qu'elles ne comprennent pas l'utilisation équitable ou parce que les lois fédérales l'emportent sur elles.

    Si la requête d'OpenAI est acceptée, il ne restera probablement que les plaintes pour violation du droit d'auteur par personne interposée et pour dilution de marque.

    Mais si le Times gagne - et c'est possible - OpenAI pourrait être obligée d'effacer ChatGPT et de repartir à zéro.

    « OpenAI, qui a fait preuve de discrétion et a délibérément caché le fonctionnement de ses produits, affirme aujourd'hui qu'il est trop tard pour déposer une plainte pour infraction ou pour lui demander des comptes. Nous ne sommes pas d'accord », a déclaré Crosby. « Il est intéressant de noter qu'OpenAI ne conteste pas le fait qu'elle a copié les œuvres de Times sans autorisation dans le délai de prescription pour former ses modèles les plus récents et les plus actuels ».

    Conclusion

    Le Times fait partie des propriétaires de droits d’auteur qui ont intenté des poursuites contre des entreprises technologiques pour l’utilisation présumée abusive de leurs œuvres dans l’entraînement de l’intelligence artificielle. Les entreprises technologiques ont affirmé que leurs systèmes d’IA font un usage équitable du matériel protégé par le droit d’auteur et que les poursuites menacent la croissance de cette industrie potentiellement multitrillionnaire. Les tribunaux n’ont pas encore tranché la question clé de savoir si l’entraînement de l’IA constitue un usage équitable en vertu du droit d’auteur. Jusqu’à présent, les juges ont rejeté certaines accusations de violation du droit d’auteur concernant les résultats des systèmes d’IA génératifs, faute de preuves que le contenu créé par l’IA ressemble à des œuvres protégées par le droit d’auteur.

    Source : OpenAI

    Et vous ?

    Pensez-vous que l’utilisation de modèles d’IA comme ChatGPT pour générer du contenu à partir d’articles protégés par le droit d’auteur constitue une violation des droits d’auteur ?
    Devrions-nous revoir les lois sur les droits d’auteur pour tenir compte de l’entraînement de l’IA ?
    Quelle est votre opinion sur la notion d’« usage équitable » en matière de droits d’auteur ? Devrait-elle s’appliquer différemment aux systèmes d’IA ?
    Comment pouvons-nous équilibrer les droits des créateurs avec l’innovation technologique ?
    Les entreprises technologiques devraient-elles être plus responsables de l’utilisation de leurs modèles d’IA par des tiers ?
    Comment pouvons-nous encourager une utilisation éthique et responsable de l’IA ?
    Devrions-nous exiger davantage de transparence de la part des entreprises qui développent des modèles d’IA ?
    Comment pouvons-nous garantir que les utilisateurs comprennent les limites et les implications de ces technologies ?
    Images attachées Images attachées

  2. #82
    Membre du Club
    Homme Profil pro
    Développeur de jeux vidéo
    Inscrit en
    Mai 2014
    Messages
    28
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 43
    Localisation : Madagascar

    Informations professionnelles :
    Activité : Développeur de jeux vidéo
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Mai 2014
    Messages : 28
    Points : 61
    Points
    61
    Par défaut
    c'est un peu gros non?

  3. #83
    Expert éminent
    Avatar de Matthieu Vergne
    Homme Profil pro
    Consultant IT, chercheur IA indépendant
    Inscrit en
    Novembre 2011
    Messages
    2 273
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Consultant IT, chercheur IA indépendant
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Novembre 2011
    Messages : 2 273
    Points : 7 807
    Points
    7 807
    Billets dans le blog
    3
    Par défaut
    Plus c'est gros, plus ça passe. C'est un principe de base. {^_^}

  4. #84
    Chroniqueur Actualités

    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Juin 2023
    Messages
    974
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Bénin

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2023
    Messages : 974
    Points : 17 296
    Points
    17 296
    Par défaut The Intercept, Raw Story et AlterNet poursuivent OpenAI en justice pour violation du droit d'auteur
    The Intercept, Raw Story et AlterNet poursuivent OpenAI et Microsoft en justice pour violation du droit d'auteur
    ils exigent des dommages-intérêts et le retrait de leurs contenus des modèles d'IA

    Microsoft et OpenAI sont à nouveau poursuivis pour avoir prétendument récupéré et reproduit des articles de presse. The Intercept et Raw Story et AlterNet ont déposé des plaintes distinctes dans le district sud de New York. Ils allèguent une violation de leurs droits d'auteur, notamment la suppression de l'auteur, du titre et d'autres informations relatives aux droits d'auteur lors de l'entraînement des modèles d'IA. Ils demandent des dommages-intérêts et le retrait de leurs contenus des modèles d'IA. Les plaintes de The Intercept et de Raw Story et AlterNet font suite à l'action en justice intentée contre OpenAI par le New York Times à la fin de l'année dernière.

    ChatGPT, comme tous les modèles d'IA concurrents, a été entraîné à partir d'énormes quantités de textes récupérés sur Internet, y compris de nombreux articles journalistiques. Les éditeurs de presse ne sont toutefois pas satisfaits qu'OpenAI ait utilisé leurs articles pour entraîner ses modèles sans autorisation ni compensation. Une étude publiée par les chercheurs en IA de ByteDance l'année dernière a révélé qu'OpenAI tente de mettre en place un mécanisme pour éviter que ChatGPT révèle qu’il a été entraîné sur des livres protégés par le droit d’auteur. Mais OpenAI peine à y arriver et doit faire à de nombreux procès.

    Mercredi, The Intercept, Raw Story et AlterNet ont déposé des plaintes distinctes devant le tribunal fédéral de Manhattan. Les plaintes allèguent que les produits d'IA générative développés par OpenAI violent les lois sur les droits d'auteur. Ils affirment que Microsoft et OpenAI ont en fait plagié des articles protégés par le droit d'auteur pour développer et exploiter ChatGPT. Selon ces trois médias numériques, ChatGPT a été formé pour ne pas respecter les droits d'auteur, ignore les attributions appropriées et n'avertit pas les utilisateurs lorsque ses réponses sont générées à partir de travaux protégés de journalistes.

    Nom : 42155.png
Affichages : 7125
Taille : 193,6 Ko

    Dans un communiqué, Raw Story et John Byrne, PDG d'AlterNet, ont déclaré : « Raw Story estime que les organisations d'information doivent s'opposer à OpenAI, qui viole le Digital Millennium Copyright Act et profite du travail acharné des journalistes dont les emplois sont menacés. Il est important pour la démocratie qu'un large éventail de sites d'information continue de prospérer. Les violations d'OpenAI, si elles ne sont pas contrôlées, décimeront encore plus l'industrie de l'information, et avec elle, les journalistes critiques qui influencent les changements positifs ». Ces deux médias ne s'attaquent qu'à OpenAI.

    En effet, la plainte déposée par The Intercept cite à la fois OpenAI et son principal investisseur, Microsoft, comme défendeurs, tandis que la plainte conjointe déposée par Raw Story et AlterNet ne cite qu'OpenAI. Les plaintes sont par ailleurs presque identiques, et le cabinet d'avocats Loevy & Loevy représente les trois médias dans les procès. Selon les déclarations de Byrne, le procès intenté par Raw Story et AlterNet n'inclut pas Microsoft en raison d'un partenariat avec le portail Web MSN qui contribue à financer leurs reportages d'investigation. OpenAI et Microsoft n'ont pas répondu aux demandes de commentaires.

    « Les défendeurs avaient le choix : ils pouvaient former ChatGPT en utilisant des œuvres journalistiques avec les informations de gestion du droit d'auteur protégées par le DMCA intactes, ou ils pouvaient les supprimer. Les défendeurs ont choisi cette dernière solution et, ce faisant, ont formé ChatGPT à ne pas reconnaître ou respecter le droit d'auteur, à ne pas avertir les utilisateurs lorsque les réponses qu'ils recevaient étaient protégées par les droits d'auteur des journalistes, et à ne pas fournir d'attribution lorsqu'ils utilisaient les œuvres de journalistes humains », indique la plainte déposée par Raw Story et AlterNet.

    Les avocats représentant The Intercept, Raw Story et AlterNet ont déclaré qu'ils ignorent précisément quel texte OpenAI et Microsoft utilisent pour entraîner leurs modèles d'IA. Mais ils ont indiqué trois ensembles de données (WebText, WebText2 et Common Crawl) qui, selon eux, comprennent le contenu des plaignants. Ils estiment que des articles des trois éditeurs ont été grattés et soutiennent que ChatGPT génère un contenu qui imite d'énormes quantités de documents journalistiques protégés par le droit d'auteur au moins une partie du temps. D'autres médias ont également avancé les mêmes arguments.

    « Sur la base des informations publiques décrites ci-dessus, des milliers d'œuvres protégées par le droit d'auteur des plaignants ont été incluses dans les jeux de formation des défendeurs sans les informations relatives à l'auteur, au titre et au droit d'auteur que les plaignants ont communiquées en les publiant », peut-on lire dans les documents judiciaires de l'équipe juridique de The Intercept. Les deux plaignants demandent des dommages-intérêts et une injonction obligeant les développeurs de chatbots à supprimer toutes les copies de leurs œuvres protégées par le droit d'auteur. Ils réclament un procès avec jury.

    Les plaintes déposées mercredi sont les dernières d'une série d'actions en justice contre OpenAI pour violation présumée des droits d'auteur. La liste comprend notamment une plainte déposée en décembre par New York Times qui exige qu'OpenAI détruise tous les chatbots ou les données de formation qui utilisaient le matériel protégé de l'organe de presse. Cette semaine, les avocats d'OpenAI ont déposé une requête visant à rejeter certaines parties de cette action en justice et ont fait valoir que ses services ne constituaient pas une véritable concurrence pour le journal. Le média n'est toutefois pas du même avis.

    Cette vague d'actions en justice reflète l'inquiétude de l'ensemble du secteur des médias, qui craint que l'IA générative ne concurrence les éditeurs établis en tant que source d'information pour les internautes, tout en réduisant les recettes publicitaires et en compromettant la qualité de l'information en ligne. L'IA générative a déjà inondé Internet d'informations peu fiables et des sites de piètre qualité qui imitent les organes d'information, et des publications telles que Sports Illustrated ont utilisé de faux auteurs générés par l'IA à la place de journalistes humains. Le paysage de l'information est confronté à de gros risques.

    Par ailleurs, d'autres secteurs comme le cinéma sont aussi concernés. Dans une affaire californienne, la comédienne Sarah Silverman et plusieurs auteurs ont allégué de la même manière qu'OpenAI avait intentionnellement supprimé les informations relatives au droit d'auteur de leurs œuvres écrites lors de l'entraînement de ses modèles. Un juge a finalement rejeté ce chef d'accusation, déclarant que les plaignants n'avaient pas intentionnellement supprimé les données. (Toutefois, le cœur du procès, à savoir l'allégation selon laquelle OpenAI a violé les droits d'auteur des plaignants, est toujours d'actualité).

    OpenAI et Microsoft ne sont pas les seuls à faire l'objet de litiges en matière de droits d'auteur dans ce domaine. Getty Images poursuit Stability AI pour avoir prétendument entraîné des modèles en utilisant ses images protégées, et Universal Music Group poursuit Anthropic, affirmant qu'il distribue et recrée des paroles de chansons sans attribution.

    Sources : plainte de Raw Story et AlterNet (PDF), plainte de The Intercept (PDF)

    Et vous ?

    Quel est votre avis sur le sujet ?
    Que pensez-vous des allégations portées contre OpenAI par The Intercept, Raw Story et AlterNet ?
    Ces actions en justice ont-elles une chance d'aboutir ? Que pensez-vous des revendications des plaignants ?

    Voir aussi

    OpenAI affirme que le New York Times a « piraté » ChatGPT pour générer des preuves trompeuses et intenter un procès sur les droits d'auteur, une activité qui équivaut à des « attaques fabriquées »

    OpenAI et Meta accusés d'avoir utilisé les œuvres de Sarah Silverman et de deux auteurs sans leur consentement, comme données d'entraînements de leurs IA. Les plaintes de ce type se multiplient

    OpenAI tente désormais de cacher que ChatGPT a été formé sur des livres protégés par le droit d'auteur, comme la série Harry Poter de J.K Rowling, selon une étude

  5. #85
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 057
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 057
    Points : 209 140
    Points
    209 140
    Par défaut Microsoft accuse le New York Times de propager une «futurologie apocalyptique» dans le cadre du procès OpenAI
    Microsoft accuse le New York Times de propager une « futurologie apocalyptique » dans le cadre du procès OpenAI,
    et demande de rejeter des éléments clés du procès intenté pour violation du droit d'auteur

    Microsoft a déposé une requête visant à rejeter des éléments clés d’une plainte déposée par le New York Times contre l’entreprise et OpenAI, les accusant de violation du droit d’auteur. Pour rappel, le Times a poursuivi les deux sociétés pour avoir utilisé ses articles publiés pour former leurs modèles de langage GPT (large language models, LLM) sans autorisation ni compensation. Dans sa requête, Microsoft accuse le Times de propager une « futurologie apocalyptique » en affirmant que les technologies d’intelligence artificielle (IA) représentent une menace pour le journalisme indépendant. Cette démarche fait suite au dépôt d’OpenAI fin février, qui cherchait également à rejeter certains éléments clés de l’affaire.

    Microsoft a déposé lundi une requête auprès d'un tribunal fédéral visant à rejeter certaines parties d'un procès intenté par la New York Times Company.

    Le 27 décembre, le Times a intenté un procès à Microsoft et à son partenaire OpenAI, accusant les deux sociétés de violer ses droits d'auteur en utilisant ses articles pour former des technologies d'intelligence artificielle telles que le chatbot IA ChatGPT. Les chatbots concurrencent l'organe d'information en tant que source d'information fiable, selon la plainte.

    La plainte du New York Times citait plusieurs exemples où les chatbots d’OpenAI et de Microsoft donnaient aux utilisateurs des extraits quasi textuels de ses articles lorsqu’ils étaient sollicités. Elle accusait OpenAI et Microsoft de vouloir « profiter gratuitement de l’énorme investissement du Times dans le journalisme » et de créer un substitut au journal.

    L'éditeur estime que les utilisateurs de la technologie d'OpenAI - que Microsoft applique à l'ensemble de son empire logiciel et cloud - pourraient effectivement contourner le paywall du journal et lire des articles gratuitement en demandant au chatbot de générer des morceaux de texte qu'il a couvert, privant ainsi l'entreprise de l'argent de ses abonnements.

    Dans sa requête, déposée auprès du tribunal de district des États-Unis pour le district sud de New York, Microsoft a fait valoir que les grands modèles de langage, ou L.L.M. - les technologies qui alimentent les chatbots - ne supplantaient pas le marché des articles d'actualité et des autres documents sur lesquels ils ont été formés.

    Nom : nyt.png
Affichages : 6437
Taille : 262,3 Ko

    La requête de Microsoft était similaire à celle déposée par OpenAI la semaine dernière

    Dans une motion demandant le rejet de l'affaire, OpenAI a estimé que les preuves fournies par le journal « semblent avoir été des efforts prolongés et étendus pour pirater les modèles d'OpenAI », et a nié que ChatGPT puisse détourner les gens des paywall, ajoutant que les gens n'utilisent pas le chatbot pour lire des articles publiés de toute façon.

    OpenAI a allégué que « 100 exemples dans lesquels une version du modèle GPT-4 d'OpenAI a soi-disant généré plusieurs paragraphes du contenu du Times en réponse à des invites de l'utilisateur » ne reflètent pas la façon dont les gens normaux utilisent ChatGPT.

    Au contraire, il aurait fallu au Times « des dizaines de milliers de tentatives pour générer » ces supposés « résultats hautement anormaux » en « ciblant et en exploitant un bogue » qu'OpenAI affirme s'être maintenant « engagée à corriger ».

    Selon OpenAI, cette activité équivaut à des « attaques fabriquées » par un « tueur à gages », qui aurait piraté les modèles OpenAI jusqu'à ce qu'ils hallucinent du faux contenu du NYT ou régurgitent des données d'entraînement pour reproduire les articles du NYT. Le NYT aurait payé pour ces « attaques » afin de recueillir des preuves à l'appui des affirmations du Times selon lesquelles les produits d'OpenAI mettent en péril son journalisme en régurgitant prétendument des reportages et en volant l'audience du Times.

    OpenAI n’a pas nommé la personne qu’elle qualifie de « tueur à gages » et n’a pas accusé le journal d’enfreindre les lois anti-piratage.

    Tout comme OpenAI avant elle, Microsoft accuse le Times d’avoir créé des « instructions irréalistes » pour inciter les outils basés sur GPT à générer des réponses correspondant à son contenu.

    L’entreprise compare également la plainte du Times aux efforts des studios hollywoodiens pour « stopper une nouvelle technologie révolutionnaire » : le magnétoscope (VCR). Plus précisément, Microsoft a comparé les L.L.M. aux enregistreurs à vidéocassette, arguant que les deux sont autorisés par la loi. « Malgré les affirmations du Times, la loi sur le droit d'auteur n'est pas plus un obstacle pour le L.L.M. qu'elle ne l'était pour le magnétoscope (ou le piano mécanique, la photocopieuse, l'ordinateur personnel, l'internet ou le moteur de recherche) », peut-on lire dans la motion.

    À la fin des années 1970, les studios de cinéma ont poursuivi Sony pour son magnétoscope Betamax, arguant qu'il permettrait aux gens de copier illégalement des films et des émissions de télévision. Mais les tribunaux ont finalement estimé que la réalisation de ces copies à des fins de visionnage personnel constituait un usage loyal au regard de la loi.

    En effet, au lieu de nuire à Hollywood, le VCR a contribué à l’essor de l’industrie du divertissement en ouvrant de nouvelles sources de revenus. Le fabricant de Windows estime alors que les LLM constituent une avancée majeure en matière d’intelligence artificielle, et Microsoft a collaboré avec OpenAI pour « mettre leur extraordinaire puissance à la portée du public », car elle « croit fermement en leur capacité à améliorer la vie et le travail des gens ».

    Microsoft a déclaré que trois parties du procès devraient être rejetées en partie parce que le Times n'a pas démontré de préjudice réel

    L’entreprise demande au tribunal de rejeter trois chefs d’accusation, dont celui affirmant qu’elle est responsable de la violation du droit d’auteur par les utilisateurs finaux via l’utilisation d’outils basés sur GPT, ainsi que celui alléguant une violation du Digital Millennium Copyright Act. Microsoft souhaite également que le tribunal rejette l’élément de l’affaire dans lequel le Times l’accuse d’avoir détourné des actualités urgentes et des recommandations d’achats pour les consommateurs. À titre d’exemple, le Times a soutenu dans sa plainte qu’il perdra des revenus si les utilisateurs demandent à ChatGPT de rechercher des articles sur Wirecutter, propriété du journal, car les acheteurs potentiels ne cliqueront plus sur ses liens de recommandation. Cependant, Microsoft considère que cela relève de la « spéculation sur ce que le Times craint apparemment qu’il se produise », et le journal n’a fourni aucun exemple concret dans sa plainte.

    « Microsoft ne conteste pas avoir travaillé avec OpenAI pour copier des millions d’œuvres du Times sans autorisation afin de construire ses outils », a déclaré Ian Crosby, avocat principal du Times. « Au lieu de cela, elle compare étrangement les LLM au VCR, même si les fabricants de VCR n’ont jamais prétendu qu’il était nécessaire de se livrer à une violation massive du droit d’auteur pour construire leurs produits. »

    Conclusion

    Comme d'autres entreprises d'I.A., Microsoft et OpenAI ont construit leur technologie en l'alimentant avec d'énormes quantités de données numériques, dont certaines sont probablement protégées par des droits d'auteur. Les entreprises d'I.A. ont affirmé qu'elles pouvaient légalement utiliser ces données pour former leurs systèmes sans avoir à les payer, parce qu'elles sont publiques et qu'elles ne les reproduisent pas dans leur intégralité.

    Le Times est le premier grand média américain à poursuivre Microsoft et OpenAI pour des questions de droits d'auteur liés à ses œuvres écrites. Des écrivains, des codeurs informatiques et d'autres groupes ont également intenté des actions en justice pour violation des droits d'auteur contre des entreprises qui développent des technologies d'IA générative, c'est-à-dire des technologies qui génèrent du texte, des images et d'autres médias.

    OpenAI et Microsoft font face à d'autres poursuites judiciaires liées au contenu utilisé pour former leurs LLM. Des écrivains de non-fiction et des auteurs de fiction, dont Michael Chabon, George R.R. Martin, John Grisham et Jodi Picoult, ont accusé les entreprises d'avoir volé leur travail pour entraîner l'IA. Plus récemment, The Intercept, Raw Story et AlterNet ont intenté des actions en justice distinctes contre l'entreprise, car ChatGPT reproduirait leur contenu « mot pour mot ou presque » tout en supprimant les attributions appropriées.

    Source : motion de Microsoft

    Et vous ?

    Quelle est votre opinion sur l’utilisation d’articles de presse pour former des modèles de langage comme GPT ? Pensez-vous que les entreprises devraient obtenir une autorisation explicite avant d’utiliser du contenu protégé par le droit d’auteur ?
    Les technologies d’intelligence artificielle (IA) menacent-elles réellement le journalisme indépendant ? Ou bien est-ce une exagération ? Quels sont les avantages et les inconvénients de l’utilisation de l’IA dans le domaine du journalisme ?
    Le Times a-t-il raison de poursuivre Microsoft et OpenAI ? Quelles sont les implications plus larges de cette affaire pour l’avenir de l’IA et du droit d’auteur ?
    Pensez-vous que les LLM (large language models) devraient être soumis à des règles plus strictes en matière d’utilisation de contenu protégé par le droit d’auteur ? Si oui, quelles mesures devraient être prises ?
    Quelles sont les responsabilités des entreprises technologiques lorsqu’il s’agit d’utiliser des œuvres protégées par le droit d’auteur pour former des modèles d’IA ?
    Images attachées Images attachées

  6. #86
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 057
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 057
    Points : 209 140
    Points
    209 140
    Par défaut Le New York Times rejette l'allégation de « piratage » évoqué par OpenAI dans le cadre d'un litige copyright
    Le New York Times rejette l'allégation de « piratage » évoqué par OpenAI dans le cadre d'un litige sur les droits d'auteur,
    la qualifiant « d'aussi hors de propos que fausse »

    Dans un récent développement juridique, le New York Times a nié les allégations d’OpenAI selon lesquelles le journal aurait « piraté » les systèmes d’intelligence artificielle de l’entreprise pour créer des preuves trompeuses de violation du droit d’auteur. Cette déclaration intervient en réponse à une accusation qualifiée par le Times « d’aussi hors de propos que fausse »

    OpenAI a accusé le New York Times d'avoir payé quelqu'un pour "pirater" ChatGPT afin de générer des paragraphes textuels à partir d'articles de son journal. Par piratage, l'entreprise entend sans doute : se connecter comme d'habitude et lui poser des questions visant à piéger le chatbot IA.

    En décembre, le NYT a intenté un procès à OpenAI et à son bailleur de fonds Microsoft, les accusant de s'être emparés sans autorisation du site web du journal pour entraîner de grands modèles de langage. L'action en justice comprenait ce qui était censé être la preuve que ChatGPT reproduisait des passages entiers d'articles du New York Times à la suite d'invites envoyées par les utilisateurs.

    La plainte du New York Times citait plusieurs exemples où les chatbots d’OpenAI et de Microsoft donnaient aux utilisateurs des extraits quasi textuels de ses articles lorsqu’ils étaient sollicités. Elle accusait OpenAI et Microsoft de vouloir « profiter gratuitement de l’énorme investissement du Times dans le journalisme » et de créer un substitut au journal.

    L'éditeur estime que les utilisateurs de la technologie d'OpenAI - que Microsoft applique à l'ensemble de son empire logiciel et cloud - pourraient effectivement contourner le paywall du journal et lire des articles gratuitement en demandant au chatbot de générer des morceaux de texte qu'il a couvert, privant ainsi l'entreprise de l'argent de ses abonnements.

    Nom : un.png
Affichages : 9877
Taille : 476,5 Ko
    Sur la gauche se trouve une partie de la réponse générée par ChatGPT. À droite, l'article du New York Times. Le texte correspondant est en rouge.

    Mais OpenAI n'est pas d'accord et demande au tribunal de rejeter l'affaire

    OpenAI a toutefois riposté cette semaine à ces allégations en demandant au tribunal de rejeter l'affaire. La startup a estimé que les preuves fournies par le journal « semblent avoir été des efforts prolongés et étendus pour pirater les modèles d'OpenAI », et a nié que ChatGPT puisse détourner les gens des paywall, ajoutant que les gens n'utilisent pas le chatbot pour lire des articles publiés de toute façon.

    OpenAI a allégué que « 100 exemples dans lesquels une version du modèle GPT-4 d'OpenAI a soi-disant généré plusieurs paragraphes du contenu du Times en réponse à des invites de l'utilisateur » ne reflètent pas la façon dont les gens normaux utilisent ChatGPT.

    Au contraire, il aurait fallu au Times « des dizaines de milliers de tentatives pour générer » ces supposés « résultats hautement anormaux » en « ciblant et en exploitant un bogue » qu'OpenAI affirme s'être maintenant « engagée à corriger ».

    Selon OpenAI, cette activité équivaut à des « attaques fabriquées » par un « tueur à gages », qui aurait piraté les modèles OpenAI jusqu'à ce qu'ils hallucinent du faux contenu du NYT ou régurgitent des données d'entraînement pour reproduire les articles du NYT. Le NYT aurait payé pour ces « attaques » afin de recueillir des preuves à l'appui des affirmations du Times selon lesquelles les produits d'OpenAI mettent en péril son journalisme en régurgitant prétendument des reportages et en volant l'audience du Times.

    OpenAI n’a pas nommé la personne qu’elle qualifie de « tueur à gages » et n’a pas accusé le journal d’enfreindre les lois anti-piratage.

    Dans une précédente tentative de décrédibiliser le New York Times, OpenAI avait indiqué :

    Nos discussions avec le New York Times semblaient progresser de manière constructive jusqu'à notre dernière communication du 19 décembre. Les négociations portaient sur un partenariat de grande valeur autour de l'affichage en temps réel avec attribution dans ChatGPT, dans lequel le New York Times gagnerait un nouveau moyen de se connecter avec ses lecteurs existants et nouveaux, et nos utilisateurs auraient accès à leurs reportages. Nous avions expliqué au New York Times que, comme toute source unique, son contenu ne contribuait pas de manière significative à la formation de nos modèles existants et n'aurait pas non plus suffisamment d'impact pour les formations futures. Le procès qu'ils ont intenté le 27 décembre - dont nous avons pris connaissance en lisant le New York Times - nous a surpris et déçus.

    En cours de route, ils ont mentionné avoir constaté une certaine régurgitation de leur contenu, mais ils ont refusé à plusieurs reprises de partager des exemples, malgré notre engagement à enquêter et à résoudre les problèmes. Nous avons montré à quel point nous prenons cette question au sérieux, comme en juillet, lorsque nous avons supprimé une fonction de ChatGPT immédiatement après avoir appris qu'elle pouvait reproduire du contenu en temps réel de manière involontaire.

    Il est intéressant de noter que les régurgitations provoquées par le New York Times semblent provenir d’articles vieux de plusieurs années qui ont proliféré sur plusieurs sites Web tiers. Il semble qu’ils aient intentionnellement manipulé les invites, comprenant souvent de longs extraits d’articles, afin de faire régurgiter notre modèle. Même lorsqu’ils utilisent de telles invites, nos modèles ne se comportent généralement pas comme le laisse entendre le New York Times, ce qui suggère qu’ils ont soit demandé au modèle de régurgiter, soit sélectionné leurs exemples parmi de nombreuses tentatives.
    Nom : nyt.png
Affichages : 2139
Taille : 263,9 Ko

    Le New York Times réplique

    Ci-dessous un extrait du dépôt du New York Times.

    Ne disposant d'aucun motif réel de rejet, OpenAI consacre une grande partie de son dossier à des déclarations grandiloquentes sur des questions qu'elle n'a pas abordées. Sa requête introduit pas moins de 19 documents extrinsèques, dont aucun ne peut être correctement pris en compte dans le cadre d'une motion de rejet, dans une soumission qui, sur près de 10 pages, ressemble plus à une pirouette qu'à un mémoire juridique.

    Il est évident que l'affirmation d'OpenAI, qui attire l'attention, selon laquelle le Times a « piraté » ses produits est aussi peu pertinente que fausse. Comme le montre clairement la pièce J de la plainte, le Times a obtenu des exemples de mémorisation en demandant à GPT-4 d'écrire les premiers mots ou les premières phrases des articles du Times. Ce travail n'était nécessaire que parce qu'OpenAI ne divulgue pas le contenu qu'elle utilise pour entraîner ses modèles et alimenter ses produits destinés aux utilisateurs. Pourtant, selon OpenAI, le Times a commis un acte répréhensible en détectant le vol par OpenAI de son propre contenu protégé par le droit d'auteur. Le véritable grief d'OpenAI ne porte pas sur la manière dont le Times a mené son enquête, mais plutôt sur ce que cette enquête a révélé : que les défendeurs ont construit leurs produits en copiant le contenu du Times à une échelle sans précédent - un fait qu'OpenAI ne conteste pas et ne peut pas contester.

    Bien qu'elle cherche à justifier ce comportement par tous les moyens possibles, OpenAI ne demande pas le rejet de l'allégation principale selon laquelle elle aurait violé les droits d'auteur du Times pour former et faire fonctionner ses derniers modèles. Contre les revendications qu'elle conteste, OpenAI avance principalement des arguments factuels qui ne peuvent être tranchés sur la base des plaidoiries. Tout d'abord, pour appuyer son argument de prescription pour les réclamations basées sur des modèles développés avant décembre 2020, OpenAI demande à cette Cour de faire une constatation factuelle que la composition des ensembles de données utilisés pour former ces modèles était « de notoriété publique » en 2020 - même si le chatbot "viral" ChatGPT d'OpenAI n'a été publié qu'en novembre 2022.

    Deuxièmement, la demande d'OpenAI de rejeter la plainte pour violation contributive repose sur des faits contestés concernant le comportement des utilisateurs et exigerait que la Cour accepte son affirmation selon laquelle « dans le monde réel, les gens n'utilisent pas ChatGPT ou tout autre produit d'OpenAI dans ce but », malgré l'utilisation largement rapportée de ChatGPT pour contourner les paywalls.

    Troisièmement, l'attaque d'OpenAI sur la plainte DMCA repose sur des questions de fait contestées concernant la « conception » du processus de formation de modèle d'OpenAI, qui ne peuvent pas être résolues avant la découverte de cette conception.

    Quatrièmement, OpenAI demande à la Cour de rejeter la plainte pour concurrence déloyale par appropriation illicite en ignorant les allégations du Times concernant le parasitisme des défendeurs et en décidant que les recommandations de produits du Times ne sont pas générées par des « efforts semblables à des reportages », encore un autre argument prématuré. La découverte, et non le rejet, est justifiée pour résoudre chacune de ces réclamations bien déposées.

    Source : plainte

    Et vous ?

    Quelle est votre opinion sur l’utilisation du contenu protégé par le droit d’auteur pour entraîner des modèles d’intelligence artificielle ?
    Pensez-vous que les actions d’OpenAI constituent une utilisation équitable du contenu du New York Times ? Pourquoi ou pourquoi pas ?
    Comment les entreprises technologiques devraient-elles équilibrer l’innovation avec le respect des droits d’auteur ?
    Quelles mesures les éditeurs de contenu devraient-ils prendre pour protéger leurs œuvres contre l’utilisation non autorisée par des tiers ?
    Le ‘piratage’ allégué par OpenAI change-t-il votre perspective sur la sécurité et l’éthique des technologies d’intelligence artificielle ?
    Quel impact pensez-vous que cette affaire aura sur l’avenir des relations entre les médias et les entreprises d’IA ?
    Images attachées Images attachées

  7. #87
    Chroniqueur Actualités

    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Juin 2023
    Messages
    974
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Bénin

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2023
    Messages : 974
    Points : 17 296
    Points
    17 296
    Par défaut Les entreprises semblent à court de données pour entraîner leurs modèles après avoir englouti tout Internet
    Les entreprises d'IA sont-elles à court de données pour entraîner leurs modèles après avoir englouti l'ensemble de l'Internet ?
    Un rapport alerte sur une potentielle pénurie de données à l'avenir

    Un récent rapport sur les évolutions dans le domaine de l'IA alerte sur un problème potentiel : Internet pourrait s'avérer trop petit pour répondre aux besoins des entreprises en matière de données destinées à l'entraînement des modèles. Le rapport suggère qu'une pénurie de données se profile à l'horizon, avec des conséquences dévastatrices pour les entreprises et un ralentissement l'innovation. Mais cette inquiétude n'est pas partagée par tous. Certains affirment qu'il reste de larges pans d'Internet encore peu exploités ou inexplorés, en particulier la vidéo et les données synthétiques. La disponibilité des données reste une préoccupation majeure pour le secteur.

    L'intelligence artificielle est gourmande en données. Tous les aspects de l'IA - modèles d'apprentissage automatique, apprentissage continu, généralisation et analyses prédictives et descriptives - nécessitent de vastes ensembles de données. Plus les données sont diverses et complètes, plus l'IA est performante. C'est pourquoi les données sont souvent considérées comme le "carburant d'entraînement" de l'IA. Les progrès réalisés dans le domaine de l'IA ces dernières années ont été rendus possibles grâce aux données collectées ici et là sur Internet. Mais que se passerait-il si cette denrée précieuse venait à manquer à l'avenir ?

    Selon un rapport publié récemment par le Wall Street Journal (WSJ), le problème pourrait se poser bien plus tôt qu'on ne le pense. La demande de données est de plus en plus importante, ce qui met à rude épreuve le réservoir de données publiques de qualité disponibles en ligne. Dans le même temps, certains propriétaires de banques de données bloquent l'accès à leurs ressources aux entreprises spécialisées dans l'IA. Le rapport explore la manière dont les entreprises spécialisées dans l'IA commencent à prendre en compte la pénurie potentielle de données sur lesquelles entraîner leurs prochains grands modèles de langage.


    Tout d'abord, seule une partie des données en ligne est généralement adaptée à l'apprentissage de l'IA. La plupart des informations publiques sur le Web contiennent des fragments de phrases et d'autres défauts textuels qui peuvent empêcher l'IA de produire des réponses acceptables. Ensuite, les principaux organes d'information, les plateformes de médias sociaux et d'autres sources d'information ont restreint l'accès à leur contenu en raison de préoccupations liées aux droits d'auteur, à la protection de la vie privée et à la rémunération équitable. Enfin, les particuliers sont très peu enclins à partager leurs données privées.

    Maintenant qu'Internet devient trop petit, certaines entreprises recherchent d'autres sources d'entraînement aux données, avec comme options des transcriptions de vidéos accessibles au public et même des données synthétiques générées à partir de moteurs de jeux en 3D ou de robots en laboratoire. D'autres entreprises explorent la possibilité d'utiliser des données générées par l'IA elle-même. Toutefois, l'utilisation de données générées par l'IA pour former d'autres modèles d'IA constitue un problème en soi : les risques d'hallucinations des modèles sont plus élevés. Cette approche pourrait à terme éloigner l'IA de la réalité.

    En d'autres termes, les experts en IA affirment qu'une très forte dépendance à l'égard des données générées par l'IA conduit à ce qu'ils appellent "une consanguinité numérique". Cela pourrait à terme entraîner l'effondrement du modèle d'IA sur lui-même. Un groupe de chercheurs du Royaume-Uni et du Canada a étudié la question. Dans le rapport de l'étude, les chercheurs expliquent : « nous constatons que l'utilisation d'un contenu généré par un modèle d'IA dans la formation entraîne des défauts irréversibles dans les modèles qui en résultent ». En outre, Ilia Shumailov, l'un des principaux auteurs de cette étude, a ajouté :

    « Au fil du temps, les erreurs dans les données générées s'accumulent et finissent par forcer les modèles qui apprennent à partir des données générées à percevoir la réalité de manière encore plus erronée. Nous avons été surpris d'observer la rapidité avec lequel l'effondrement du modèle se produit : les modèles peuvent rapidement oublier la plupart des données originales à partir desquelles ils ont appris ». Shumailov affirme que lorsqu'un modèle d'IA est exposé à davantage de données générées par l'IA, ses performances se dégradent. Cette approche ne semble donc pas être la solution idéale à une pénurie de données.

    Des startups comme Dataology, fondée par Ari Morcos, ancien chercheur de Meta et de Google DeepMind, explorent des méthodes pour former des modèles expansifs avec moins de données et de ressources. Mais la plupart des grands acteurs s'appuient sur des approches non conventionnelles et controversées de la formation des données. Ainsi, OpenAI envisagerait d'entraîner GPT-5 à l'aide de transcriptions de vidéos YouTube accessibles au public. Le laboratoire d'IA est déjà critiqué pour avoir utilisé de telles vidéos pour entraîner Sora et pourrait faire l'objet de poursuites judiciaires de la part des créateurs de ces vidéos.

    OpenAI et Anthropic prévoient de remédier à ce problème en développant des données synthétiques de qualité supérieure, bien que les spécificités de leurs méthodologies restent encore floues. Le mois dernier, lors de la présentation de son grand modèle de langage Claude 3, Anthropic a admis que le modèle a été entraîné sur des données que l'entreprise génère en interne. En outre, Jared Kaplan, scientifique en chef d'Anthropic, a déclaré qu'il existe également de bons cas d'utilisation pour les données synthétiques. Pour l'instant, Claude 3 affiche les meilleures performances sur les benchmarks d'évaluation des modèles d'IA.

    Selon le rapport du WSJ, OpenAI a également discuté de la création d'un marché de données où les fournisseurs peuvent être payés pour fournir des contenus de qualité destinés à la formation des modèles d'IA. Google envisagerait une méthode similaire, bien que les chercheurs n'aient pas encore mis au point un système permettant de l'appliquer correctement. Malgré les prédictions selon lesquelles l'IA pourrait épuiser ses données d'entraînement utilisables dans les années à venir, certains critiques ont déclaré que des percées significatives pourraient atténuer ces craintes. La nature même de ces percées reste encore floue.

    Les inquiétudes concernant la rareté des données surviennent alors que les utilisateurs se plaignent de la qualité des chatbots d'IA. Certains utilisateurs de GPT-4 ont rapporté que le modèle a de plus en plus du mal à suivre correctement les instructions et à répondre aux requêtes. Google a mis en pause la fonction de génération d'images par l'IA sur son modèle Gemini après que des utilisateurs se sont plaints qu'elle produisait des images historiquement inexactes des présidents des États-Unis. De plus, les modèles d'IA sont généralement enclins à halluciner de fausses informations qu'ils considèrent comme exactes.

    Et vous ?

    Quel est votre avis sur le sujet ?
    Que pensez-vous d'une éventuelle pénurie de données pour l'entraînement de l'IA ?
    Les entreprises d'IA ont-elles pu réellement exploiter toutes les données utilisables de l'Internet ?
    Ces craintes sont-elles justifiées ? Comment les entreprises peuvent-elles éviter une pénurie de données à l'avenir ?
    L'approche consistant à entraîner l'IA sur plus de données pour plus de performances a-t-elle atteint ses limites ?

    Voir aussi

    La presse écrite veut être payée pour les articles utilisés pour alimenter l'outil d'IA ChatGPT, elle exige une part du marché qui devrait atteindre 1 300 millions de dollars d'ici à 2032

    OpenAI justifie pourquoi les données collectées pour la formation des modèles d'IA constituent selon elle un usage loyal et non une infraction

    Des chercheurs mettent en garde contre un "effondrement du modèle" lorsque l'IA s'entraîne sur du contenu généré par l'IA, ils affirment que cela pourrait à terme éloigner l'IA de la réalité

  8. #88
    Chroniqueur Actualités

    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Juin 2023
    Messages
    974
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Bénin

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2023
    Messages : 974
    Points : 17 296
    Points
    17 296
    Par défaut OpenAI aurait transcrit plus d'un million d'heures de vidéos YouTube pour entraîner son modèle d'IA GPT-4
    Le New York Times affirme qu'OpenAI a transcrit plus d'un million d'heures de vidéos YouTube pour entraîner son modèle d'IA GPT-4
    violant ainsi les droits d'auteur des créateurs de la plateforme

    Le New York Times apporte de nouveaux éléments à charge dans le cadre de sa lutte contre les pratiques d'OpenAI en matière de collecte de données pour entraîner ses modèles d'IA. L'organe de presse a publié un nouveau rapport dans lequel il affirme qu'OpenAI a transcrit plus d'un million d'heures de vidéos YouTube pour entraîner son grand modèle de langage GPT-4. Google, qui appartient au même groupe que YouTube, Alphabet, était au courant des actions d'OpenAI, mais n'a pas agi, car il utiliserait également des vidéos YouTube pour entraîner ses propres modèles. Ces actions violent les règles de YouTube et potentiellement les droits d'auteur des créateurs.

    L'intelligence artificielle est gourmande en données. Tous les aspects de l'IA - modèles d'apprentissage automatique, apprentissage continu, généralisation et analyses prédictives et descriptives - nécessitent de vastes ensembles de données. Plus les données sont diverses et complètes, plus l'IA est performante. C'est pourquoi les données sont souvent considérées comme le "carburant d'entraînement" de l'IA. Les progrès réalisés dans le domaine de l'IA ces dernières années ont été rendus possibles grâce aux données collectées ici et là sur Internet. Mais que se passerait-il si cette denrée précieuse venait à manquer à l'avenir ?

    Des analystes ont récemment alerté sur le fait que les entreprises d'IA pourraient faire face à une potentielle pénurie de données dans un avenir proche. Samedi, le New York Times a publié un rapport détaillant quelques-unes des méthodes utilisées par les entreprises pour résoudre ce problème. Sans surprise, il s'agit de faire des choses qui tombent dans la zone grise de la loi sur les droits d'auteur. Ces différents moyens, non conventionnels et potentiellement condamnables, permettent aux entreprises d'IA d'élargir leur accès aux données, sans avoir à payer une redevance aux créateurs, aux artistes, et bien d'autres encore.

    Nom : 142.png
Affichages : 58448
Taille : 96,3 Ko

    Par exemple, le rapport indique que lorsqu'OpenAI a épuisé toutes les sources de textes en anglais dignes de confiance sur Internet pour développer son dernier système d'IA, GPT-4, il a décidé de se tourner vers les vidéos YouTube. Les chercheurs de l'entreprise ont alors créé un outil de reconnaissance vocale appelé Whisper. Cet outil peut transcrire l'audio des vidéos YouTube, ce qui permet à l'entreprise d'obtenir un nouveau texte conversationnel qui rendrait le système d'IA plus intelligent. OpenAI était conscient du fait que ce projet pourrait aller à l'encontre des règles de YouTube, mais n'a pas hésité à aller jusqu'au bout.

    YouTube interdit l'utilisation de ses vidéos pour des applications indépendantes" de la plateforme vidéo. Le rapport allègue qu'OpenAI savait que cette démarche était juridiquement contestable, mais qu'elle estimait qu'il s'agissait d'une utilisation équitable. Le président d'OpenAI, Greg Brockman, se serait personnellement impliqué dans la collecte des vidéos utilisées. Enfin de compte, OpenAI aurait utilisé son outil de reconnaissance vocale Whisper pour transcrire plus d'un million d'heures de vidéos YouTube, qui ont ensuite été utilisées pour entraîner GPT-4. OpenAI n'a pas obtenu le consentement des créateurs de contenus.

    Ce n'est pas la première fois qu'OpenAI fait l'objet de telles allégations. Précédemment, le média The Information avait rapporté qu'OpenAI avait utilisé des vidéos YouTube et des podcasts pour entraîner ses systèmes d'IA. Ce faisant, le laboratoire d'IA de San Francisco viole potentiellement les droits d'auteurs des créateurs de contenu et ne leur propose aucune contrepartie. Lindsay Held, porte-parole d'OpenAI, a déclaré que l'entreprise utilise de nombreuses sources, y compris des données accessibles au public et des partenariats pour des données non publiques, et qu'elle envisage de générer ses propres données synthétiques.

    Matt Bryant, porte-parole de Google, a déclaré que l'entreprise interdit "le grattage ou le téléchargement non autorisé du contenu de YouTube". Il a ajouté que l'entreprise n'était pas au courant d'une telle utilisation de la part d'OpenAI. Mais le rapport affirme que certaines personnes chez Google étaient au courant, mais n'ont pas agi contre OpenAI parce que Google utilisait également des vidéos YouTube pour entraîner ses propres modèles d'IA. Google a déclaré qu'il ne le faisait qu'avec des vidéos de créateurs ayant donné leur accord. De son côté, OpenAI n'a jamais précisé les sources des données d'entraînement de GPT-4.

    En outre, le rapport allègue que le service juridique de Google a demandé à l'équipe chargée de la protection de la vie privée de l'entreprise de modifier le libellé de sa politique afin d'étendre ce qu'elle pouvait faire avec les données des utilisateurs, comme ses outils de bureautique tels que Google Docs et Google Sheets. La nouvelle politique aurait été intentionnellement publiée le 1er juillet pour profiter de la distraction du week-end de la fête de l'Indépendance des États-Unis. Cependant, Google rejette les allégations selon lesquelles l'entreprise a fait exprès de pousser un changement important lors d'un week-end de fête.

    Bryant a déclaré que ce type de données (vidéos) n'est utilisé qu'avec l'autorisation des utilisateurs qui participent aux tests de fonctionnalités expérimentales de Google, et que "l'entreprise n'a pas commencé à s'entraîner sur d'autres types de données à la suite de ce changement de langage". Il convient de rappeler que la mise à jour a ajouté Bard comme exemple d'utilisation de ces données. La semaine dernière, Neal Mohan, directeur de YouTube, a évoqué la possibilité qu'OpenAI ait utilisé YouTube pour entraîner son modèle de génération de vidéos Sora. (Ce dernier peut générer une vidéo à partir d'instructions textuelles.)

    Meta se serait également heurté aux limites de la disponibilité des données d'entraînement. D'après le rapport, après avoir parcouru presque tous les livres, essais, poèmes et articles de presse en langue anglaise disponibles sur Internet, Meta aurait envisagé de prendre des mesures telles que le paiement de licences d'exploitation de livres ou même l'achat pur et simple d'un grand éditeur. L'entreprise était aussi apparemment limitée dans la façon dont elle pouvait utiliser les données des consommateurs par les changements axés sur la protection de la vie privée qu'elle a apportés à la suite du scandale Cambridge Analytica.

    Google, OpenAI et leurs rivaux sont confrontés à l'évaporation rapide des données de formation pour leurs modèles, qui s'améliorent au fur et à mesure qu'ils absorbent des données. Selon une récente analyse sur le sujet, Internet pourrait s'avérer trop petit pour répondre aux besoins des entreprises en matière de données d'entraînement. Cela signifie qu'une pénurie de données se profile à l'horizon, ce qui pourrait avoir de graves conséquences pour les entreprises d'IA et un ralentissement l'innovation. Bien que cette inquiétude n'est pas partagée par tous, les entreprises recherchent déjà de nouvelles sources de données.

    Selon les entreprises d'IA, les solutions possibles à ce problème comprennent l'entraînement des modèles sur des données synthétiques créées par leurs propres modèles. Mais les experts en IA mettent en garde contre cette pratique et affirment qu'une très forte dépendance à l'égard des données générées par l'IA conduit à ce qu'ils appellent "une consanguinité numérique". Cela pourrait à terme entraîner l'effondrement du modèle d'IA sur lui-même.

    L'autre option des entreprises consiste à utiliser tout ce qu'elles peuvent trouver, qu'elles en aient l'autorisation ou non, et si l'on en croit les nombreux procès dont elles font l'objet, cette voie semble plus qu'incertaine. Le New York Times exige qu'OpenAI supprime de ses données d'entraînement tous les articles de presse et les autres contenus de l'organe de presse.

    Et vous ?

    Quel est votre avis sur le sujet ?
    Que pensez-vous des allégations portées contre OpenAI par le New York Times ?
    Que risque OpenAI s'il s'avère qu'il a utilisé sans autorisation des vidéos YouTube pour entraîner ses modèles ?
    Comment les entreprises d'IA peuvent-elles faire face à leurs besoins sans cesse croissants en données d'entraînement ?

    Voir aussi

    Les entreprises d'IA sont-elles à court de données pour entraîner leurs modèles après avoir englouti l'ensemble de l'Internet ? Un rapport alerte sur une potentielle pénurie de données

    Le New York Times exige qu'OpenAI supprime toutes ses instances GPT dans une poursuite relative au droit d'auteur, affirmant que des millions de ses articles ont été utilisés pour former ChatGPT

    Microsoft accuse le New York Times de propager une « futurologie apocalyptique » dans le cadre du procès OpenAI et demande de rejeter des éléments clés du procès intenté pour violation du copyright

  9. #89
    Membre expert
    Homme Profil pro
    Étudiant
    Inscrit en
    Novembre 2021
    Messages
    1 220
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Drôme (Rhône Alpes)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Novembre 2021
    Messages : 1 220
    Points : 3 309
    Points
    3 309
    Par défaut
    Tant que GPT-4 ne bloque pas les publicités lors de son visionnage, pour Youtube ça ne devrait pas poser de problèmes.


  10. #90
    Membre émérite
    Homme Profil pro
    Expertise comptable
    Inscrit en
    Décembre 2019
    Messages
    782
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Expertise comptable
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Décembre 2019
    Messages : 782
    Points : 2 774
    Points
    2 774
    Par défaut
    Personne se dit qu'en s'entrainant sur youtube un modele d'IA à plus de chambre de finir par ressembler au cousin dégénéré du moyen-âge qu'à un Leonard de Vinci 3.0 ?

    L'IA entrainé à Pewdiepie c'est le début la fin des temps.

  11. #91
    Membre éclairé
    Homme Profil pro
    Développeur .NET
    Inscrit en
    Septembre 2014
    Messages
    230
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Développeur .NET
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Septembre 2014
    Messages : 230
    Points : 780
    Points
    780
    Par défaut
    Heureusement qu'ils n'ont pas entrainé GPT-4 sur des vidéos TikTok

  12. #92
    Membre actif
    Homme Profil pro
    Développeur .NET
    Inscrit en
    Juillet 2021
    Messages
    87
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 34
    Localisation : France, Isère (Rhône Alpes)

    Informations professionnelles :
    Activité : Développeur .NET

    Informations forums :
    Inscription : Juillet 2021
    Messages : 87
    Points : 273
    Points
    273
    Par défaut
    si ils viraient leurs brides idéologiques ça irait peut être déjà un peu plus loin

  13. #93
    Membre régulier
    Homme Profil pro
    Inscrit en
    Mai 2012
    Messages
    45
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Secteur : Santé

    Informations forums :
    Inscription : Mai 2012
    Messages : 45
    Points : 92
    Points
    92
    Par défaut Qu'est-ce que pourrait "générer" quelque chose qui n'a pas de cerveau ?
    Évidemment que, lorsque l'"IA" s'inspire de tout contenu digital présent sur Internet ou ailleurs, il ne peut pas y avoir lieu de "générer" qqch si ce n'est pas de copier des morceaux qu'elle a appris et de les mettre ensemble. Vous ne verrez jamais quelque chose de vraiment nouveau, il y aura toujours des morceaux copiés mis ensemble. Donc techniquement c'est une géante "violation des droits d'auteur", même s'il peut s'agir de contenu "libre" qui est utilisé. S'il n'y avait pas ce contenu libre et que tout était protégé par des droit d'auteur, pourrait-on parler d'IA du point de vue légal ?...

  14. #94
    Membre chevronné

    Homme Profil pro
    Consultant informatique
    Inscrit en
    Avril 2015
    Messages
    459
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Vendée (Pays de la Loire)

    Informations professionnelles :
    Activité : Consultant informatique
    Secteur : Finance

    Informations forums :
    Inscription : Avril 2015
    Messages : 459
    Points : 1 975
    Points
    1 975
    Par défaut
    Citation Envoyé par impopia Voir le message
    Évidemment que, lorsque l'"IA" s'inspire de tout contenu digital présent sur Internet ou ailleurs, il ne peut pas y avoir lieu de "générer" qqch si ce n'est pas de copier des morceaux qu'elle a appris et de les mettre ensemble. Vous ne verrez jamais quelque chose de vraiment nouveau, il y aura toujours des morceaux copiés mis ensemble.
    Dans quelle mesure sommes-nous vraiment libres de nos créations, qu'est-ce qui nous distingue fondamentalement de ces systèmes, hormis le volume d'apprentissage ?
    Sûr ce point, il faut reprendre les chiffres de Yann LeCun. Un gosse de quatre ans ridiculise en masse d'information acquise n'importe quel "grand modèle" d'aujourd'hui. Et il continue à apprendre à chaque instant, lui...

  15. #95
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 057
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 057
    Points : 209 140
    Points
    209 140
    Par défaut Le Financial Times et OpenAI concluent un accord de licence de contenu afin d'améliorer ChatGPT
    Le Financial Times et OpenAI concluent un accord de licence de contenu afin d'améliorer ChatGPT,
    il s'agit du cinquième accord de ce type conclu par OpenAI au cours de l'année écoulée

    Le Financial Times (FT) a annoncé un partenariat stratégique et un accord de licence avec OpenAI. Cet accord permettra à OpenAI d’utiliser le contenu archivé du FT pour former ses modèles d’IA, avec l’objectif d’améliorer la technologie de l’IA générative, capable de créer du texte, des images et du code qui ressemblent étroitement aux créations humaines.

    L'intelligence artificielle est gourmande en données. Tous les aspects de l'IA (modèles d'apprentissage automatique, apprentissage continu, généralisation et analyses prédictives et descriptives) nécessitent de vastes ensembles de données. Plus les données sont diverses et complètes, plus l'IA est performante. C'est pourquoi les données sont souvent considérées comme le « carburant d'entraînement » de l'IA. Les progrès réalisés dans le domaine de l'IA ces dernières années ont été rendus possibles grâce aux données collectées ici et là sur Internet.

    OpenAI a entrepris de former des partenariats avec des organes de presse pour former son IA. Le dernier en date étant le quotidien Financial Times.

    Un partenariat stratégique

    Le partenariat entre le FT et OpenAI est décrit comme une collaboration visant à enrichir ChatGPT avec du contenu attribué, à améliorer l’utilité des modèles de l’IA en intégrant le journalisme du FT, et à collaborer au développement de nouveaux produits et fonctionnalités d’IA pour les lecteurs du FT. Le FT est également devenu client de ChatGPT Enterprise plus tôt cette année, offrant ainsi à tous ses employés l’accès à la technologie pour bénéficier des gains de créativité et de productivité rendus possibles par les outils d’OpenAI.

    Selon les termes de l'accord, le FT accordera une licence d'utilisation de son matériel au créateur de ChatGPT pour l'aider à développer une technologie d'IA générative capable de créer des textes, des images et des codes impossibles à différencier des créations humaines. L'accord permet également à ChatGPT de répondre aux questions par de courts résumés d'articles du FT, avec des liens vers FT.com. Cela signifie que les 100 millions d'utilisateurs du chatbot dans le monde peuvent accéder aux articles du FT par l'intermédiaire de ChatGPT, tout en renvoyant à la source originale.

    Citation Envoyé par OpenAI
    Grâce à ce partenariat, les utilisateurs de ChatGPT pourront voir des résumés attribués, des citations et des liens riches vers le journalisme du FT en réponse à des requêtes pertinentes. En outre, le FT est devenu un client de ChatGPT Enterprise au début de cette année, en achetant un accès pour tous les employés du FT afin de s'assurer que ses équipes sont bien familiarisées avec la technologie et peuvent bénéficier de la créativité et des gains de productivité rendus possibles par les outils d'OpenAI.
    Nom : open.png
Affichages : 6951
Taille : 35,0 Ko

    Vers un avenir collaboratif

    « Il s'agit d'un accord important à plusieurs égards », a déclaré John Ridding, PDG du groupe FT. « Il reconnaît la valeur de notre journalisme primé et nous donnera un aperçu de la façon dont le contenu est mis en valeur par l'IA. Nous sommes depuis longtemps un leader dans l'innovation des médias d'information, pionnier du modèle d'abonnement et des technologies d'engagement, et ce partenariat nous aidera à rester à la pointe des développements dans la façon dont les gens accèdent à l'information et l'utilisent. »

    « Le FT se consacre au journalisme humain, tel qu'il est produit par notre salle de rédaction inégalée, et cet accord élargira la portée de ce travail, tout en approfondissant notre compréhension des demandes et des intérêts des lecteurs », a ajouté Ridding. « Outre les avantages pour le FT, il y a des implications plus larges pour l'industrie. Il est juste, bien sûr, que les plateformes d'IA paient les éditeurs pour l'utilisation de leur matériel. OpenAI comprend l'importance de la transparence, de l'attribution et de la rémunération - autant d'éléments essentiels pour nous. Dans le même temps, il est clairement dans l'intérêt des utilisateurs que ces produits contiennent des sources fiables. »

    Brad Lightcap, directeur de l'exploitation d'OpenAI, s'est montré enthousiaste quant à l'évolution de la relation avec le Financial Times : « Notre partenariat et notre dialogue continu avec le FT visent à trouver des moyens créatifs et productifs pour que l'IA renforce les organismes de presse et les journalistes, et enrichisse l'expérience ChatGPT avec un journalisme de classe mondiale en temps réel pour des millions de personnes à travers le monde ».

    « Nous sommes impatients d'explorer les résultats pratiques concernant les sources d'information et l'IA dans le cadre de ce partenariat », a déclaré M. Ridding. « Nous apprécions l'opportunité d'être dans la boucle de développement alors que les gens découvrent le contenu d'une nouvelle manière. Comme pour toute technologie transformatrice, il existe un potentiel d'avancées significatives et de défis majeurs, mais il n'est jamais possible de revenir en arrière. Il est important pour nous de représenter un journalisme de qualité au fur et à mesure que ces produits prennent forme - avec les garanties appropriées en place pour protéger le contenu et la marque du FT.

    Il s'agit du cinquième accord de ce type conclu par OpenAI au cours de l'année écoulée

    L'entreprise a déjà conclu des accords similaires avec Associated Press (États-Unis), Axel Springer (Allemagne), Le Monde (France) et Prisa Media (Espagne). Les conditions financières n'ont pas été divulguées.

    Axel Springer devrait gagner des dizaines de millions d'euros par an en permettant à OpenAI d'accéder au contenu de ses publications telles que Bild, Politico et Business Insider. Cet accord comprend un paiement unique pour le contenu historique de l'éditeur et une redevance plus importante versée dans le cadre d'un accord de licence annuel pour permettre à OpenAI d'accéder à des informations plus récentes.

    Nom : nyt.png
Affichages : 1143
Taille : 262,9 Ko

    Le New York Times est devenu le premier grand groupe de presse américain à poursuivre OpenAI et Microsoft

    En décembre, le New York Times a intenté une action en justice contre OpenAI et Microsoft pour violation des droits d'auteur, affirmant que les entreprises technologiques ont utilisé ses articles pour former des chatbots qui menacent aujourd'hui les emplois des journalistes.

    L'action en justice, déposée devant la Cour fédérale de district de Manhattan, affirme que les entreprises ont illégalement fourni des « millions d'articles » à Bing Chat de Microsoft et à ChatGPT d'OpenAI pour développer leurs produits. « Cette action vise à les tenir responsables des milliards de dollars de dommages statutaires et réels qu'elles doivent pour la copie et l'utilisation illégales des œuvres de grande valeur du Times », indique la plainte.

    Le Times affirme que les programmes d'intelligence artificielle d'OpenAI et de Microsoft utilisent des modèles de langues étendues qui ont été développés en copiant leurs articles avec un accent particulier. « Les défendeurs cherchent à profiter de l'investissement massif du Times dans son journalisme en l'utilisant pour créer des produits substitutifs sans autorisation ni paiement », indique la plainte.

    La plainte du New York Times citait plusieurs exemples où les chatbots d’OpenAI et de Microsoft donnaient aux utilisateurs des extraits quasi textuels de ses articles lorsqu’ils étaient sollicités. Elle accusait OpenAI et Microsoft de vouloir « profiter gratuitement de l’énorme investissement du Times dans le journalisme » et de créer un substitut au journal.

    L'éditeur estime que les utilisateurs de la technologie d'OpenAI - que Microsoft applique à l'ensemble de son empire logiciel et cloud - pourraient effectivement contourner le paywall du journal et lire des articles gratuitement en demandant au chatbot de générer des morceaux de texte qu'il a couvert, privant ainsi l'entreprise de l'argent de ses abonnements.

    OpenAI a riposté en accusant le New York Times d'avoir payé quelqu'un pour « pirater » ChatGPT afin de générer des paragraphes textuels à partir d'articles de son journal. Par piratage, l'entreprise entend sans doute : se connecter comme d'habitude et lui poser des questions visant à piéger le chatbot IA.

    Dans une précédente tentative de décrédibiliser le New York Times, OpenAI avait indiqué :

    Nos discussions avec le New York Times semblaient progresser de manière constructive jusqu'à notre dernière communication du 19 décembre. Les négociations portaient sur un partenariat de grande valeur autour de l'affichage en temps réel avec attribution dans ChatGPT, dans lequel le New York Times gagnerait un nouveau moyen de se connecter avec ses lecteurs existants et nouveaux, et nos utilisateurs auraient accès à leurs reportages. Nous avions expliqué au New York Times que, comme toute source unique, son contenu ne contribuait pas de manière significative à la formation de nos modèles existants et n'aurait pas non plus suffisamment d'impact pour les formations futures. Le procès qu'ils ont intenté le 27 décembre - dont nous avons pris connaissance en lisant le New York Times - nous a surpris et déçus.

    En cours de route, ils ont mentionné avoir constaté une certaine régurgitation de leur contenu, mais ils ont refusé à plusieurs reprises de partager des exemples, malgré notre engagement à enquêter et à résoudre les problèmes. Nous avons montré à quel point nous prenons cette question au sérieux, comme en juillet, lorsque nous avons supprimé une fonction de ChatGPT immédiatement après avoir appris qu'elle pouvait reproduire du contenu en temps réel de manière involontaire.

    Il est intéressant de noter que les régurgitations provoquées par le New York Times semblent provenir d’articles vieux de plusieurs années qui ont proliféré sur plusieurs sites Web tiers. Il semble qu’ils aient intentionnellement manipulé les invites, comprenant souvent de longs extraits d’articles, afin de faire régurgiter notre modèle. Même lorsqu’ils utilisent de telles invites, nos modèles ne se comportent généralement pas comme le laisse entendre le New York Times, ce qui suggère qu’ils ont soit demandé au modèle de régurgiter, soit sélectionné leurs exemples parmi de nombreuses tentatives.
    Conclusion

    Cet accord marque un tournant dans la relation entre les médias et l’intelligence artificielle, promettant d’apporter une nouvelle dimension au journalisme et à l’accès à l’information. Avec les garanties appropriées en place pour protéger le contenu et la marque du FT, cet accord pourrait bien façonner l’avenir de la consommation de contenu et de l’interaction avec l’IA.

    Cependant, il serait intéressant de voir comment réagissent les autres parties qui s'estiment spoliées par l'IA d'OpenAI, notamment le New York Times et tous les autres détenteurs de droits qui poursuivent l'entreprise en justice pour violation du copyright.

    Source : OpenAI

    Et vous ?

    Quelles sont les implications de l’utilisation du contenu journalistique pour entraîner des modèles d’IA ?
    Comment cet accord pourrait-il changer la manière dont nous consommons les actualités à l’avenir ?
    Quels avantages le Financial Times peut-il tirer de ce partenariat avec OpenAI ?
    En quoi la collaboration entre les médias et l’IA peut-elle améliorer l’expérience des lecteurs ?
    Quelles mesures de sécurité doivent être mises en place pour protéger le contenu et la marque du FT ?
    Comment les organisations de presse peuvent-elles s’assurer que l’IA ne compromet pas l’intégrité du journalisme ?
    Quel rôle les lecteurs peuvent-ils jouer pour influencer l’avenir de l’IA dans le journalisme ?
    Quels défis le FT et OpenAI pourraient-ils rencontrer dans la mise en œuvre de cet accord ?
    Comment cet accord pourrait-il influencer la création de contenu par les journalistes ?
    Quel est le potentiel de l’IA pour générer des nouvelles qui sont non seulement informatives mais aussi engageantes et créatives ?

  16. #96
    Chroniqueur Actualités
    Avatar de Patrick Ruiz
    Homme Profil pro
    Redacteur web
    Inscrit en
    Février 2017
    Messages
    2 110
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Cameroun

    Informations professionnelles :
    Activité : Redacteur web
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Février 2017
    Messages : 2 110
    Points : 56 784
    Points
    56 784
    Par défaut Huit éditeurs de presse poursuivent Microsoft et OpenAI pour violation du droit d'auteur via leurs IA
    Huit éditeurs de presse poursuivent Microsoft et OpenAI pour violation du droit d'auteur lors de l’entraînement de ses modèles d’intelligence artificielle

    Des éditeurs de presse de Californie, du Colorado, de l'Illinois, de Floride, du Minnesota et de New York ont déclaré que Microsoft et OpenAI avaient utilisé des millions de leurs articles sans paiement ni autorisation pour développer des modèles d'intelligence artificielle pour ChatGPT et d'autres produits. La manœuvre intervient suite à une sortie d’OpenAI dans laquelle le créateur de ChatGPT reconnaît qu’il est impossible de créer des outils de ce genre sans contenus sous copyright. La porte de sortie de la situation semble résider dans la conclusion d’accords de licence avec les éditeurs de presse.

    Huit éditeurs de presse américains ont intenté une action en justice contre Microsoft et OpenAI devant un tribunal fédéral de New York. Ils affirment que les entreprises technologiques réutilisent leurs articles sans autorisation dans des produits d'intelligence artificielle générative et leur attribuent à tort des informations inexactes.

    Le groupe de huit éditeurs de journaux s'oppose à ChatGPT et à l'assistant Copilot de Microsoft, disponible dans le système d'exploitation Windows, le moteur de recherche Bing et d'autres produits du fabricant de logiciels. ChatGPT et Copilot ont « volé des millions d'articles protégés par le droit d'auteur des éditeurs sans autorisation et sans paiement », selon la plainte, qui a été déposée auprès du tribunal de district des États-Unis pour le district sud de New York.

    Nom : 0.png
Affichages : 5309
Taille : 28,7 Ko

    Les éditeurs de presse derrière la plainte exploitent le New York Daily News, le Chicago Tribune, l'Orlando Sentinel, le Sun Sentinel en Floride, le Mercury News en Californie, le Denver Post, l'Orange County Register en Californie et le Pioneer Press dans le Minnesota. Tous ces journaux sont la propriété du fonds spéculatif Alden Global Capital.

    Les éditeurs de presse déclarent dans l'action en justice que OpenAI avait utilisé des ensembles de données contenant du texte provenant de leurs journaux pour entraîner ses grands modèles linguistiques GPT-2 et GPT-3, qui peuvent produire du texte en réponse à une saisie humaine de quelques mots.

    Les éditeurs ajoutent que Microsoft copiait les informations de leurs journaux pour l'index de recherche Bing, ce qui permet d'éclairer les réponses dans le Copilot. Mais ces informations ne fournissent pas toujours des liens vers les sites web des journaux, où il est possible d'afficher des publicités à côté des articles ou de payer des abonnements.

    Cette bataille juridique intervient quatre mois après que le New York Times a poursuivi OpenAI pour violation des droits d'auteur dans le chatbot ChatGPT que la startup a lancé à la fin de 2022. Dans un billet de blog publié en janvier, OpenAI a déclaré que l'affaire n'était pas fondée, ajoutant qu'elle souhaitait soutenir "un écosystème de l'information sain". Le même mois, Sam Altman, PDG d'OpenAI, a déclaré que la startup souhaitait payer le New York Times et qu'elle avait été surprise d'apprendre l'existence de ce procès.

    Au cours des derniers mois, OpenAI a signé des accords avec une poignée de sociétés de médias, dont Axel Springer et le Financial Times, ce qui permet à la startup soutenue par Microsoft de puiser dans le contenu des éditeurs pour améliorer les modèles d'IA.

    Google, qui possède son propre chatbot généraliste pour répondre aux questions des utilisateurs, a déclaré en février qu'il avait conclu un accord avec Reddit qui lui donne le droit d'entraîner des modèles d'intelligence artificielle sur le contenu de la plateforme.

    Source : plainte

    Et vous ?

    Quelles sont les implications de l’utilisation du contenu journalistique pour entraîner des modèles d’IA ?
    Comment cet accord pourrait-il changer la manière dont nous consommons les actualités à l’avenir ?
    Quels avantages un éditeur de presse peut-il tirer de ce partenariat avec OpenAI ?
    En quoi la collaboration entre les médias et l’IA peut-elle améliorer l’expérience des lecteurs ?
    Quelles mesures de sécurité doivent être mises en place pour protéger le contenu et la marque du FT ?
    Comment les organisations de presse peuvent-elles s’assurer que l’IA ne compromet pas l’intégrité du journalisme ?
    Quel rôle les lecteurs peuvent-ils jouer pour influencer l’avenir de l’IA dans le journalisme ?
    Quels défis le FT et OpenAI pourraient-ils rencontrer dans la mise en œuvre de cet accord ?
    Comment cet accord pourrait-il influencer la création de contenu par les journalistes ?
    Quel est le potentiel de l’IA pour générer des nouvelles qui sont non seulement informatives mais aussi engageantes et créatives ?

    Voir aussi :

    Le New York Times envisage d'initier une action en justice contre OpenAI pour l'obliger à effacer les données d'entraînement de ChatGPT, le média dit non à l'usage de son contenu sans son accord

    Musk s'engage à poursuivre Microsoft en justice, l'accusant de s'être « entraînée illégalement avec les données de Twitter », tandis qu'elle abandonne l'intégration de Twitter de sa plateforme pub

    Des auteurs de livres poursuivent OpenAI en justice, affirmant que la société a abusé de leurs travaux pour former ChatGPT. Selon eux, les livres sont un « ingrédient clé » du chabot IA

  17. #97
    Chroniqueur Actualités
    Avatar de Patrick Ruiz
    Homme Profil pro
    Redacteur web
    Inscrit en
    Février 2017
    Messages
    2 110
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Cameroun

    Informations professionnelles :
    Activité : Redacteur web
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Février 2017
    Messages : 2 110
    Points : 56 784
    Points
    56 784
    Par défaut OpenAI a supprimé deux jeux de données qui avaient été utilisés pour entraîner illégalement GPT-3
    OpenAI a supprimé deux jeux de données utilisés pour entraîner illégalement GPT-3, ils contenaient des milliers de livres sous copyright
    Et les employés qui avaient collecté ces données ont disparu

    Des documents récemment dévoilés dans le cadre d’un recours collectif contre OpenAI révèlent que la startup a supprimé deux énormes ensembles de données, appelés "books1" et "books2", qui avaient été utilisés pour entraîner son modèle d'intelligence artificielle GPT-3. Les avocats de la firme Authors Guild ont déclaré dans les documents déposés au tribunal que les ensembles de données contenaient probablement plus de 100 000 livres publiés et qu'ils étaient au cœur des allégations selon lesquelles OpenAI avait utilisé des documents protégés par le droit d'auteur pour entraîner des modèles d'intelligence artificielle.

    Pendant des mois, la firme Authors Guild a cherché à obtenir des informations sur ces données auprès d'OpenAI. L'entreprise a d'abord résisté, invoquant des problèmes de confidentialité, avant de révéler qu'elle avait supprimé toutes les copies des données, selon les documents juridiques examinés par certains médias

    Dans un livre blanc publié en 2020, OpenAI a décrit les ensembles de données books1 et books2 comme des "corpus de livres basés sur Internet" et a indiqué qu'ils représentaient 16 % des données d'entraînement utilisées pour créer le GPT-3. Le livre blanc indique également que "books1" et "books2" contiennent ensemble 67 milliards de tokens de données, soit à peu près l'équivalent de 50 milliards de mots. À titre de comparaison, la Bible du roi Jacques contient 783 137 mots.

    La lettre non scellée des avocats d'OpenAI, qui porte la mention « hautement confidentiel - réservé aux avocats », indique que l'utilisation de books1 et books2 pour l'entraînement des modèles a cessé à la fin de 2021 et que les ensembles de données ont été supprimés à la mi-2022 en raison de leur non-utilisation. La lettre poursuit en indiquant qu'aucune des autres données utilisées pour entraîner le GPT-3 n'a été supprimée et offre aux avocats de la Guilde des auteurs l'accès à ces autres ensembles de données.

    Les documents non scellés révèlent également que les deux chercheurs qui ont créé books1 et books2 ne sont plus employés par OpenAI. OpenAI a d'abord refusé de révéler l'identité des deux employés.

    La startup a depuis identifié les employés auprès des avocats de la firme Authors Guild, mais n'a pas révélé publiquement leurs noms. OpenAI a demandé au tribunal de garder sous scellés les noms des deux employés, ainsi que les informations sur les ensembles de données. Authors Guild s'y est opposée, arguant du droit du public à être informé. Le litige est en cours.

    "Les modèles qui alimentent ChatGPT et notre API aujourd'hui n'ont pas été développés à partir de ces ensembles de données", a déclaré OpenAI dans un communiqué mardi. "Ces jeux de données, créés par d'anciens employés qui ne font plus partie d'OpenAI, ont été utilisés pour la dernière fois en 2021 et supprimés pour cause de non-utilisation en 2022."

    Nom : 1.jpg
Affichages : 8526
Taille : 31,9 Ko

    OpenAI même reconnaît qu’il est impossible de créer des outils comme ChatGPT sans contenus sous copyright

    « Nous pensons que les outils d'intelligence artificielle sont à leur summum lorsqu'ils intègrent et représentent toute la diversité et l'étendue de l'intelligence et de l'expérience humaines. Pour ce faire, les technologies d'IA de nos jours requièrent une grande quantité de données d'entraînement et de calcul, car les modèles examinent, analysent et apprennent des modèles et des concepts qui émergent de milliards de milliards de mots et d'images. Les grands modèles de langage d'OpenAI, y compris ChatGPT, sont développés à l'aide de trois sources principales de données d'entraînement : (1) informations disponibles publiquement sur Internet, (2) des informations que nous utilisons sous licence et (3) des informations fournies par nos utilisateurs ou nos formateurs humains. Étant donné que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine - y compris les articles de blog, les photographies, les messages de forum, etc. y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux - il serait impossible d’entraîner les meilleurs modèles d'IA d'aujourd'hui sans utiliser des documents protégés par le droit d'auteur. Limiter les données d'entraînement aux livres et dessins du domaine public et aux dessins créés il y a plus d'un siècle pourrait donner lieu à une expérience intéressante, mais ne permettrait pas d'obtenir des systèmes d'IA répondant aux besoins des citoyens d'aujourd'hui », répond OpenAI dans le cadre d’un questionnaire de la Chambre des Lords du Royaume-Uni.

    C’est la raison pour laquelle OpenAI s’ouvre de plus en plus à la conclusion d’accords de licence de contenu avec des éditeurs de presse

    Le Financial Times (FT) a annoncé un partenariat stratégique et un accord de licence avec OpenAI. Cet accord permettra à OpenAI d’utiliser le contenu archivé du FT pour former ses modèles d’IA, avec l’objectif d’améliorer la technologie de l’IA générative, capable de créer du texte, des images et du code qui ressemblent étroitement aux créations humaines.

    Le partenariat entre le FT et OpenAI est décrit comme une collaboration visant à enrichir ChatGPT avec du contenu attribué, à améliorer l’utilité des modèles de l’IA en intégrant le journalisme du FT, et à collaborer au développement de nouveaux produits et fonctionnalités d’IA pour les lecteurs du FT. Le FT est également devenu client de ChatGPT Enterprise plus tôt cette année, offrant ainsi à tous ses employés l’accès à la technologie pour bénéficier des gains de créativité et de productivité rendus possibles par les outils d’OpenAI.

    Selon les termes de l'accord, le FT accordera une licence d'utilisation de son matériel au créateur de ChatGPT pour l'aider à développer une technologie d'IA générative capable de créer des textes, des images et des codes impossibles à différencier des créations humaines. L'accord permet également à ChatGPT de répondre aux questions par de courts résumés d'articles du FT, avec des liens vers FT.com. Cela signifie que les 100 millions d'utilisateurs du chatbot dans le monde peuvent accéder aux articles du FT par l'intermédiaire de ChatGPT, tout en renvoyant à la source originale.

    « Grâce à ce partenariat, les utilisateurs de ChatGPT pourront voir des résumés attribués, des citations et des liens riches vers le journalisme du FT en réponse à des requêtes pertinentes. En outre, le FT est devenu un client de ChatGPT Enterprise au début de cette année, en achetant un accès pour tous les employés du FT afin de s'assurer que ses équipes sont bien familiarisées avec la technologie et peuvent bénéficier de la créativité et des gains de productivité rendus possibles par les outils d'OpenAI », indique OpenAI.

    Nom : 0.png
Affichages : 2788
Taille : 35,0 Ko

    Source : Authors Guild

    Et vous ?

    Quelles sont les implications de l’utilisation du contenu journalistique pour entraîner des modèles d’IA ?
    Comment cet accord pourrait-il changer la manière dont nous consommons les actualités à l’avenir ?
    Quels avantages un éditeur de presse peut-il tirer de ce partenariat avec OpenAI ?
    En quoi la collaboration entre les médias et l’IA peut-elle améliorer l’expérience des lecteurs ?
    Quelles mesures de sécurité doivent être mises en place pour protéger le contenu et la marque du FT ?
    Comment les organisations de presse peuvent-elles s’assurer que l’IA ne compromet pas l’intégrité du journalisme ?
    Quel rôle les lecteurs peuvent-ils jouer pour influencer l’avenir de l’IA dans le journalisme ?
    Quels défis le FT et OpenAI pourraient-ils rencontrer dans la mise en œuvre de cet accord ?
    Comment cet accord pourrait-il influencer la création de contenu par les journalistes ?
    Quel est le potentiel de l’IA pour générer des nouvelles qui sont non seulement informatives mais aussi engageantes et créatives ?

    Voir aussi :

    Le New York Times envisage d'initier une action en justice contre OpenAI pour l'obliger à effacer les données d'entraînement de ChatGPT, le média dit non à l'usage de son contenu sans son accord

    Musk s'engage à poursuivre Microsoft en justice, l'accusant de s'être « entraînée illégalement avec les données de Twitter », tandis qu'elle abandonne l'intégration de Twitter de sa plateforme pub

    Des auteurs de livres poursuivent OpenAI en justice, affirmant que la société a abusé de leurs travaux pour former ChatGPT. Selon eux, les livres sont un « ingrédient clé » du chabot IA

  18. #98
    Chroniqueur Actualités
    Avatar de Bruno
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Mai 2019
    Messages
    1 976
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Cameroun

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Produits et services télécom et Internet

    Informations forums :
    Inscription : Mai 2019
    Messages : 1 976
    Points : 38 427
    Points
    38 427
    Par défaut Une fuite révèle comment OpenAI propose des partenariats avec les éditeurs
    Une fuite pourrait avoir révélé comment OpenAI propose des partenariats avec les éditeurs,
    dans le cadre d'une initiative appelée Preferred Publishers Program

    OpenAI, célèbre société d'intelligence artificielle, aurait lancé son programme intitulé Preferred Publishers Program pour établir des partenariats avec des éditeurs de presse de renom. Les détails de cette initiative ont été révélés suite à une fuite, mettant en lumière la stratégie et les incitations financières offertes aux éditeurs.

    OpenAI a encouragé les possibilités de partenariat avec les éditeurs de presse par le biais de son programme Preferred Publishers. Cette initiative a débuté en juillet 2023 par un accord de licence avec l'Associated Press. D'autres partenariats ont été conclus avec Axel Springer, le Financial Times, Prisa et Dotdash Meredith.

    Nom : oPENAIpress.jpg
Affichages : 6420
Taille : 69,0 Ko

    Le Preferred Publisher Program est réservé à des partenaires éditoriaux sélectionnés et de grande qualité. Son objectif est de faciliter la découverte et l'engagement des utilisateurs de ChatGPT avec les marques et le contenu des éditeurs. Les membres du programme bénéficient d'un placement prioritaire et d'une expression plus riche de leur marque dans les conversations de chat, et leur contenu bénéficie d'un traitement des liens plus proéminent.

    Les incitations financières pour les éditeurs participants sont divisées en deux catégories : la valeur garantie et la valeur variable. La valeur garantie est un paiement de licence qui rémunère l'éditeur pour avoir permis à OpenAI d'accéder à ses données, tandis que la valeur variable dépend du succès de l'affichage, une mesure basée sur le nombre d'utilisateurs qui s'engagent avec le contenu lié ou affiché.

    En échange de ces paiements, OpenAI obtient la possibilité de s'entraîner sur le contenu d'un éditeur et la licence d'affichage de ces informations dans les produits ChatGPT, avec attribution et liens. Elle peut également annoncer l'éditeur en tant que partenaire privilégié.

    Le programme est conçu pour améliorer l'expérience des utilisateurs d'OpenAI et orienter l'engagement vers la navigation, c'est-à-dire des requêtes qui aboutissent à des réponses avec des liens. Environ 25 % des utilisateurs de ChatGPT utilisent déjà la fonction de navigation, mais l'entreprise s'attend à ce qu'une majorité d'utilisateurs le fasse une fois que la fonction sera largement déployée.

    La relation entre les éditeurs numériques et OpenAI est complexe en raison du statut juridique incertain de la méthodologie d'extraction de données qu'OpenAI utilise pour alimenter ses modèles de langues étendues. Certains éditeurs, dont le New York Times ont poursuivi OpenAI pour avoir utilisé sans autorisation des articles protégés par le droit d'auteur. Cependant, OpenAI cherche à attirer davantage d'éditeurs dans son programme de partenariat.

    Ce programme sélectif aurait offert aux éditeurs participants un accès privilégié aux produits de l'OpenAI, leur garantissant une visibilité accrue dans les interactions avec ChatGPT, l'outil phare de l'entreprise. En échange, les éditeurs auraient pu bénéficier de paiements de licence combinant des montants garantis et variables, ces derniers étant liés à l'engagement des utilisateurs avec le contenu fourni.

    Les avantages pour les éditeurs auraient pu aller au-delà des paiements financiers, comprenant une exposition accrue à travers différents produits d'affichage de contenu. Cependant, cette initiative aurait pu soulever des questions sur la relation entre les éditeurs et OpenAI, notamment en ce qui concerne les droits de propriété intellectuelle et l'utilisation de données protégées par le droit d'auteur.

    Les enjeux des partenariats entre OpenAI et les éditeurs de presse

    Bien que certains éditeurs auraient pu déjà conclu des partenariats avec OpenAI, d'autres auraient pu rester réticents en raison de préoccupations juridiques et éthiques. Cependant, l'entreprise aurait pu espérer changer cette dynamique en attirant davantage d'éditeurs dans son programme de partenariat, comme en témoignerait son engagement public lors de conférences sur l'intelligence artificielle et les médias.

    L'initiative de partenariat entre OpenAI et des éditeurs de presse semble être une stratégie logique pour l'entreprise afin d'accéder à un contenu actualisé et de qualité pour améliorer ses modèles d'intelligence artificielle. Cependant, plusieurs aspects de cette initiative soulèvent des préoccupations.

    Tout d'abord, la révélation de cette initiative par le biais d'une fuite pourrait éroder la confiance des partenaires potentiels, en particulier des éditeurs, quant à la transparence et à la confidentialité des négociations avec OpenAI. Cela pourrait également compliquer les futurs accords, car les éditeurs pourraient être réticents à s'engager dans des partenariats perçus comme étant divulgués de manière non autorisée.

    De plus, les incitations financières proposées par OpenAI aux éditeurs semblent être un point de friction potentiel. Les montants proposés, allant de un à cinq millions de dollars par an, pourraient sembler insuffisants pour compenser adéquatement les éditeurs pour l'utilisation de leur contenu dans le développement des modèles d'IA. Cette insuffisance financière pourrait conduire à des tensions dans les négociations et à une réticence accrue de la part des éditeurs à participer à ces partenariats.


    En outre, il est essentiel de considérer les implications éthiques de l'utilisation du contenu des éditeurs dans les modèles d'IA. Il est important que les éditeurs soient correctement rémunérés et que leurs droits d'auteur soient respectés. De plus, les éditeurs devraient avoir un contrôle sur la manière dont leur contenu est utilisé et représenté dans les produits d'OpenAI.

    Bien que le programme Preferred Publishers Program d'OpenAI puisse offrir des avantages mutuels pour l'entreprise et les éditeurs de presse, il est crucial que les négociations se déroulent de manière transparente, que les éditeurs soient justement rémunérés et que les questions éthiques liées à l'utilisation du contenu soient soigneusement examinées et traitées.

    Source : Media report

    Et vous ?

    Quel est votre avis sur le sujet ?

    Comment OpenAI justifie-t-elle l'utilisation du contenu des éditeurs de presse dans le cadre de son programme de partenariat ?

    Comment les éditeurs de presse peuvent-ils s'assurer que leurs droits d'auteur et leur propriété intellectuelle sont protégés dans le cadre de ce programme de partenariat avec OpenAI ?

    Voir aussi :

    OpenAI proposerait aux éditeurs des offres aussi "dérisoires" qu'un million de dollars par an afin d'utiliser leurs articles pour entraîner ses modèles d'IA, selon un rapport

    Huit éditeurs de presse poursuivent Microsoft et OpenAI pour violation du droit d'auteur lors de l'entraînement de ses modèles d'intelligence artificielle

  19. #99
    Chroniqueur Actualités
    Avatar de Bruno
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Mai 2019
    Messages
    1 976
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Cameroun

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Produits et services télécom et Internet

    Informations forums :
    Inscription : Mai 2019
    Messages : 1 976
    Points : 38 427
    Points
    38 427
    Par défaut Les journalistes « profondément troublés » par les accords de contenu conclus par OpenAI avec les médias
    OpenAI et les médias : des accords de contenu dans l'ombre inquiètent les journalistes qui déplorent le manque de transparence
    et craignent des impacts négatifs sur leur travail

    OpenAI a signé des accords avec The Atlantic et Vox Media pour utiliser leur contenu afin de perfectionner ses modèles de langage, ce qui a surpris et inquiété les journalistes et leurs syndicats. Ces derniers déplorent le manque de transparence de ces accords et craignent des impacts négatifs sur leur travail. Les syndicats de The Atlantic et de Vox Media ont exprimé leurs préoccupations, notamment concernant les implications éthiques et environnementales de l'utilisation de l'IA. Ils s'inquiètent également de l'impact potentiel de ces partenariats sur le trafic et les revenus des éditeurs.

    Le 29 mai, Axios a annoncé que The Atlantic et Vox Media ont conclu des accords avec OpenAI, permettant à la société d'utiliser sous licence leur contenu éditorial pour améliorer ses modèles de langage, dont ChatGPT. Ces accords renforcent OpenAI en lui fournissant des contenus pour entraîner ses algorithmes et chatbots, tout en la protégeant contre les responsabilités liées aux droits d'auteur. Les partenariats permettent à OpenAI d'utiliser les contenus archivés et actuels de The Atlantic et de Vox Media, en citant les sources et en incluant des liens vers les articles des éditeurs lorsqu'ils sont mentionnés dans les réponses générées par ChatGPT.

    Nom : AI Writer.jpg
Affichages : 4752
Taille : 56,6 Ko

    Ces accords comprennent également une collaboration sur les produits, avec The Atlantic travaillant avec OpenAI via le projet expérimental Atlantic Labs pour façonner la présentation des articles. Vox Media utilisera la technologie d'OpenAI pour optimiser la création publicitaire et les recommandations de contenu sur ses sites web. Bien que les termes financiers n'aient pas été divulgués, il est supposé que les éditeurs sont rémunérés pour leur contenu. De plus en plus de grandes entreprises d'information préfèrent conclure des accords avec OpenAI plutôt que d'engager des poursuites judiciaires, ce qui peut être plus rapide et avantageux financièrement.

    Cependant, certaines organisations, comme le New York Times, choisissent de poursuivre OpenAI pour obtenir potentiellement des dommages-intérêts plus élevés. En août 2023, le New York Times a mis à jour ses conditions d’utilisation pour interdire l’utilisation de son contenu dans l’entraînement de modèles d’IA sans son autorisation écrite. Selon la section 2.1 de ces conditions :

    Citation Envoyé par New York Times
    Le contenu des Services, y compris le Site, est destiné à un usage personnel et non commercial. Tous les documents publiés ou disponibles sur les Services (tels que les textes, photographies, images, illustrations, conceptions, clips audio et vidéo, 'look and feel', métadonnées, données ou compilations, ci-après désignés 'Contenu') sont protégés par le droit d'auteur et détenus ou contrôlés par The New York Times Company ou le fournisseur crédité du Contenu. The New York Times Company détient également les droits d'auteur sur la sélection, la coordination, la compilation et l'amélioration de ce Contenu (appelé 'Arrangement'). Vous devez respecter tous les avis, informations ou restrictions de droits d'auteur supplémentaires contenus dans tout Contenu accessible via le Service. Toute utilisation non commerciale n'inclut pas l'utilisation du Contenu sans le consentement écrit préalable de The New York Times Company, en particulier pour : (1) le développement de tout programme logiciel, y compris la formation de systèmes d'apprentissage automatique ou d'intelligence artificielle (IA) ; ou (2) la fourniture de jeux de données archivés ou mis en cache contenant du Contenu à une autre personne ou entité.
    En décembre 2023, le New York Times a intenté une action en justice contre OpenAI et Microsoft pour violation des droits d'auteur, affirmant que ces entreprises ont utilisé ses articles pour former des chatbots, mettant en péril les emplois des journalistes. La plainte, déposée devant la Cour fédérale de district de Manhattan, accuse les entreprises d'avoir illégalement fourni des « millions d'articles » à Bing Chat de Microsoft et à ChatGPT d'OpenAI pour développer leurs produits. Le Times réclame des milliards de dollars de dommages pour la copie et l’utilisation illégales de ses œuvres de grande valeur.

    OpenAI a réagi en qualifiant l'affaire de « sans fondement » et en exprimant son souhait de conclure un partenariat avec le New York Times. Dans un billet de blog, OpenAI a contesté les allégations, affirmant que le Times avait manipulé les messages-guides pour inclure des extraits régurgités d'articles. OpenAI a déclaré que ses modèles ne se comportent généralement pas de la manière décrite par le Times, suggérant que les exemples utilisés dans la plainte avaient été choisis parmi de nombreuses tentatives pour donner cette impression. OpenAI accuse également le New York Times d'avoir employé des méthodes de hacking pour fabriquer des preuves trompeuses, affirmant qu'un tiers engagé par le Times a effectué des dizaines de milliers de tentatives pour obtenir des résultats hautement anormaux à partir de ChatGPT et d'autres systèmes d'intelligence artificielle.

    Contrairement au New York Times, le Financial Times a opté pour un accord de licence de contenu avec OpenAI pour alimenter officiellement son IA générative. Le quotidien britannique a annoncé un partenariat stratégique et un accord de licence avec OpenAI, permettant à OpenAI d’utiliser le contenu archivé du Financial Times pour former ses modèles d’IA. Cet accord vise à améliorer la technologie de l’IA générative et à intégrer le journalisme du Financial Times dans ChatGPT, tout en développant de nouveaux produits et fonctionnalités pour les lecteurs du Financial Times. En outre, le Financial Times est devenu client de ChatGPT Enterprise, offrant à tous ses employés l’accès à la technologie pour bénéficier des gains de créativité et de productivité rendus possibles par les outils d’OpenAI. L’accord permet à ChatGPT de répondre aux questions par de courts résumés d’articles du Financial Times, avec des liens vers FT.com, offrant ainsi aux utilisateurs de ChatGPT un accès direct aux articles du Financial Times.

    Les consequences des partenariats Openai sur l'industrie de l'information

    Les accords signés par OpenAI avec The Atlantic et Vox Media pour utiliser leur contenu afin de perfectionner ses modèles de langage ont suscité des réactions diverses parmi les journalistes et leurs syndicats. Ces derniers déplorent le manque de transparence de ces accords et craignent des impacts négatifs sur leur travail, notamment en ce qui concerne l'intégrité éditoriale et les implications éthiques et environnementales de l'IA. De plus, ils s'inquiètent des conséquences potentielles de ces partenariats sur le trafic et les revenus des éditeurs.

    Le manque de consultation des rédacteurs, comme l'a exprimé la journaliste de Vox Kelsey Piper, souligne une fracture entre la direction et les employés sur des décisions stratégiques majeures. Elle a déclaré sur X : « Je suis très frustrée qu'ils aient annoncé cela sans consulter leurs rédacteurs, mais j'ai reçu des assurances écrites de notre rédacteur en chef qu'ils veulent plus de reportages comme ceux des deux dernières semaines et qu'ils n'interviendront jamais dans ces reportages. Si c'est faux, je démissionnerai ».

    Les accords, bien que potentiellement bénéfiques pour la technologie de l'IA, suscitent des inquiétudes concernant la pérennité des emplois journalistiques et la qualité de l'information produite. D'un côté, certains estiment que l'automatisation pourrait libérer les travailleurs des tâches répétitives et pénibles, permettant ainsi une réinvention du travail et de l'économie. D'autres, cependant, perçoivent ces évolutions comme une menace directe pour les emplois existants, en particulier dans le journalisme, où l'IA pourrait remplacer les rédacteurs pour certaines tâches sans garantir la même profondeur et nuance dans le traitement des informations.

    Les journalistes de Vox, qui avaient des attentes spécifiques concernant l'utilisation de leur travail, se sentent trahis par les changements unilatéraux imposés par la direction. Cette situation souligne l'importance de consulter et de renégocier avec les employés lorsque des modifications substantielles de la nature de leur travail sont envisagées. De plus, les inquiétudes liées à la baisse du trafic des moteurs de recherche vers les éditeurs en raison des chatbots et des produits de recherche génératifs représentent une préoccupation légitime. Cela pourrait non seulement menacer les moyens de subsistance des créateurs de contenu, mais aussi appauvrir la diversité et la richesse de l'Internet.


    Bien que les accords avec OpenAI puissent offrir des avantages technologiques et économiques, ils soulèvent des questions importantes concernant la transparence, les conditions de travail, l'éthique et l'impact sur l'industrie du journalisme. Ces préoccupations nécessitent une réflexion approfondie et une gestion prudente pour équilibrer les bénéfices de l'IA avec la protection des droits et des emplois des journalistes.

    Sources : Atlantic union, Axios

    Et vous ?

    Quels seraient les effets des partenariats entre OpenAI et les médias sur le trafic et les revenus des éditeurs, et comment ces effets peuvent-ils être gérés ?

    En quoi le manque de consultation des journalistes avant la signature de ces accords pourrait-il influencer la confiance et la motivation des employés de ces entreprises ?

    Dans quelle mesure ces accords pourraient-ils menacer la diversité et la richesse des informations disponibles sur Internet ?

    Voir aussi :

    Le New York Times poursuit OpenAI et Microsoft pour violation des droits d'auteur, afirmant que des "millions d'articles" ont été utilisés pour former des chatbots

    OpenAI affirme que le New York Times a trompé ChatGPT pour qu'il copie ses articles. Malgré un procès intenté le mois dernier, l'entreprise IA souhaite toujours travailler avec le quotidien

    Alors que le New York Times poursuit OpenAI pour violation des droits d'auteur, le Financial Times accepte de conclure un accord de licence de contenu avec OpenAI pour alimenter officiellement son IA générative

  20. #100
    Chroniqueur Actualités

    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Juin 2023
    Messages
    974
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Bénin

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Juin 2023
    Messages : 974
    Points : 17 296
    Points
    17 296
    Par défaut Un organe de presse à but non lucratif américain poursuit OpenAI et Microsoft pour violation du droit d'auteur
    Le plus ancien organe de presse à but non lucratif des États-Unis poursuit OpenAI et Microsoft pour violation massive des droits d'auteur
    et lance un appel pour la protection du journalisme d'investigation

    Le Center for Investigative Reporting (CIR) a annoncé jeudi avoir intenté une action en justice contre OpenAI et Microsoft pour violation de droit d'auteur. Le procès allègue qu'OpenAI a utilisé le contenu du CIR pour former ses modèles d'IA sans le consentement explicite de l'organisation ni une compensation, violant ainsi les droits d'auteur sur le journalisme de l'organisation. La plainte accuse Microsoft, le principal investisseur d'OpenAI, d'avoir soutenu les agissements de la startup d'IA. Il s'agit de la dernière action en date d'une longue série d'actions en justice intentées par des éditeurs et des créateurs accusant les entreprises d'IA de violer leurs droits d'auteur.

    Le Center for Investigative Reporting (CIR) est un organe de presse à but non lucratif basé San Francisco qui produit les médias Mother Jones et Reveal. L'organisation à but non lucratif a déposé jeudi une plainte contre OpenAI et son partenaire Microsoft devant un tribunal fédéral de New York. L'action en justice porte sur la manière dont les résumés d'articles générés par l'IA menacent les éditeurs, ce que le CIR qualifie d'exploitation. Elle marque un nouveau front dans la bataille juridique qui oppose OpenAI et les organes de presse, qui luttent contre l'utilisation non autorisée de leurs contenus en ligne pour former l'IA.

    L'action en justice accuse OpenAI et Microsoft, qui détient près de la moitié de la startup d'IA, d'avoir violé à plusieurs reprises le Copyright Act et le Digital Millennium Copyright Act (DMCA). La plainte allègue qu'OpenAI a utilisé le contenu du CIR sans autorisation et sans offrir de compensation à cette dernière, violant ainsi les droits d'auteur sur le journalisme de l'organisation. Elle a décrit les activités d'OpenAI comme "fondées sur l'exploitation d'œuvres protégées par le droit d'auteur". « C'est extrêmement dangereux », a expliqué Monika Bauerlein, directrice générale de l'organisation à but non lucratif, à l'Associated Press (AP).


    Elle a ajouté : « notre existence repose sur le fait que les utilisateurs trouvent notre travail précieux et décident de le soutenir. Lorsque les gens ne peuvent plus développer cette relation avec notre travail, lorsqu'ils ne rencontrent plus Mother Jones ou Reveal, leur relation est alors avec l'outil d'IA. Cela réduira à néant les fondements de notre existence en tant que salle de rédaction indépendante, tout en menaçant l'avenir d'autres organismes de presse ». Mother Jones et CIR ont été fondés dans les années 1970 et ont fusionné au début de cette année. Ils sont tous deux basés à San Francisco, en Californie, tout comme OpenAI.

    L'action en justice du CIR, également connu pour son podcast Reveal et son émission de radio, souligne les dépenses liées à la production de journalisme d'investigation et prévient que la perte du contrôle du contenu protégé par le droit d'auteur entraînera la baisse des revenus et une diminution du nombre de reporters chargés de rapporter des histoires importantes dans "le paysage médiatique actuel". Dans un communiqué publié jeudi, Bauerlein a déclaré :

    Citation Envoyé par Monika Bauerlein

    OpenAI et Microsoft ont commencé à aspirer nos histoires pour rendre leur produit plus puissant, mais ils n'ont jamais demandé la permission ou offert une compensation, contrairement à d'autres organisations qui utilisent notre matériel sous licence. Ce comportement de resquilleur n'est pas seulement injuste, c'est une violation du droit d'auteur. Le travail des journalistes, au CIR et partout, est précieux, et OpenAI et Microsoft le savent.

    Les sociétés à but lucratif comme OpenAI et Microsoft ne peuvent pas simplement traiter le travail des éditeurs à but non lucratif et indépendants comme de la matière première gratuite pour leurs produits. Si cette pratique n'est pas stoppée, l'accès du public à des informations véridiques sera limité à des résumés générés par l'IA d'un paysage d'informations en voie de disparition.
    Ce procès est le dernier en date intenté contre OpenAI et Microsoft devant le tribunal fédéral de Manhattan, où les deux entreprises sont déjà confrontées à une série d'autres procès en matière de droits d'auteur intentés par le New York Times, d'autres médias et auteurs à succès tels que John Grisham, Jodi Picoult et George R.R. Martin. Elles sont également confrontées à une autre affaire devant le tribunal fédéral de San Francisco, intentée par des auteurs, dont la comédienne Sarah Silverman. Selon les experts juridiques, les organismes de presse se trouvent à un point d'inflexion avec l'avènement de l'IA générative.

    L'été dernier, plus de 4 000 écrivains ont signé une lettre adressée aux PDG d'OpenAI, Sam Altman, et d'autres entreprises technologiques, les accusant de violation de droits dans le processus de construction des chatbots. Bauerlein appelle à agir rapidement contre ce comportement. « Il ne s'agit pas d'une ressource gratuite que ces entreprises d'IA peuvent ingérer et sur laquelle elles peuvent gagner de l'argent. Elles paient des bureaux, de l'électricité, des salaires pour leurs employés. Pourquoi le contenu qu'ils ingèrent serait-il la seule chose qu'ils ne paient pas ? », a déclaré Bauerlein à propos des médias d'information.

    Alors que le CIR se joint à des éditeurs comme le New York Times, le New York Daily News, The Intercept, AlterNet et le Chicago Tribune pour poursuivre OpenAI, d'autres éditeurs ont choisi de conclure des accords de licence avec le laboratoire d'IA. Ces accords permettront à OpenAI de former ses modèles sur des archives et des contenus continus publiés par ces éditeurs et de citer des informations provenant de ces derniers dans les réponses proposées par ChatGPT. À travers ses accords de licence, ces organismes de presse vont être rémunérés par OpenAI pour l'accès à l'accès à leurs contenus pour une durée déterminée.

    Le dernier en date est Time, qui a annoncé jeudi qu'OpenAI aurait accès à ses vastes archives des 101 dernières années. Le mois dernier, OpenAI a signé un accord pluriannuel de 250 millions de dollars avec News Corp, le propriétaire du Wall Street Journal, pour avoir l'autorisation de former ses modèles sur plus d'une douzaine de marques appartenant à l'éditeur. Le Financial Times, Axel Springer (propriétaire de Politico et Business Insider), The Associated Press et Dotdash Meredith ont également signé des accords de licence avec OpenAI. Petit à petit, OpenAI réussit à se mettre dans la poche les plus grands éditeurs de presse.

    OpenAI et d'autres grands développeurs d'IA ne divulguent généralement pas leurs sources de données, mais ont fait valoir que le fait de prendre des textes, des images et d'autres médias en ligne accessibles au public pour former leurs logiciels d'IA est protégé par la doctrine de l'usage loyal de la loi américaine sur le droit d'auteur. L'action en justice du CIR indique qu'un ensemble de données qu'OpenAI a reconnu avoir utilisé pour construire une version antérieure de sa technologie de chatbot contenait des milliers de liens vers le site Web de Mother Jones, un magazine imprimé vieux de 48 ans qui publie en ligne depuis 1993.

    Le mois dernier, huit éditeurs de presse de Californie, du Colorado, de l'Illinois, de Floride, du Minnesota et de New York ont poursuivi Microsoft et OpenAI pour violation du droit d'auteur lors de la formation de leurs modèles. Les plaignants exploitent le New York Daily News, le Chicago Tribune, l'Orlando Sentinel, le Sun Sentinel en Floride, le Mercury News en Californie, le Denver Post, l'Orange County Register en Californie et le Pioneer Press dans le Minnesota.

    Tous ces journaux sont la propriété du fonds spéculatif Alden Global Capital. L'action en justice allègue qu'OpenAI avait utilisé des ensembles de données contenant du texte provenant de leurs journaux pour former ses modèles de langage GPT-2 et GPT-3. OpenAI et Microsoft n'ont pas commenté l'action en justice du CIR.

    Source : document de la plainte (PDF)

    Et vous ?

    Quel est votre avis sur le sujet ?
    Que pensez-vous des allégations du CIR contre OpenAI et Microsoft ?
    Est-il possible que le CIR obtienne gain de cause dans cette affaire ? Pourquoi ?
    Le paysage d'informations tel qu'on le connaît est-il en voie de disparition ? Quels sont les risques ?

    Voir aussi

    Huit éditeurs de presse poursuivent Microsoft et OpenAI pour violation du droit d'auteur lors de l'entraînement de ses modèles d'intelligence artificielle

    Le New York Times poursuit OpenAI et Microsoft pour violation des droits d'auteur, affirmant que des "millions d'articles" ont été utilisés pour former des chatbots

    Microsoft et OpenAI poursuivis en justice par des auteurs pour avoir violé leurs droits d'auteur, en incluant plusieurs de leurs livres dans les données utilisées pour entraîner des programmes d'IA

Discussions similaires

  1. Réponses: 3
    Dernier message: 08/09/2012, 14h16
  2. Android : grande enquête sur les utilisateurs français
    Par Gordon Fowler dans le forum Android
    Réponses: 2
    Dernier message: 21/10/2011, 22h15
  3. Enquête sur les salariés de SSII
    Par Etudiante-RH dans le forum SSII
    Réponses: 26
    Dernier message: 23/09/2011, 10h41
  4. Réponses: 0
    Dernier message: 17/09/2008, 19h41
  5. Question sur les problèmes d'allocation dynamique
    Par slylafone dans le forum C++
    Réponses: 23
    Dernier message: 25/10/2004, 15h18

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo