Forcément. Une bulle spéculative qui explose, ça a toujours des conséquences.
Une industrie qui déclare qu'elle ne peut pas exister sans en vampiriser une autre, aussi.
Forcément. Une bulle spéculative qui explose, ça a toujours des conséquences.
Une industrie qui déclare qu'elle ne peut pas exister sans en vampiriser une autre, aussi.
l'ia apporte un énorme gain en productivité dans pleins de domaine.
pour 10 dev, on en a besoin plus que de 7-8, pour 10 graphistes pareilles...etc.
les entreprises et pays qui n'utiliseront pas l'ia vont perdre en productivités.
Si toi entreprise européenne respecte de droit d'auteur, ce ne sera pas le cas des entreprises chinoise/usa, et ces boites vont profiter d'un boost énorme productivités.
Dans une compétition mondial et féroce c'est pas possible de rater le train de l'ia, c'est une question de survie pour les grande puissance.
Donc à moins d'un accord mondial sur le respect du droit d'auteur pour l'entrainement des llm, pour l'UE je ne sais pas, mais pour le usa et la chine, le droit d'auteur va partir à la poubelle.
Et si l'ue veut jouer le chevalier blanc juste et bon, elle se fera bouffer comme d'habitude, enfin elle est déjà bouffé cela dit, elle a déjà raté le train de l'ia, mistral c'est un nain en comparaison des géants américains et chinois.
Qu'on se comprennent bien, je suis pas favorable pour bafouer le droit d'auteur, mais je suis réaliste, je sais que les chinois vont pas se gêner pour leurs modèles nationaux et feront profiter leurs entreprises des meilleurs modèles possible.
les chinois ou la russie n'en ont rien a foutre d'entrainer leurs modèles sur des œuvres occidentales copyrighté.
Et je ne pense pas que Trump prennent partis pour les auteurs au detriement de Xai et openai, et pire encore de se faire devancer par la chine. Il fera tous pour que jamais les chinois les rattrapent dans la compétition dans l'ia. J'ai bien tous, les centrales nucléaires a gogos, des datacenter massif en Alaska au milieu de la glace si il le faut, que sais je encore.
Nvidia en est d'ailleurs bien embêté en ce moment avec ces 4090D![]()
La France est un pays qui redistribue tout sauf de l'espoir.
Bon, OK, alors on n'aura plus d'auteurs.
Avec quoi on va faire tourner l'IA, alors ?
Nous voici donc arrivé à un tournant. Faut-il supprimer le droit d'auteur ? Dans un monde utopique, ça serait une bonne chose, mais nous ne vivons pas dans un monde utopique. Nous vivions, est c'est ainsi depuis la nuit des temps, sous une forme ou sous une autre, dans un monde où "le peuple", "les gens", "les électeurs", "les travailleurs", "les collaborateurs", bref, nous vivions dans un monde ou 1% profite du labeur de 99% des autres.
Cela a toujours été ainsi, et ça le restera.
Allez, disons que pour le bien de l'humanité, il faut supprimer le droit d'auteur, pour permettre à ce 1% d'exploiter encore un peu plus les 99%. Que vont-ils faire des gains ainsi amassé ? Les redistribuer peut-être ?
Mais non, la logique actuelle, c'est de mutualiser les dettes tout en privatisant les profits. Le monde deviendra ce que ce 1% voudra en faire. On nous rabache sans cesse qu'il "faut faire des efforts" pour rembourser la dette... Quelle dettes ? Quand la France (ou d'autres pays), "s'endette" de 300 Millards d'euro, qui "prête cet somme" ? Personnes, ce sont des bouts de papiers imprimés qui ont la valeur qu'on veut bien leur donner.
On "empreute" sur "le marché", qu'est-ce que cela signifie exactement ? Vu l'endettement de pratiquement tous les pays du monde, qui "prête" cet argent ? "Personnes". Tout cela n'est qu'une vaste (mauvaise) blague.
Remontons le temps. Fin 1945. L'Europe est détruite, la "poches" sont vides. On a pourtant su créer à ce moment là la "sécurité social", reconstruire des pans entiers de divers pays. Avec quel argent ? Donné par qui ? "personnes", on a juste imprimé des billets. Il fallait bien recréer les "conditions" pour que les 99% se remettent au service des 1%.
Toute l'économie mondial repose sur une pyramide de ponzi, la seule autorisée, "le marché et les banques". En 1973, aucuns pays Européen n'avait de dette. Puis ce 1% a inventé le concept de la "mondialisation heureuse". Heureuse pour 1% et une grosse arnaque pour les 99% restant.
Quelqu'on saurait-il répondre à cette simple question ? "Qui doit quoi à qui ?" Ce n'est qu'une boucle virtuelle, A doit 15 milliard à B et B doit 15 millards à C, qui doit 15 millards à A. Et hop, tous endettés. Faut bien trouver une raison pour que les 99% continue de bosser pour les 1%.
Il n'y a pas d'argent "magique" nous dit-ont. Mais ce n'est justement que ça, des tours de passe-passe entre ces 1% qui se foute bien des 99% d'autres.
Et quand une partie des 99% ne veut plus bosser comme des cons, facile, on en fait venir d'autres via l'imigration, organisée par des ONG qui sont financées par les états, c'est à dire les 99%. Et hop, nouveau concept, "la multicuralité heureuse", Heureuse pour 1%, malheureuse pour les 99%.
Seigneurs féodeaux, royauté, empire, socialiste, communiste, religions, syndicat, politique, justice, libéraliste... Même combat. 1% contre 99%.
Le reste, c'est du Blabla qui ne changera rien à cela. Le monde dans lequel nous vivons se résumé à ça. 1% et 99%.
BàV et peace & Love.
Imprimer de l’argent ? C’est ce qu’on fait les allemands entre deux guerres… résultat, il fallait un brouette de billets pour s’acheter une baguette. Mais oui, c’est un moyen de s’échapper à la dette mesurée dans la devise considérée. (L’autre manière est de procéder comme avec l’emprunt russe).
Mais les pays européens ne peuvent pas imprimer des billets librement. La Grèce en sait quelque chose avec la Troïka qu’elle s’est vu imposée… et là, ce n’était pas abstrait.
Et on peut même modéliser un pays fictif où 1% vivent au crochet des 99% autres…. Avec un coefficient de GINI de 0 !!!! Ces chiffres ne valent donc pas dire grand chose. Pour bien faire, il fait faire comme Piketty dans ses ouvrages et dresser les revenus et capitaux interdéciles.
Je voulais dire que les états et les banques achètent de la dette d'autres états.
Mais en fait on peut demander à une IA :
Ta banque prend ton argent et l'investit sur les marchés financiers.La dette d’un État est généralement détenue par une combinaison d’acteurs, nationaux et internationaux, qui achètent ses obligations d’État (comme les bons du Trésor). Ces créanciers incluent :
- Banques centrales :
- La banque centrale du pays peut détenir une partie de la dette (ex. : la BCE pour les pays de la zone euro, ou la Fed pour les États-Unis). Par exemple, dans le cadre de politiques comme l’assouplissement quantitatif, elle achète des obligations pour injecter de la liquidité.
- Banques commerciales et institutions financières :
- Les banques (ex. : Société Générale, JPMorgan) achètent des obligations d’État comme placements sûrs ou pour répondre à des exigences réglementaires (actifs de haute qualité).
- Investisseurs institutionnels :
- Fonds de pension, compagnies d’assurance, fonds souverains ou fonds d’investissement (ex. : BlackRock) achètent ces obligations pour leur stabilité et leurs rendements.
- États étrangers :
- D’autres gouvernements ou leurs banques centrales détiennent des obligations pour diversifier leurs réserves de change (ex. : la Chine et le Japon détiennent des milliards en bons du Trésor américain).
- Particuliers et épargnants :
- Les citoyens peuvent acheter directement ou indirectement (via des fonds ou livrets) des obligations d’État, souvent perçues comme des investissements sûrs.
- Marché international :
- Une partie de la dette est détenue par des investisseurs étrangers (banques, fonds, ou gouvernements) via les marchés financiers internationaux.
Les banques achètent de la dette.
Si un état fait un défaut de paiement, ça peut mal finir pour ton épargne, il y a des histoires de bail-in ou de liquidation de la banque.
Pour l'instant il y a un dépôt de garanti de 100 000€ donc normalement si t'as moins de 100 000€ à la banque tu ne devrais rien perdre.
Mais sinon ouais, ils font vraiment chier ces 1%.
La BCE peut créer de l'argent.
C'est juste que maintenant au lieu d'utiliser la planche à billet c'est de l'assouplissement quantitatif (Quantitative Easing).
Températures en dessous des normales saisonnières.
c'est le môdèle économique de l'IA qu'il faut revoir
les auteurs ne peuvent voir leur travail volé sciemment et légalement
plus d'auteurs, plus de données pour l'IA et l'humanité stagnera
Tutoriels OpenGL
Je ne répondrai à aucune question en MP
- Si c'est simple tu dis que c'est compliqué et tu le fait
- Si c'est compliqué tu dis que c'est simple et tu le sous-traite ou le fait faire par un stagiaire.
Certains demandent un droit d'accès gratuit aux données pour "entrainer" leurs IA,
en contrepartie, je demande un accès gratuit et illimité à tous les systèmes d'IA pour
"équilibrer" les choses.
Si une peine ne mérite pas salaire, aucune peine ne le doit !
Sur Qwant, d'office on a d'abord la réponse du moteur de recherche, avant les réponses dont est issue la réponse du moteur. Pour formater un tableau pour le rendre publiable dans un forum il fallait s'inspirer de trois requêtes. La première donnait en gros la structure du programme et l'ouverture du fichier, la deuxième adaptait à la syntaxe HTML, j'ai oublié pourquoi il fallait une troisième.
Donc il restait un peu de boulot à faire pour adapter, pour autant c'est vrai que le résultat est plus rapidement exploitable qu'une documentation qu'il faut consulter en plusieurs langues à cause des erreurs de traduction, si grosses que j'hésite à les appeler des erreurs, et qui rechigne à fournir des exemples de programmation, et vous laisse découvrir quoi mettre dans les paramètres et sous quelle forme.
En gros, on attaque assez rapidement le débogage. Avoir déjà pratiqué dans le passé la technologie proposée à la deuxième requête aide grandement à se plonger dans la mise en œuvre.
Pour le moment je dirais que pomper bêtement reste une démarche bête, avec un risque pas nul de donner un résultat bête.
Il n'en demeure pas moins que des réactions bêtes en matière politique ne nous mettent pas à l'abri d'un résultat bête. Qu'une bonne majorité d'électeurs ne semble pas avoir une traitre idée de ce que j'appelle un résultat bête en matière politique.
J'espère bien que l'on va «tuer » l'industrie de l'IA. Bientôt plus personne n'aura besoin de personne.
Le but étant quand même qu'on ait un peu besoin de nous de temps en temps, non ?
Et j'espère surtout que nous allons réussir à prendre un peu de hauteur.
La Révolution Industrielle a eu lieu au XIXème siècle. Comme la présente Wikipedia, "La révolution industrielle est le processus historique du XIXe siècle qui fait basculer une société à dominante agraire et artisanale vers une société commerciale et industrielle. "
Le but n'est pas de dire que nous devrions retourner au boulier et aux charrettes à bras. Le but est de se mettre d'accord sur quelles sont les personnes à qui doit bénéficier ce progrès.
Pour le moment, il bénéficie exclusivement au patronat, et seulement en cas d'échec de sa part à nous éliminer du circuit, il consent à créer quelques postes.
Nous voyons arriver une phase suivante, où des tâches plus intellectuelles sont sur le point d'être automatisées, les salaires correspondants étant supprimés, et c'est à cet instant précis que "nos" députés nous ont déclaré que les retraites doivent être payées par les salaires. Il était cette fois difficile d'être plus synchrone. Si ça, ce n'était pas une provocation pure et simple, alors expliquez-moi ce qu'est une provocation.
Tant que nous les laissons faire, détruire l'IA, non non, ça ne mènera à rien, d'abord parce que ça ne va pas se faire. Enfin on ne sait jamais, quelquefois la raison pourrait prendre le dessus. Mais il n'est que moyennement raisonnable de ne compter que là-dessus.
L'idée que nous devons réussir à réintroduire, est que l'humain a le droit d'exister même si il n'est plus réduit à des tâches répétitives.
Et je veux bien qu'on m'explique comment on arrivera à ça si la taxe Tobin doit rester un truc pour faire joli, qu'on range sur une étagère.
Même Bill Gates défend le principe, c'est dire !
*
Quelqu'un dans le forum nous a diffusé une vidéo sur une réflexion d'un mathématicien en 72. Ça mérite de s'y attarder. J'ai pris un peu de retard là-dessus, j'espère ne pas laisser ça dériver vers l'oubli.
« Tant que nous les laissons faire, détruire l'IA, non non, ça ne mènera à rien, d'abord parce que ça ne va pas se faire. Enfin on ne sait jamais, quelquefois la raison pourrait prendre le dessus. Mais il n'est que moyennement raisonnable de ne compter que là-dessus. »
Nous les laisserons faire…… le problème avec la mondialisation, c’est que si on l’empêche chez nous, d’autres le feront à notre place. Comment « nous » pourrions l’empêcher.
Cette réflexion est très fortement comparable à la révolte des Canut… suite aux métiers à tisser automatisés. À qui a profité cette évolution ? Au patronat tout d’abord (les premiers à avoir automatisé ont pu dégager des marges plus importantes), aux clients ensuite avec des produits moins cher… et maintenant ? La concurrence rogne les marges, il ne reste que le profit des clients qui ont gagné en pouvoir d’achat.
Le problème de cette automatisation est de rendre le milieu du travail plus exigeant en formation… il y a de moins en moins de place dans les emplois les les moins qualifiés. Il est loin le temps où la majorité de la population était dans les champs. Et les opératrices des commutateurs des téléphone, les sténos-dactilos, les bureaux d’études (dizaines d’ingénieurs armés de règles à calculs pour réaliser l’équivalent de 1s de calcul aujourd’hui)…
L’IA ne change pas vraiment le principe, mais la nouveauté est d’attaquer des secteurs d’activité employant une population sensiblement mieux formé, ainsi que d’autres pensant être épargnés (véhicules autonomes), et la question devient que restera-t-il…
Mais il est sûr que l’IA renforcera les monopoles ou oligopole car induit une structure plus capitaliste (le coût d’investissement devient prépondérant comparé aux coût salariaux). Et cela sur des pans plus étendus de l’économie.
Un avocat écope de sanctions pour utilisation de ChatGPT qui a produit de fausses citations sur un dossier judiciaire
Le tableau questionne sur la pertinence de l'usage de tels outils pour le génie logiciel
Le mois dernier, un jeune diplômé d’une école de droit a perdu son emploi après avoir utilisé ChatGPT pour l'aider à rédiger un dossier judiciaire qui s'est avéré truffé d'erreurs : de nombreuses citations erronées ainsi qu’au moins une affaire inexistante dans les bases de données juridiques. C’est une situation qui vient étendre une longue liste de cas similaires et qui soulève la question de la pertinence de la mise à contribution de tels outils dans d’autres domaines, notamment, celui du génie logiciel. En effet, de récentes études font état de ce que la production d’informations erronées par les modèles d’intelligence artificielle ira croissant avec leur degré de sophistication.
Air Canada s’est ainsi vu obligé de respecter une politique de remboursement inventée par un chatbot intégré à son site webThat's...even more troubling than using ChatGPT. Do you make a habit of just filing things written by people not licensed to practice law without reviewing them?
— Ari Cohn (@AriCohn) June 1, 2025
Because there are rules about that, and also...your client is paying for an attorney. They shoild get one. pic.twitter.com/PjZfd6DTiD
Le jour où la grand-mère de Jake Moffatt est décédée, ce dernier s'est à l’immédiat rendu sur le site Web d'Air Canada pour réserver un vol de Vancouver à Toronto. Ne sachant pas comment fonctionnent les tarifs d'Air Canada pour les personnes en deuil, Moffatt a demandé au chatbot d'Air Canada de lui expliquer. Ce dernier a fourni des informations inexactes, encourageant Jake Moffatt à réserver un vol à l’immédiat, puis à demander un remboursement dans les 90 jours. Une recommandation en contradiction avec la politique de la compagnie aérienne qui stipule qu’elle ne procède pas à des remboursements une fois que la réservation est effectuée.
Jake Moffatt a donc porté plainte en joignant une capture d’écran de sa conversation avec le chatbot : « Si vous devez voyager à l’immédiat ou si vous avez déjà voyagé et que vous souhaitez soumettre votre billet pour bénéficier d'un tarif réduit pour les personnes en deuil, veuillez le faire dans les 90 jours suivant la date d'émission de votre billet en remplissant notre formulaire de demande de remboursement de billet. »
Le tribunal a au final tranché que M. Moffatt a droit à un remboursement partiel de 650,88 dollars canadiens (environ 482 USD) sur le prix initial du billet qui était de 1 640,36 CAD (environ 1 216 USD), ainsi qu'à des dommages-intérêts supplémentaires pour couvrir les intérêts sur le billet d'avion et les frais de justice de M. Moffatt.
Air Canada a décidé de se conformer à la décision et de considérer l'affaire comme close après avoir refusé d’endosser la responsabilité de l’erreur commise par le chatbot intégré à son site web. La compagnie aérienne a ensuite procédé à la désactivation de ce dernier.
Malgré les avancées de l'intelligence artificielle, la vigilance humaine reste indispensable
L’erreur de ChatGPT qui a coûté 10 000 dollars à une startup est un rappel que, malgré les avancées de l’IA, la vigilance humaine reste indispensable. Les outils d’IA sont puissants, mais ils ne remplacent pas le jugement critique et l’expertise des développeurs. En fin de compte, c’est la responsabilité des équipes humaines de s’assurer que la technologie qu’elles utilisent est sûre et fiable.
D'ailleurs, l'erreur ne saurait être imputable entièrement à ChatGPT : les développeurs auraient du prendre la peine d'analyser le code au lieu de se limiter à quelques tests avant la copie. Ils semblent le reconnaitre lorsqu'ils déclarent :
« Je voudrais commencer par dire que les pratiques en question sont très mauvaises et embarrassantes (et nous avons depuis ajouté des tests unitaires et d'intégration robustes ainsi que des alertes et des enregistrements), qu'elles auraient pu et dû être évitées, qu'il s'agissait d'erreurs humaines au-delà de tout, et qu'elles sont très évidentes avec le recul.
« Cela s'est passé à une autre époque, avec d'importantes contraintes de temps, aux tout premiers stades (premières semaines) de la création d'une entreprise. Je partage surtout cette histoire comme une anecdote amusante avec des circonstances uniques entourant la reproductibilité des bogues en prod (encore une fois à cause de notre propre stupidité) ».
Quoi qu'il en soit, tout est bien qui finit bien : « Rétrospectivement, aussi pénibles qu'aient été ces cinq jours, c'est l'un de ces moments de la vie d'une startup que nous n'oublierons jamais. Comme toutes les startups, nous avons fait une tonne d'erreurs tout au long de notre parcours, celle-ci étant peut-être la pire. J'évoquerai peut-être les autres plus tard. Nous sommes simplement heureux de pouvoir regarder ces jours-là en arrière et d'en rire. Oui, nous aurions dû faire plus de tests. Oui, nous n'aurions pas dû copier-coller du code. Oui, nous n'aurions pas dû passer directement à l'application principale. Quoi qu'il en soit, je ne regrette pas cette expérience ».
Source : Utah
Et vous ?
En tant que développeur ou utilisateur d’IA, comment assurez-vous la qualité et la précision du code généré par l’IA ?
Avez-vous des expériences personnelles où l’IA a joué un rôle crucial, positivement ou négativement, dans votre travail ?
Selon vous, quelles mesures de sécurité devraient être mises en place lors de l’intégration de solutions d’IA dans les systèmes d’entreprise ?
Pensez-vous que les erreurs mentionnées sont des cas isolés ou révélateurs d’un problème plus large dans l’industrie de l’IA ?
Comment pensez-vous que les entreprises peuvent équilibrer l’innovation technologique avec les risques potentiels associés à l’automatisation ?
Quelles stratégies votre entreprise a-t-elle adoptées pour prévenir les erreurs coûteuses liées à l’IA ?
Quel rôle les tests et la validation jouent-ils dans votre utilisation de l’IA, et comment ces processus pourraient-ils être améliorés ?
Voir aussi :
La conduite autonome serait-elle à ce jour qu'une vision futuriste chez Tesla Motors ? L'entreprise vient de changer les objectifs de son Autopilot
La SEC demande à Musk de renoncer à son poste de président de Tesla et exige une amende de 40 millions $ US pour un règlement à l'amiable
Tesla annonce que le nouvel ordinateur pour une conduite entièrement autonome de ses véhicules est en production et fera ses preuves ce mois-ci
Les actions Tesla chutent après que son système d'autopilote soit impliqué dans un accident et l'annonce des batteries de ses véhicules prenant feu
Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités
Ha, enfin des news sur l'IA qui présentent des cas d'utilisation réels et pas des démos technique inutiles !
![]()
Il est bien connu que les fournisseurs de contenus doivent être éliminés pour permettre à l'IA d'exister.
Les entreprises spécialisées dans l'IA affirment qu'elles ne peuvent pas respecter les droits d'auteur mais ces chercheurs ont essayé,
leur expérience inédite démontre que former des modèles d’IA puissants sans enfreindre la loi, c’est possible
Au cœur d’un débat brûlant entre innovation technologique et respect des droits de propriété intellectuelle, nombre d’entreprises d’intelligence artificielle (IA) avancent que « le respect du droit d’auteur est impossible » dans leurs processus de formation. Pourtant, une équipe de chercheurs a relevé le défi... et semble avoir prouvé le contraire.
Contexte
Un collectif de plus de vingt chercheurs, piloté par l’association à but non lucratif EleutherAI (MIT, CMU, University of Toronto), a constitué un jeu de données de 8 To exclusivement issu de contenus sous licence ouverte ou appartenant au domaine public. À partir de ce corpus, ils ont entraîné Comma v0.1, un modèle de 7 milliards de paramètres, dont les performances sont comparables à celles de LLaMA 2‑7B de Meta, un modèle formé sur des données potentiellement protégées.
Contrairement aux gigantesques jeux de données non filtrés utilisés par les grandes entreprises d’IA, cette initiative a misé sur un protocole stringent :
- Collecte uniquement sous licences libres ou domaine public ;
- Annotation manuelle de chaque donnée pour valider les licences, indispensable face aux défis d’automatisation.
Le résultat ? Un modèle performant, mais dont la constitution reste coûteuse – tant en temps qu’en ressources.
Ce projet intervient dans un contexte législatif agité :
- Aux États-Unis et au Royaume-Uni, des recours judiciaires et des propositions de lois (comme le Generative AI Copyright Disclosure Act) visent à encadrer l’usage des œuvres protégées.
- En Europe, la réglementation exige désormais la transparence des jeux de données : les entreprises doivent publier un résumé détaillé des contenus utilisés, les titulaires pouvant s’y opposer (opt‑out).
OpenAI déclare la course à l'IA « terminée » s'il n'est pas possible d'entraîner les LLM sur des œuvres protégées
Ces dernières années, les capacités des chatbots d'IA, comme ChatGPT d'OpenAI, se sont considérablement améliorées ; ils s'appuient sur de grands modèles de langage (LLM) pour produire du contenu pour les utilisateurs. Mais le processus de formation est largement controversé, certains éditeurs accusant OpenAI d'utiliser des œuvres protégées par le droit d'auteur sans autorisation, et un certain nombre d'affaires juridiques sont en cours.
Défendant ses pratiques commerciales dans un procès, OpenAI a déclaré : « les modèles apprennent, comme nous le faisons tous, de ce qui a été fait auparavant. La défense de l'usage équitable existe précisément pour cette raison : encourager et permettre le développement de nouvelles idées qui s'appuient sur des idées antérieures ». Cette défense d'OpenAI est conforme aux précédentes déclarations de l'entreprise sur la formation de ses modèles.
En janvier 2024, OpenAI affirmait : « étant donné que le droit d'auteur couvre aujourd'hui pratiquement toutes les formes d'expression humaine, il serait impossible d’entraîner les meilleurs modèles d'IA d'aujourd'hui sans utiliser des documents protégés par le droit d'auteur ». OpenAI reconnaît donc ouvertement qu'il utilise des contenus protégés par le droit d'auteur pour créer ses modèles d'IA. L'entreprise n'a toutefois pas encore été condamnée.
Même son de cloche pour Nick Clegg, un homme politique britannique. Il a été vice-premier ministre du Royaume-Uni entre 2010 et 2015, puis responsable des affaires internationales et de la communication de Meta (anciennement Facebook) d'octobre 2018 à janvier 2025. Fervent défenseur des efforts de Meta en matière d'IA, il est revenu sur le débat sur la protection des droits d'auteur lors du festival de Charleston, dans l'East Sussex, un comté du sud-est de l'Angleterre.
Nick Clegg estime que le fait d'obliger les entreprises d'IA à demander l'autorisation avant d'utiliser des contenus protégés par des droits d'auteur pour former des modèles d'IA détruirait le secteur. Nick Clegg a déclaré que la communauté créative devrait avoir le droit de refuser que son travail soit utilisé pour former des modèles d'IA. Mais il a affirmé qu'il n'était pas possible de demander le consentement des créateurs avant d'ingérer leur travail.
Envoyé par Nick Clegg
Un projet inédit
Un groupe de chercheurs en intelligence artificielle a découvert qu'il était possible de créer un énorme ensemble de données de huit téraoctets en utilisant uniquement des textes sous licence libre ou appartenant au domaine public. Ils ont testé la qualité de l'ensemble de données en l'utilisant pour former un modèle de langage de 7 milliards de paramètres, qui a obtenu d'aussi bons résultats que des efforts comparables de l'industrie, tels que Llama 2-7B, que Meta a publié en 2023.
L'article détaillant leurs efforts révèle également que le processus a été laborieux, ardu et impossible à automatiser complètement.
Le groupe a construit un modèle d'IA qui est nettement plus petit que les derniers modèles proposés par ChatGPT d'OpenAI ou Gemini de Google, mais ses résultats semblent représenter l'effort le plus important, le plus transparent et le plus rigoureux à ce jour pour démontrer une méthode différente de construction d'outils d'IA populaires.Envoyé par Résumé de la recherche
Cela pourrait avoir des conséquences sur le débat politique qui entoure l'IA et le droit d'auteur
Le document lui-même ne prend pas position sur la question de savoir si l'utilisation de textes pour entraîner l'intelligence artificielle constitue un usage loyal.
Ce débat a été ravivé ces dernières semaines par une action en justice très médiatisée et par des changements spectaculaires dans la législation sur le droit d'auteur et son application, tant aux États-Unis qu'au Royaume-Uni.
Mercredi, Reddit a annoncé qu'elle poursuivait Anthropic, alléguant que cette dernière avait accédé à des données du forum de discussion des médias sociaux sans accord de licence, selon le Wall Street Journal. Le même jour, la Chambre des communes du Royaume-Uni a fait des concessions sur un projet de loi controversé qui permettrait aux entreprises d'IA de s'entraîner sur du matériel protégé par des droits d'auteur.
Ces mesures font suite au licenciement par le président Donald Trump, le mois dernier, de la directrice du Bureau américain du droit d'auteur, Shira Perlmutter. Son éviction a attiré l'attention sur le récent rapport de l'office sur l'IA, qui mettait en doute l'application du fair use aux œuvres protégées par le droit d'auteur dans le cadre de l'IA générative.
Les entreprises d'IA et leurs investisseurs, quant à eux, affirment depuis longtemps qu'il n'est pas possible de trouver une meilleure solution
En avril 2023, Sy Damle, un avocat représentant la société de capital-risque Andreessen Horowitz, a déclaré au Bureau américain du droit d'auteur : « La seule façon pratique pour ces outils d'exister est qu'ils puissent être formés sur des quantités massives de données sans avoir à concéder de licence pour ces données ». Plus tard dans l'année, dans des commentaires adressés au gouvernement britannique, OpenAI a déclaré : « qu'il serait impossible d'entraîner les principaux modèles d'IA d'aujourd'hui sans utiliser des documents protégés par le droit d'auteur. »
Et en janvier 2024, le témoin expert d'Anthropic dans un procès sur le droit d'auteur a affirmé que « l'hypothétique marché concurrentiel des licences couvrant les données pour former des LLM de pointe serait impraticable », comme le montrent les documents du tribunal.
Alors que les documents d'orientation sur l'IA évoquent souvent la nécessité d'ouvrir davantage les données et que les experts débattent de la question de savoir si les grands modèles de langage devraient être formés à partir de données sous licence provenant d'éditeurs, peu d'efforts sont déployés pour mettre la théorie en pratique, a déclaré le coauteur de l'article, Aviya Skowron, responsable des politiques à l'institut de recherche à but non lucratif Eleuther AI.
« J'aimerais également que ces personnes soient curieuses de savoir ce que cette tâche implique réellement », a déclaré Skowron.
Il s'avère que cette tâche implique beaucoup d'humains
En effet, les données ne sont pas formatées de manière à être lisibles par la machine, ce qui pose des problèmes techniques, mais aussi juridiques, puisqu'il faut déterminer quelle licence s'applique à quel site web, une perspective décourageante alors que le secteur est truffé de données dont la licence n'est pas respectée.
« Il ne s'agit pas d'une chose où l'on peut simplement augmenter les ressources dont on dispose », comme l'accès à davantage de puces informatiques et à un scraper web sophistiqué, a déclaré Stella Biderman, directrice exécutive d'Eleuther AI. « Nous utilisons des outils automatisés, mais toutes nos données sont annotées manuellement à la fin de la journée et vérifiées par des personnes. Et c'est vraiment très difficile ».
Néanmoins, le groupe a réussi à mettre au jour de nouveaux ensembles de données qui peuvent être utilisés de manière éthique. Il s'agit notamment d'un ensemble de 130 000 livres en langue anglaise de la Bibliothèque du Congrès, soit près du double de la taille de l'ensemble de données sur les livres populaires du Projet Gutenberg.
L'initiative du groupe s'appuie également sur des efforts récents visant à développer des ensembles de données plus éthiques, mais toujours utiles, tels que FineWeb de Hugging Face, le référentiel open-source pour l'apprentissage automatique.
Eleuther AI a été à l'origine d'un effort analogue en matière de logiciels libres en 2020, en créant un ensemble de données souvent cité appelé « Pile ». Un site qui hébergeait l'ensemble de données a dû le retirer en 2023 à la suite d'une demande au titre du Digital Millennium Copyright Act émanant du groupe danois de lutte contre le piratage Rights Alliance, qui a ciblé le fait que le Pile contenait Books3, un ensemble de données de livres pour lequel Meta fait l'objet d'une action en justice.
Le nouvel ensemble de données s'appelle Common Pile v0.1, et le modèle s'appelle Comma v0.1 - une référence délibérée à la conviction du groupe qu'il sera en mesure de trouver davantage de textes sous licence ouverte ou dans le domaine public, qui pourront ensuite être utilisés pour former des modèles plus importants.
Source : résultats de l'étude
Et vous ?
La performance des modèles IA justifie-t-elle vraiment de s'affranchir du droit d’auteur ?
Faut-il imposer un système de « opt-in » (autorisation préalable) plutôt que « opt-out » (retrait sur demande) pour l'utilisation des contenus protégés ?
Accepteriez-vous que votre travail serve à former une IA si vous receviez une rémunération ou un crédit explicite ?
Le modèle actuel vous semble-t-il plutôt basé sur la spoliation ou l’innovation collaborative ?
Le droit d’auteur tel qu’il est conçu aujourd’hui est-il adapté à l’ère de l’intelligence artificielle ?
Qui doit porter la responsabilité juridique en cas d’abus : le développeur, l’entreprise, ou l’utilisateur ?
Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités
Partager