IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

  1. #1
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    mars 2013
    Messages
    7 299
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : mars 2013
    Messages : 7 299
    Points : 175 408
    Points
    175 408
    Par défaut Une avocate spécialisée dans l'open source donne son point de vue sur la plainte contre GitHub Copilot
    Un développeur enquête sur les problèmes juridiques liés au fonctionnement de GitHub Copilot, l'assistant de programmation basé sur l'IA,
    prévoyant des poursuites judiciaires

    GitHub Copilot est un outil d'intelligence artificielle basé sur le cloud développé par GitHub et OpenAI pour aider les utilisateurs des environnements de développement intégrés Visual Studio Code, Visual Studio, Neovim et JetBrains en complétant automatiquement le code. Matthieu Butterick, qui porte les casquettes d'écrivain, designer, développeur et avocat, a évoqué en juin 2022 les problèmes juridiques liés au fonctionnement de GitHub Copilot, « en particulier sa mauvaise gestion des licences open source ». Récemment, il a revêtu sa casquette d'avocat pour s'associer à des confrères plaideurs en recours collectif. Ensemble, ils enquêtent sur une poursuite potentielle contre GitHub Copilot pour violation de ses obligations légales envers les auteurs open source et les utilisateurs finaux.

    GitHub Copilot, qu'est-ce que c'est ?

    Copilot a été lancé en fin juin dans le cadre d'une Preview technique sur invitation uniquement, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.

    GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.

    Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.

    Nom : copilot.png
Affichages : 1816
Taille : 85,4 Ko

    Un réseau neuronal dans GitHub Copilot est entraîné à l'aide de volumes massifs de données, constituées du code : des millions de lignes téléchargées par les 65 millions d'utilisateurs de GitHub, la plus grande plateforme au monde permettant aux développeurs de collaborer et de partager leur travail. Le but est que Copilot en apprenne suffisamment sur les modèles de code pour pouvoir faire du hacking lui-même. Il peut prendre le code incomplet d'un partenaire humain et terminer le travail en ajout les parties manquantes. Dans la plupart des cas, il semble réussir à le faire. GitHub prévoit de vendre l'accès à l'outil aux développeurs.

    Comme pour la plupart des outils d'IA, GitHub souhaite également que Copilot devienne plus intelligent au fil du temps en fonction des données qu'il collecte auprès des utilisateurs. Lorsque les utilisateurs acceptent ou rejettent les suggestions de Copilot, son modèle d'apprentissage automatique utilisera ce retour d'information pour améliorer les suggestions futures, de sorte que l'outil deviendra peut-être plus humain à mesure qu'il apprendra.

    Citation Envoyé par Matthieu Butterick
    GitHub Copilot est un produit lancé par Microsoft en juin 2022 après une Preview technique d'un an. Copilot est un plugin pour Visual Studio et d'autres EDI qui produit ce que Microsoft appelle des « suggestions » basées sur ce que vous tapez dans l'éditeur.

    Qu'est-ce qui différencie Copilot de la saisie semi-automatique traditionnelle ? Copilot est alimenté par Codex, un système d'IA créé par OpenAI et sous licence Microsoft. (Bien que Microsoft ait également été appelée « le propriétaire non officiel d'OpenAI »). Copilot propose des suggestions basées sur des invites de texte tapées par l'utilisateur. Copilot peut être utilisé pour de petites suggestions, par exemple jusqu'à la fin d'une ligne, mais Microsoft a mis l'accent sur la capacité de Copilot à suggérer des blocs de code plus volumineux, comme le corps entier d'une fonction.

    Mais comment le Codex, le système d'IA sous-jacent, a-t-il été formé ? Selon OpenAI, Codex a été formé sur « des dizaines de millions de référentiels publics », y compris du code sur GitHub. Microsoft elle-même a vaguement décrit le matériel de formation comme « des milliards de lignes de code public ». Mais le chercheur de Copilot, Eddie Aftandilian, a confirmé dans un podcast récent (@ 36:40) que Copilot est « formé sur les dépôts publics sur GitHub ».
    Quel est le problème avec Copilot ?

    Selon Matthieu Butterick, Copilot soulève des questions juridiques relatives à la fois à la formation du système et à l'utilisation du système. Ce qui suit est extrait de son billet à ce sujet.

    Sur la formation du système

    La grande majorité des progiciels open source sont publiés sous des licences qui accordent aux utilisateurs certains droits et imposent certaines obligations (par exemple, en préservant l'attribution précise du code source). Ces licences sont rendues possibles légalement par les auteurs de logiciels faisant valoir leur droit d'auteur sur leur code.

    Ainsi, ceux qui souhaitent utiliser des logiciels open source ont le choix. Ils doivent soit :
    • respecter les obligations imposées par la licence, ou
    • utiliser le code sous réserve d'une exception de licence, par exemple, l'utilisation équitable en vertu de la loi sur le droit d'auteur.

    Microsoft et OpenAI ont reconnu que Copilot & Codex sont formés sur des logiciels open source dans des dépôts publics sur GitHub. Alors quel choix ont-ils fait ?

    Si Microsoft et OpenAI avaient choisi d'utiliser ces référentiels sous réserve de leurs licences open source respectives, Microsoft et OpenAI auraient dû publier de nombreuses attributions, car il s'agit d'une exigence minimale de presque toutes les licences open source. Pourtant, aucune attribution n'est apparente.

    Par conséquent, Microsoft et OpenAI doivent s'appuyer sur un argument d'utilisation équitable. En fait, nous savons que c'est le cas, car l'ancien PDG de GitHub, Nat Friedman, a affirmé lors de la Preview technique de Copilot que « la formation des systèmes [d'apprentissage automatique] sur les données publiques est une utilisation équitable ».

    Eh bien, n'est-ce pas ? La réponse n'est pas une question d'opinion; c'est une question de droit. Naturellement, Microsoft, OpenAI et d'autres chercheurs ont promu l'argument de l'utilisation équitable. Nat Friedman a en outre affirmé qu'il existe une « jurisprudence » sur l'utilisation équitable qui est « largement invoquée par la communauté de l'apprentissage automatique ». Mais la Software Freedom Conservancy n'était pas d'accord et a pressé Microsoft d'obtenir des preuves pour étayer sa position. Selon le directeur de la SFC, Bradley Kuhn :

    « Nous nous sommes renseignés en privé auprès de Friedman et d'autres représentants de Microsoft et de GitHub en juin 2021, demandant de solides références juridiques pour les positions juridiques publiques de GitHub… Ils n'en ont fourni aucune ».

    Pourquoi Microsoft n'a-t-elle pu produire aucune autorité légale pour sa position ? Parce que ma SFC a raison : il n'y en a pas. Bien que certains tribunaux aient examiné des questions connexes, il n'existe aucune affaire américaine résolvant carrément les ramifications de l'utilisation équitable de la formation à l'IA.

    De plus, les cas qui tournent autour de l'utilisation équitable équilibrent plusieurs facteurs. Même si un tribunal décide finalement que certains types de formation à l'IA sont une utilisation équitable (ce qui semble possible) il peut également en exclure d'autres. À ce jour, nous n'avons aucune idée de la position de Copilot ou de Codex sur ce spectre. Ni celle de Microsoft, encore moins de l'OpenAI.

    Nom : web.png
Affichages : 1171
Taille : 26,3 Ko

    Sur l'utilisation du système

    Nous ne pouvons pas encore dire comment l'utilisation équitable finira par être appliquée à la formation à l'IA. Mais nous savons que la recherche n'affectera pas du tout les utilisateurs de Copilot. Pourquoi ? Parce qu'ils utilisent simplement Copilot pour émettre du code. Alors, quel est le statut du droit d'auteur et de la licence de ce code émis ?

    Ici encore, nous constatons que Microsoft devient indulgente. En 2021, Nat Friedman a affirmé que « la sortie de Copilot appartient à l'opérateur, tout comme avec un compilateur ». Mais c'est une analogie malicieuse, car Copilot tend de nouveaux pièges aux imprudents.

    Microsoft caractérise la sortie de Copilot comme une série de « suggestions » de code. Microsoft « ne revendique aucun droit » sur ces suggestions. Mais Microsoft ne garantit pas non plus l'exactitude, la sécurité ou l'atténuation des enchevêtrements de propriété intellectuelle du code ainsi produit. Une fois que vous avez accepté une suggestion Copilot, tout cela devient votre problème :

    « Vous êtes responsable d'assurer la sécurité et la qualité de votre code. Nous vous recommandons de prendre les mêmes précautions lors de l'utilisation du code généré par GitHub Copilot que lorsque vous utilisez un code que vous n'avez pas écrit vous-même. Ces précautions comprennent des tests rigoureux, une analyse IP [(= propriété intellectuelle)] et un suivi des vulnérabilités de sécurité ».

    Quels enchevêtrements pourraient survenir ? Les utilisateurs de Copilot ont montré que Copilot peut être amené à émettre du code verbatim à partir de référentiels identifiables. Pas plus tard que cette semaine, le professeur Texas A&M, Tim Davis, a donné de nombreux exemples de gros morceaux de son code copiés textuellement par Copilot, y compris lorsqu'il a invité Copilot avec le commentaire /* sparse matrix transpose in the style of Tim Davis */L'utilisation de ce code crée clairement une obligation de se conformer à sa licence. Mais comme effet secondaire de la conception de Copilot, les informations sur l'origine du code (auteur, licence, etc.) sont supprimées. Comment les utilisateurs de Copilot peuvent-ils se conformer à la licence s'ils ne savent même pas qu'elle existe ?

    Les méthodes de récupération de code astucieuses de Copilot sont un écran de fumée destiné à dissimuler une vérité crasseuse : Copilot n'est qu'une interface alternative pratique à un vaste corpus de code open source. Par conséquent, les utilisateurs de Copilot peuvent encourir des obligations de licence envers les auteurs du code sous-jacent. Dans ce contexte, l'affirmation de Nat Friedman selon laquelle Copilot fonctionne « comme... un compilateur » est plutôt douteuse - les compilateurs changent la forme du code, mais ils n'injectent pas de nouveaux enchevêtrements de propriété intellectuelle. Pour être juste, Microsoft ne conteste pas vraiment cela. L'entreprise le cache juste en l'écrivant en petits caractères.

    Que signifie Copilot pour les communautés open source ?

    Citation Envoyé par Matthieu Butterick
    Quand j'ai écrit pour la première fois sur Copilot, j'ai dit « Je ne suis pas inquiet de ses effets sur l'open source ». À court terme, je ne suis toujours pas inquiet. Mais alors que je réfléchissais à mon propre parcours à travers l'open source - près de 25 ans - j'ai réalisé qu'il me manquait une vue d'ensemble. Après tout, l'open source n'est pas un groupe fixe de personnes. C'est une intelligence collective en constante évolution, continuellement renouvelée par de nouveaux esprits. Nous fixons de nouvelles normes et de nouveaux défis les uns pour les autres, et augmentons ainsi nos attentes quant à ce que nous pouvons accomplir.

    Au milieu de cette grande alchimie, Copilot s'interpose. Son but est de s'arroger l'énergie de l'open source. Nous n'avons pas besoin de plonger dans l'histoire très mouvementée de Microsoft avec l'open source pour voir Copilot pour ce qu'il est : un parasite.

    La légalité de Copilot doit être testée avant que les dommages causés à l'open source ne deviennent irréparables. C'est pourquoi j'envisage de l'attaquer en justice.
    D'autres développeurs avaient déjà manifesté leur mécontentement

    Peu après le lancement de la Preview de Copilot en 2021, certains développeurs ont commencé à s'alarmer de l'utilisation d'un code public pour entraîner l'IA de l'outil. L'une des préoccupations est que si Copilot reproduit des parties suffisamment importantes du code existant, il puisse violer les droits d'auteur ou blanchir le code open source dans des utilisations commerciales sans licence appropriée. L'outil peut également recracher des informations personnelles que les développeurs ont publiées, et dans un cas, il a reproduit le code largement cité du jeu PC Quake III Arena de 1999, y compris le commentaire du développeur John Carmack.

    Nom : copie.png
Affichages : 1172
Taille : 40,2 Ko

    L’utilisateur Hogan a aussi ajouté dans son fil de discussion : « Ce qui serait vraiment drôle, c'est que les gens qui maintiennent des dépôts populaires commençaient à mettre du mauvais code exprès ».

    GitHub affirme que les dérapages de Copilot sont rares. Mais un autre utilisateur de Twitter, répondant au post de Ronacher, a écrit : « Et ici nous avons la preuve directe que GitHub reproduit directement un morceau de code sous GPL, ce qui prouve que c'est un outil vraiment dangereux à utiliser dans des environnements commerciaux ». Dans une autre réponse, on peut lire : « Lol, c'est du blanchiment de code… »

    Source : Matthew Butterick

    Et vous ?

    Que pensez-vous de Copilot ?
    Partagez-vous les appréhensions de Matthew Butterick concernant l'utilisation du code open source de Copilot qui ne prend pas en considération les licences ?
    Comprenez-vous sa démarche visant à porter plainte ? A-t-elle, selon vous, des chances d'aboutir ?

    Voir aussi :

    GitHub Copilot, l'assistant de programmation basé sur l'IA, sous le feu des critiques, un développeur affirme qu'il émet de nombreux bouts de son code protégé par le droit d'auteur
    Un enseignant pointe GitHub Copilot comme l'outil parfait pour les tricheurs lors des évaluations de programmation et ravive les craintes sur la disparition du métier de développeur à cause de l'IA
    Copilot, l'outil d'IA commercial de GitHub, est critiqué par la communauté du logiciel open source, pour sa reproduction aveugle des blocs de code
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  2. #2
    Chroniqueur Actualités
    Avatar de Bruno
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    mai 2019
    Messages
    1 130
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Cameroun

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Produits et services télécom et Internet

    Informations forums :
    Inscription : mai 2019
    Messages : 1 130
    Points : 22 842
    Points
    22 842
    Par défaut Les assistants de programmation basés sur l'IA incitent à repenser l'enseignement de l'informatique
    Les assistants de programmation basés sur l'IA incitent de repenser l'enseignement de l'informatique
    selon des chercheurs

    Brett A. Becker, professeur adjoint à l'University College Dublin en Irlande, a fourni des copies de prépublication de deux articles de recherche explorant les risques et les opportunités pédagogiques des outils d'IA pour générer du code de programmation. Selon les experts, les enseignants doivent faire face aux opportunités et aux risques liés à l'utilisation des assistants de programmation basés sur l'IA.

    Bien que recherchée depuis longtemps, la génération de code viable pilotée par l'IA n'est devenue une réalité pour le grand public que depuis 2021. Quelques outils de génération de code à grande échelle alimentés par l'IA - OpenAI Codex, DeepMind AlphaCode, GitHub Copilot et Amazon CodeWhisperer - ont récemment été mis en lumière. Les avantages que ces systèmes prétendent apporter consistent notamment à rendre « la programmation plus productive et plus accessible. » Ils présentent également plusieurs défis.

    Nom : Code IA.jpg
Affichages : 14789
Taille : 29,1 Ko

    Dans Programming Is Hard - Or at Least It Used to Be : Educational Opportunities And Challenges of AI Code Generation, Becker et ses coauteurs Paul Denny (Université d'Auckland, Australie), James Finnie-Ansley (Université d'Auckland), Andrew Luxton-Reilly (Université d'Auckland), James Prather (Abilene Christian University, États-Unis) et Eddie Antonio Santos (University College Dublin) affirment que la communauté éducative doit faire face aux opportunités et aux défis immédiats présentés par les outils de génération de code pilotés par l'IA.

    Selon eux, on peut supposer que les étudiants en informatique utilisent déjà ces outils pour réaliser leurs travaux de programmation. Par conséquent, les politiques et les pratiques qui reflètent la nouvelle réalité doivent être élaborées le plus tôt possible.

    Codex OpenAI

    En septembre 2021, le New York Times a publié un article intitulé « L'I.A. peut maintenant écrire son propre code informatique. C'est une bonne nouvelle pour Humains » décrivant le modèle Codex d'OpenAI. OpenAI est un laboratoire de recherche en intelligence artificielle (IA) composé de la société à but lucratif OpenAI LP et de sa société mère, la société à but non lucratif OpenAI Inc. L'entreprise, considérée comme un concurrent de DeepMind (entreprise spécialisée dans l'intelligence artificielle appartenant à Google), mène des recherches dans le domaine de l'IA avec l'objectif déclaré de promouvoir et de développer une IA conviviale d'une manière qui profite à l'humanité dans son ensemble.

    Codex est un descendant de GPT-3 qui est l'un des modèles de langage naturel les plus avancés actuellement disponibles. Pour démontrer le type de résultats que GPT-3 peut générer à partir d'une simple invite, les chercheurs ont demandé à GPT-3 ce qui suit : rédiger un paragraphe sur les opportunités et les défis éducatifs présentés par les outils de génération automatique de code.

    Sa réponse a été la suivante :

    Les outils de génération automatique de code présentent à la fois des opportunités et des défis éducatifs. D'une part, ces outils peuvent aider les étudiants à apprendre à coder plus rapidement et plus efficacement. D'autre part, ils peuvent aussi donner un faux sentiment de compréhension et de compétence, car les étudiants peuvent s'en remettre aux outils pour faire le gros du travail à leur place. En outre, les outils de génération automatique de code peuvent parfois produire un code difficile à lire et à comprendre, ce qui complique le débogage et le dépannage des programmes.

    Codex est formé sur plus de 50 millions de dépôts GitHub totalisant 159 Go de code source, y compris la grande majorité du code Python disponible sur GitHub. Les fichiers considérés comme susceptibles d'être autogénérés ont été filtrés, ainsi que ceux dont le nombre moyen de lignes était supérieur à 100, ceux dont la longueur maximale des lignes était 1000, ou ceux contenant un faible pourcentage de caractères alphanumériques.

    Codex peut prendre des invites en anglais et générer du code dans plusieurs langages de programmation, notamment JavaScript, Go, Perl, PHP, Ruby, Swift, TypeScript et shell, mais il serait « plus performant » en Python.

    DeepMind AlphaCode

    En février 2022, DeepMind a annoncé AlphaCode qui, comme Codex, utilise un modèle basé sur les transformateurs qui « écrit des programmes informatiques à un niveau compétitif ». Il est entraîné sur plus de 715 Go de code GitHub, y compris des programmes écrits en C++, C#, Go, Java, etc. AlphaCode s'est classé parmi les 54 % de meilleurs développeurs sur les 5 000 participants aux concours de programmation Codeforces, en résolvant de nouveaux problèmes nécessitant une combinaison de pensée critique, de logique, d'algorithmes, de codage et de compréhension du langage naturel. AlphaCode n'est pas actuellement disponible sous forme d'API ou autre.

    Amazon CodeWhisperer

    Amazon CodeWhisperer a été annoncé en juin 2022. Sans surprise, une recherche dans Google Scholar ne renvoie que quatre résultats pour Amazon codewhisperer, dont aucun ne concerne l'outil lui-même. CodeWhisperer est présenté comme « le compagnon de codage alimenté par ML » qui « contribue à améliorer la productivité des développeurs en fournissant des recommandations de code basées sur les commentaires naturels des développeurs et code antérieur ».

    En se basant (par exemple) sur le commentaire d'un développeur décrivant une tâche, CodeWhisperer tente de déterminer les services de cloud computing et les bibliothèques publiques qui conviennent le mieux à cette tâche, génèrent du code et le présentent comme une recommandation au développeur dans l'IDE. Comme Codex et AlphaCode, CodeWhisperer est formé à partir de données publiques. Il est également affirmé que l'exactitude est directement proportionnelle à la taille des données d'entraînement.

    Autres produits de génération de code d'IA

    Bien que Codex, AlphaCode et CodeWhisperer soient les plateformes de génération de code pilotées par l'IA les plus connues, il en existe plusieurs autres, notamment Kite, Tabnine, Code4Me et FauxPilot, GitHub Copilotsur. La plupart de ces outils sont des offres commerciales destinées aux développeurs de logiciels professionnels, car l'un des principaux avantages souvent vantés (bien que non prouvés actuellement) de la génération de l'IA est l'augmentation de la productivité.

    Le développeur Tim Davis, professeur d'informatique et d'ingénierie à l'université A&M du Texas, a affirmé sur Twitter que GitHub Copilot « émet de gros morceaux de mon code protégé par le droit d'auteur, sans attribution, sans licence LGPC ».

    Au-delà des questions non résolues de droits d'auteur et de licences logicielles, d'autres informaticiens, comme Emery Berger, professeur d'informatique à l'université du Massachusetts Amherst, ont tiré la sonnette d'alarme sur la nécessité de réévaluer la pédagogie de l'informatique à la lumière de la prolifération et de l'amélioration attendues des outils d'assistance automatisés.

    « Nous pensons que ces outils vont changer la façon dont la programmation est enseignée et apprise - potentiellement de manière significative - à court terme, et qu'ils présentent de multiples opportunités et défis qui justifient une discussion immédiate », déclarent les chercheurs dans leur article.

    Source : Pre-publication copies of two research papers exploring the educational risks and opportunities of AI tools for generating programming code, Brett A. Becker, assistant professor at University College Dublin in Ireland

    Et vous ?

    Trouvez-vous cette étude pertinente ?

    Quel est votre avis sur le sujet ?

    Voir aussi :

    GitHub Copilot, l'assistant de programmation basé sur l'IA, sous le feu des critiques, un développeur affirme qu'il émet de nombreux bouts de son code protégé par le droit d'auteur

    Copilot, l'outil d'IA commercial de GitHub, est critiqué par la communauté du logiciel open source, pour sa reproduction aveugle des blocs de code
    Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  3. #3
    Membre chevronné
    Profil pro
    retraité
    Inscrit en
    décembre 2010
    Messages
    683
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : retraité

    Informations forums :
    Inscription : décembre 2010
    Messages : 683
    Points : 1 901
    Points
    1 901
    Par défaut
    Une fois le code compilé, comment tu fais pour savoir si une partie n'est pas une copie d'un code GPL ? pas possible

  4. #4
    Membre averti Avatar de Galet
    Homme Profil pro
    Consultant/Programmeur Robotique industrielle
    Inscrit en
    mars 2010
    Messages
    285
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Haute Savoie (Rhône Alpes)

    Informations professionnelles :
    Activité : Consultant/Programmeur Robotique industrielle

    Informations forums :
    Inscription : mars 2010
    Messages : 285
    Points : 356
    Points
    356
    Par défaut
    Quand les correcteurs seront aussi issue de l'IA, peut-être se reconnaitront-elles ?
    D'ailleurs lorsque ces programmes serviront à nourrir des machines, la mixture "artificielle" sera parfaitement digérée et la boucle sera bouclée ...
    Windows 10 / Delphi Tokyo
    "Les choses ne changent pas. Change ta façon de les voir, cela suffit" Lao Tseu

  5. #5
    Expert éminent
    Avatar de Matthieu Vergne
    Homme Profil pro
    Consultant IT, chercheur IA indépendant
    Inscrit en
    novembre 2011
    Messages
    2 237
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Consultant IT, chercheur IA indépendant
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : novembre 2011
    Messages : 2 237
    Points : 7 650
    Points
    7 650
    Billets dans le blog
    3
    Par défaut
    La génération de code existe depuis longtemps. On n'a pas attendu d'avoir des IA pour en faire. Rappelez-vous les éditeurs de code WYSIWYG : on place des blocs dans une fenêtre (champs, boutons, etc.) et il génère le code qui permet de créer ces objets avec ce layout. Un code imbuvable mais qui fait le job.

    La génération de code a toujours eu ce soucis de maintenabilité : du code écrit pour la machine doit être maintenu par la machine. Pour que ce soit maintenu par un humain, ce doit être écrit pour un humain. Ce n'est pas juste le résultat qui doit être pour l'humain, mais le code aussi. Les solutions d'IA permettent de faire un pas de plus dans ce sens, car elles permettent de reproduire des pratiques humaines, mais sans régler le problème : elles n'ont pas la logique humaine qui permet de composer tous ces bouts de code pris à droite à gauche. Elles peuvent reproduire un résultat (syntaxe) mais sans en reproduire le raisonnement (sémantique). Il s'agit donc de juger de la pertinence d'une suggestion sur la forme et non sur le fond. On se contente de reproduire ce qu'on a vu, y compris ses erreurs, sans pouvoir faire le tri. C'est là toute la limite des outils d'IA.

    Bref, rien de nouveau sous le soleil : la génération de code a toujours les même problèmes, on vient juste combler quelques trous pour que ça se voit moins.
    Site perso
    Recommandations pour débattre sainement

    Références récurrentes :
    The Cambridge Handbook of Expertise and Expert Performance
    L’Art d’avoir toujours raison (ou ce qu'il faut éviter pour pas que je vous saute à la gorge {^_^})

  6. #6
    Membre chevronné

    Homme Profil pro
    Consultant informatique
    Inscrit en
    avril 2015
    Messages
    391
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Vendée (Pays de la Loire)

    Informations professionnelles :
    Activité : Consultant informatique
    Secteur : Finance

    Informations forums :
    Inscription : avril 2015
    Messages : 391
    Points : 1 821
    Points
    1 821
    Par défaut
    La seule aide réelle que j'ai vue mentionnée dans cet article est le répertoire des bibliothèques et la génération d'un code d'accès aux fonctions souhaitées. C'est du Data et de l'automatisme, donc ça doit être productif.
    Pour le reste, pour dérouiller mon neurone je me suis mis vraiment au bouquin de Stroustrup "Programmation, principes et pratiques avec C++".
    J'adore. Je me mets dans la peau d'un novice (j'ai plus de 30 ans d'expérience de développement en divers langages, dont de la maintenance en C++), et je suis innocemment ce qu'il raconte.
    L'expérience éclaire brillamment la différence entre faire et comprendre pourquoi on fait. Tant que l'IA ne m'expliquera pas pourquoi elle s'y prend de telle ou telle manière pour résoudre un problème, je la considérerai comme celle de la dixième symphonie de Beethoven citée par ailleurs : Un artifice pompeux utilisé par des gens peu informés pour se donner l'air savant.
    Accessoirement, ce bouquin est une merveille pédagogique, il mériterait d'être actualisé et utilisé comme base à toute classe désireuse de "programmer". Dommage qu'il soit épuisé !

  7. #7
    Membre du Club
    Homme Profil pro
    je ne suis pas en recherche d'emploi
    Inscrit en
    décembre 2012
    Messages
    16
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 81
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : je ne suis pas en recherche d'emploi
    Secteur : Conseil

    Informations forums :
    Inscription : décembre 2012
    Messages : 16
    Points : 53
    Points
    53
    Par défaut Et la créativité dans tout cela ???
    Depuis l'apparition de l'ordinateur , je me posais la question : quel serait l'ordinateur idéal pour moi ?

    Le fait de pouvoir résoudre plus rapidement une équation de 5ème degré était d'utilité nulle pour moi car je n'avais aucun moyen de vérifier la qualité des réponses fournies ...
    La capacité de générer une quantité de data impossible à digérer ne m'aidait pas beaucoup plus.
    En musique l'ordinateur s'avérait un faussaire de très piètre qualité en réalité , aux échecs il me battait à 99% du temps , mais de façon tellement ennuyeuse que j'ai failli ne plus jouer du tout.

    Finalement le seul domaine où il c'est avéré réellement utile c'est dans la traduction de textes dans des langues que je n'avais jamais parlé : j'ai même réussi à traiter une affaire avec un chinois à nôtre satisfaction réciproque.

    Les traitements de texte n'ont comme seul vrai intérêt que de pouvoir exprimer une idée de plusieurs façons différentes ... et par là même divergentes pour arriver à pouvoir choisir ce que j'espérais pouvoir vraiment exprimer : surtout grâce aux dictionnaires de synonymes qui arrivaient à me faire remettre en question mes propos !!!

    Les tableurs sont très utiles pour des travaux sans grand intérêt la plupart du temps.

    Une anecdote à leur sujet : à l'époque je vendais les premiers Apple , et la maison mère dans une de ses formation m'a appris que le meilleurs segment de marché , n'était ni les ingénieurs , ni les comptables mais bien les vendeurs et les publicitaires ???

    En effet le tableurs permettait par quelques formules magique , de faire apparaître tous les bénéfices que vous apporterait l'achat de ma machine à turlutifier , et qui se payerait
    d'elle-même en moins de six mois : CHIFFRES A L'APPUI , et même pour les plus scientifiques je faisais apparaître dans un graphique convainquant l' Erreur qu'il y aurait à ne pas acheter le tableur en plus de l'ordinateur. La concurence ,elle , ne ferait pas cette erreur !
    Je n'ai jamais gagné aussi bien ma vie ... et moralement , je travaillais pour le progrès !

    Moi, la seule chose que je souhaitais de mon ordinateur c'était non pas qu'il me fournisse des réponses : j'avais un cerveau pour cela , c'était qu'il me pousse à me poser les bonnes questions. J'ai attendu plus de cinquante ans ... je crois que l'ordinateur ne pourra sans doute jamais le faire. Mais comme destructeur de synapses , il est imbatable.

    En résumé : Naissance de l'ordinateur ,
    problème N°1 la souffrance de l'humanité , solution informatique : nada , que dalle , zéro
    problème N°2 les calamités dues aux armes , solution informatique : les armes sont beaucoup plus performantes
    problème N°3 la progression de l'ignorance chez les peuples "civilisés" , solution informatique : particulièrement active dans cette progression.

    Conclusion : Je ne crois pas une seule seconde , que la programmation automatique mise entre les mains de gens incompétants puisse apporter ause chose que des catastrophes.

    Voir le concept d'apprenti sorcier ...
    Toujours cordialement
    Paradoxalix

  8. #8
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    mars 2013
    Messages
    7 299
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : mars 2013
    Messages : 7 299
    Points : 175 408
    Points
    175 408
    Par défaut GitHub Copilot est poursuivi pour avoir « volé du code »
    Un développeur porte plainte contre GitHub Copilot, le décrivant comme un produit d'IA qui s'appuie sur un piratage de logiciels open source sans précédent
    et vise le recours collectif

    GitHub Copilot est un outil d'intelligence artificielle basé sur le cloud développé par GitHub et OpenAI pour aider les utilisateurs des environnements de développement intégrés Visual Studio Code, Visual Studio, Neovim et JetBrains en complétant automatiquement le code. Matthieu Butterick, qui porte les casquettes d'écrivain, designer, développeur et avocat, a évoqué en juin 2022 les problèmes juridiques liés au fonctionnement de GitHub Copilot, « en particulier sa mauvaise gestion des licences open source ». Récemment, il a revêtu sa casquette d'avocat pour s'associer à des confrères plaideurs en recours collectif. Ensemble, ils ont enquêté sur une poursuite potentielle contre GitHub Copilot pour violation de ses obligations légales envers les auteurs open source et les utilisateurs finaux. Au terme de cette enquête lancée en octobre, ils ont déposé une plainte contre GitHub Copilot.

    GitHub Copilot, qu'est-ce que c'est ?

    Copilot a été lancé en fin juin dans le cadre d'une Preview technique sur invitation uniquement, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.

    GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.

    Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.

    Nom : un.png
Affichages : 9799
Taille : 84,7 Ko

    Un réseau neuronal dans GitHub Copilot est entraîné à l'aide de volumes massifs de données, constituées du code : des millions de lignes téléchargées par les 65 millions d'utilisateurs de GitHub, la plus grande plateforme au monde permettant aux développeurs de collaborer et de partager leur travail. Le but est que Copilot en apprenne suffisamment sur les modèles de code pour pouvoir faire du hacking lui-même. Il peut prendre le code incomplet d'un partenaire humain et terminer le travail en ajout les parties manquantes. Dans la plupart des cas, il semble réussir à le faire. GitHub prévoit de vendre l'accès à l'outil aux développeurs.

    Comme pour la plupart des outils d'IA, GitHub souhaite également que Copilot devienne plus intelligent au fil du temps en fonction des données qu'il collecte auprès des utilisateurs. Lorsque les utilisateurs acceptent ou rejettent les suggestions de Copilot, son modèle d'apprentissage automatique utilisera ce retour d'information pour améliorer les suggestions futures, de sorte que l'outil deviendra peut-être plus humain à mesure qu'il apprendra.

    Citation Envoyé par Matthieu Butterick
    GitHub Copilot est un produit lancé par Microsoft en juin 2022 après une Preview technique d'un an. Copilot est un plug-in pour Visual Studio et d'autres EDI qui produit ce que Microsoft appelle des « suggestions » basées sur ce que vous tapez dans l'éditeur.

    Qu'est-ce qui différencie Copilot de la saisie semi-automatique traditionnelle ? Copilot est alimenté par Codex, un système d'IA créé par OpenAI et sous licence Microsoft. (Bien que Microsoft ait également été appelée « le propriétaire non officiel d'OpenAI »). Copilot propose des suggestions basées sur des invites de texte tapées par l'utilisateur. Copilot peut être utilisé pour de petites suggestions, par exemple jusqu'à la fin d'une ligne, mais Microsoft a mis l'accent sur la capacité de Copilot à suggérer des blocs de code plus volumineux, comme le corps entier d'une fonction.

    Mais comment le Codex, le système d'IA sous-jacent, a-t-il été formé ? Selon OpenAI, Codex a été formé sur « des dizaines de millions de référentiels publics », y compris du code sur GitHub. Microsoft elle-même a vaguement décrit le matériel de formation comme « des milliards de lignes de code public ». Mais le chercheur de Copilot, Eddie Aftandilian, a confirmé dans un podcast récent (@ 36:40) que Copilot est « formé sur les dépôts publics sur GitHub ».
    Quel est le problème avec Copilot ?

    Selon Matthieu Butterick, Copilot soulève des questions juridiques relatives à la fois à la formation du système et à l'utilisation du système. Ce qui suit est extrait de son billet à ce sujet.

    Sur la formation du système

    La grande majorité des progiciels open source sont publiés sous des licences qui accordent aux utilisateurs certains droits et imposent certaines obligations (par exemple, en préservant l'attribution précise du code source). Ces licences sont rendues possibles légalement par les auteurs de logiciels faisant valoir leur droit d'auteur sur leur code.

    Ainsi, ceux qui souhaitent utiliser des logiciels open source ont le choix. Ils doivent :
    • soit respecter les obligations imposées par la licence ;
    • soit utiliser le code sous réserve d'une exception de licence, par exemple, l'utilisation équitable en vertu de la loi sur le droit d'auteur.

    Microsoft et OpenAI ont reconnu que Copilot & Codex sont formés sur des logiciels open source dans des dépôts publics sur GitHub. Alors quel choix ont-ils fait ?

    Si Microsoft et OpenAI avaient choisi d'utiliser ces référentiels sous réserve de leurs licences open source respectives, Microsoft et OpenAI auraient dû publier de nombreuses attributions, car il s'agit d'une exigence minimale de presque toutes les licences open source. Pourtant, aucune attribution n'est apparente.

    Par conséquent, Microsoft et OpenAI doivent s'appuyer sur un argument d'utilisation équitable. En fait, nous savons que c'est le cas, car l'ancien PDG de GitHub, Nat Friedman, a affirmé lors de la Preview technique de Copilot que « la formation des systèmes [d'apprentissage automatique] sur les données publiques est une utilisation équitable ».

    Eh bien, n'est-ce pas ? La réponse n'est pas une question d'opinion ; c'est une question de droit. Naturellement, Microsoft, OpenAI et d'autres chercheurs ont promu l'argument de l'utilisation équitable. Nat Friedman a en outre affirmé qu'il existe une « jurisprudence » sur l'utilisation équitable qui est « largement invoquée par la communauté de l'apprentissage automatique ». Mais la Software Freedom Conservancy n'était pas d'accord et a pressé Microsoft d'obtenir des preuves pour étayer sa position. Selon le directeur de la SFC, Bradley Kuhn :

    « Nous nous sommes renseignés en privé auprès de Friedman et d'autres représentants de Microsoft et de GitHub en juin 2021, demandant de solides références juridiques pour les positions juridiques publiques de GitHub… Ils n'en ont fourni aucune ».

    Pourquoi Microsoft n'a-t-elle pu produire aucune autorité légale pour sa position ? Parce que ma SFC a raison : il n'y en a pas. Bien que certains tribunaux aient examiné des questions connexes, il n'existe aucune affaire américaine résolvant carrément les ramifications de l'utilisation équitable de la formation à l'IA.

    De plus, les cas qui tournent autour de l'utilisation équitable équilibrent plusieurs facteurs. Même si un tribunal décide finalement que certains types de formation à l'IA sont une utilisation équitable (ce qui semble possible) il peut également en exclure d'autres. À ce jour, nous n'avons aucune idée de la position de Copilot ou de Codex sur ce spectre. Ni celle de Microsoft, encore moins de l'OpenAI.

    Sur l'utilisation du système

    Nous ne pouvons pas encore dire comment l'utilisation équitable finira par être appliquée à la formation à l'IA. Mais nous savons que la recherche n'affectera pas du tout les utilisateurs de Copilot. Pourquoi ? Parce qu'ils utilisent simplement Copilot pour émettre du code. Alors, quel est le statut du droit d'auteur et de la licence de ce code émis ?

    Ici encore, nous constatons que Microsoft devient indulgente. En 2021, Nat Friedman a affirmé que « la sortie de Copilot appartient à l'opérateur, tout comme avec un compilateur ». Mais c'est une analogie malicieuse, car Copilot tend de nouveaux pièges aux imprudents.

    Microsoft caractérise la sortie de Copilot comme une série de « suggestions » de code. Microsoft « ne revendique aucun droit » sur ces suggestions. Mais Microsoft ne garantit pas non plus l'exactitude, la sécurité ou l'atténuation des enchevêtrements de propriétés intellectuelles du code ainsi produit. Une fois que vous avez accepté une suggestion Copilot, tout cela devient votre problème :

    « Vous êtes responsable d'assurer la sécurité et la qualité de votre code. Nous vous recommandons de prendre les mêmes précautions lors de l'utilisation du code généré par GitHub Copilot que lorsque vous utilisez un code que vous n'avez pas écrit vous-même. Ces précautions comprennent des tests rigoureux, une analyse IP [(= propriété intellectuelle)] et un suivi des vulnérabilités de sécurité ».

    Quels enchevêtrements pourraient survenir ? Les utilisateurs de Copilot ont montré que Copilot peut être amené à émettre du code verbatim à partir de référentiels identifiables. Pas plus tard que cette semaine, le professeur Texas A&M, Tim Davis, a donné de nombreux exemples de gros morceaux de son code copiés textuellement par Copilot, y compris lorsqu'il a invité Copilot avec le commentaire /* sparse matrix transpose in the style of Tim Davis */L'utilisation de ce code crée clairement une obligation de se conformer à sa licence. Mais comme effet secondaire de la conception de Copilot, les informations sur l'origine du code (auteur, licence, etc.) sont supprimées. Comment les utilisateurs de Copilot peuvent-ils se conformer à la licence s'ils ne savent même pas qu'elle existe ?

    Les méthodes de récupération de code astucieuses de Copilot sont un écran de fumée destiné à dissimuler une vérité crasseuse : Copilot n'est qu'une interface alternative pratique à un vaste corpus de code open source. Par conséquent, les utilisateurs de Copilot peuvent encourir des obligations de licence envers les auteurs du code sous-jacent. Dans ce contexte, l'affirmation de Nat Friedman selon laquelle Copilot fonctionne « comme... un compilateur » est plutôt douteuse - les compilateurs changent la forme du code, mais ils n'injectent pas de nouveaux enchevêtrements de propriétés intellectuelles. Pour être juste, Microsoft ne conteste pas vraiment cela. L'entreprise le cache juste en l'écrivant en petits caractères.

    Que signifie Copilot pour les communautés open source ?

    Citation Envoyé par Matthieu Butterick
    Quand j'ai écrit pour la première fois sur Copilot, j'ai dit « Je ne suis pas inquiet de ses effets sur l'open source ». À court terme, je ne suis toujours pas inquiet. Mais alors que je réfléchissais à mon propre parcours à travers l'open source - près de 25 ans - j'ai réalisé qu'il me manquait une vue d'ensemble. Après tout, l'open source n'est pas un groupe fixe de personnes. C'est une intelligence collective en constante évolution, continuellement renouvelée par de nouveaux esprits. Nous fixons de nouvelles normes et de nouveaux défis les uns pour les autres, et augmentons ainsi nos attentes quant à ce que nous pouvons accomplir.

    Au milieu de cette grande alchimie, Copilot s'interpose. Son but est de s'arroger l'énergie de l'open source. Nous n'avons pas besoin de plonger dans l'histoire très mouvementée de Microsoft avec l'open source pour voir Copilot pour ce qu'il est : un parasite.

    La légalité de Copilot doit être testée avant que les dommages causés à l'open source ne deviennent irréparables. C'est pourquoi j'envisage de l'attaquer en justice.
    D'autres développeurs avaient déjà manifesté leur mécontentement

    Peu après le lancement de la Preview de Copilot en 2021, certains développeurs ont commencé à s'alarmer de l'utilisation d'un code public pour entraîner l'IA de l'outil. L'une des préoccupations est que si Copilot reproduit des parties suffisamment importantes du code existant, il puisse violer les droits d'auteur ou blanchir le code open source dans des utilisations commerciales sans licence appropriée. L'outil peut également recracher des informations personnelles que les développeurs ont publiées, et dans un cas, il a reproduit le code largement cité du jeu PC Quake III Arena de 1999, y compris le commentaire du développeur John Carmack.

    Nom : brian.png
Affichages : 2232
Taille : 32,5 Ko

    L’utilisateur Hogan a aussi ajouté dans son fil de discussion : « Ce qui serait vraiment drôle, c'est que les gens qui maintiennent des dépôts populaires commençaient à mettre du mauvais code exprès ».

    GitHub affirme que les dérapages de Copilot sont rares. Mais un autre utilisateur de Twitter, répondant au post de Ronacher, a écrit : « Et ici nous avons la preuve directe que GitHub reproduit directement un morceau de code sous GPL, ce qui prouve que c'est un outil vraiment dangereux à utiliser dans des environnements commerciaux ». Dans une autre réponse, on peut lire : « Lol, c'est du blanchiment de code… »

    Matthew Butterick a décidé de porter plainte contre GitHub Copilot aux côtés d'avocats spécialisés dans le recours collectif

    Aujourd'hui, nous avons déposé un recours collectif devant le tribunal fédéral américain de San Francisco, en Californie, au nom d'un groupe proposé de millions d'utilisateurs de GitHub. Nous contestons la légalité de GitHub Copilot (et d'un produit connexe, OpenAI Codex, qui alimente Copilot). La poursuite a été déposée contre un ensemble de défendeurs qui comprend GitHub, Microsoft (propriétaire de GitHub) et OpenAI.

    En formant leurs systèmes d'IA sur des référentiels publics GitHub (bien que basés sur leurs déclarations publiques, peut-être bien plus), nous soutenons que les accusés ont violé les droits légaux d'un grand nombre de créateurs qui ont publié du code ou d'autres travaux sous certaines licences open source sur GitHub. Quelles licences ? Un ensemble de 11 licences open source populaires qui nécessitent toutes l'attribution du nom de l'auteur et des droits d'auteur, y compris la licence MIT, la GPL et la licence Apache. (Celles-ci sont énumérées dans l'annexe à la plainte.)

    En plus d'avoir enfreint les exigences d'attribution de ces licences, nous soutenons que les défendeurs ont enfreint :
    • les conditions d'utilisation et les politiques de confidentialité de GitHub ;
    • le DMCA § 1202, qui interdit la suppression des informations de gestion des droits d'auteur ;
    • la loi californienne sur la protection de la vie privée des consommateurs ;
    • et d'autres lois donnant lieu à des réclamations légales connexes.

    Dans les semaines à venir, nous modifierons probablement cette plainte pour ajouter d'autres parties et réclamations.

    C'est la première étape d'un long voyage. À notre connaissance, il s'agit du premier cas de recours collectif aux États-Unis contestant la formation et la sortie des systèmes d'IA. Ce ne sera pas le dernier. Les systèmes d'IA ne sont pas exemptés de la loi. Ceux qui créent et exploitent ces systèmes doivent rester responsables. Si des entreprises comme Microsoft, GitHub et OpenAI choisissent de ne pas respecter la loi, elles ne doivent pas s'attendre à ce que nous, le public, restions immobiles. L'IA doit être juste et éthique pour tout le monde. Si ce n'est pas le cas, il ne pourra jamais atteindre ses objectifs tant vantés d'élever l'humanité. Cela deviendra simplement un autre moyen pour quelques privilégiés de profiter du travail du plus grand nombre.
    Source : Matthew Butterick

    Et vous ?

    Que pensez-vous de Copilot ?
    Partagez-vous les appréhensions de Matthew Butterick concernant l'utilisation du code open source de Copilot qui ne prend pas en considération les licences ?
    Comprenez-vous sa démarche visant à porter plainte ? A-t-elle, selon vous, des chances d'aboutir ?

    Voir aussi :

    GitHub Copilot, l'assistant de programmation basé sur l'IA, sous le feu des critiques, un développeur affirme qu'il émet de nombreux bouts de son code protégé par le droit d'auteur
    Un enseignant pointe GitHub Copilot comme l'outil parfait pour les tricheurs lors des évaluations de programmation et ravive les craintes sur la disparition du métier de développeur à cause de l'IA
    Copilot, l'outil d'IA commercial de GitHub, est critiqué par la communauté du logiciel open source, pour sa reproduction aveugle des blocs de code
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  9. #9
    Rédacteur/Modérateur

    Avatar de yahiko
    Homme Profil pro
    Développeur
    Inscrit en
    juillet 2013
    Messages
    1 381
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Alpes Maritimes (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Développeur

    Informations forums :
    Inscription : juillet 2013
    Messages : 1 381
    Points : 8 643
    Points
    8 643
    Billets dans le blog
    43
    Par défaut
    En même temps, ceux qui développent en Open Source ne devraient pas s'étonner de voir leur code "pillé". C'est très naïf sinon.
    Tutoriels et FAQ TypeScript

  10. #10
    Nouveau membre du Club
    Profil pro
    Dev
    Inscrit en
    novembre 2012
    Messages
    6
    Détails du profil
    Informations personnelles :
    Localisation : France, Eure (Haute Normandie)

    Informations professionnelles :
    Activité : Dev

    Informations forums :
    Inscription : novembre 2012
    Messages : 6
    Points : 28
    Points
    28
    Par défaut
    Citation Envoyé par yahiko Voir le message
    En même temps, ceux qui développent en Open Source ne devraient pas s'étonner de voir leur code "pillé". C'est très naïf sinon.
    Je ne comprends pas trop cette remarque, open source ne veux pas forcément dire libre. Par exemple, certains de mes codes sur GitHub sont soumis à une licence interdisant leur usage dans un produit commercial sans mon accord écrit.

    Oui le pillage est existant et se fait aussi bien au niveau des grands groupes que des petits développeurs mais de là à dire que c'est "normal" et "naïf" de croire que les gens vont respecter les licences je trouve ça aberrant.

    En appliquant cette logique aux logiciels commerciaux, ça revient à dire que le piratage est ok ou alors peut être que ça ne s'applique qu'aux produits opensource parce que ils sont open source ?

  11. #11
    Expert éminent Avatar de kain_tn
    Homme Profil pro
    Inscrit en
    mars 2005
    Messages
    1 377
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Suisse

    Informations forums :
    Inscription : mars 2005
    Messages : 1 377
    Points : 6 125
    Points
    6 125
    Par défaut
    Citation Envoyé par yahiko Voir le message
    En même temps, ceux qui développent en Open Source ne devraient pas s'étonner de voir leur code "pillé". C'est très naïf sinon.
    Tu as quand même une licence autour.

    C'est comme pour les peintures ou les photos: tout le monde peut les voir, les prendre en photo, mais les modifier pour faire des thunes dessus dans un contexte autre que le "fair-use", c'est un illégal.

    Mais dans le fond, tu as raison: c'est naïf de croire que tout le monde respecte les licences, en commençant par les GAFAM.
    Copier c'est copier; voler c'est vendre un CD une vingtaine d'euros!


    Code C : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    #include <stdio.h>
     
    int main(int argc, char **argv) {
     
        printf("So long, and thanks for the fish, Dennis...\n");
        return 0;
    }

  12. #12
    Expert confirmé
    Homme Profil pro
    Développeur .NET
    Inscrit en
    novembre 2009
    Messages
    1 885
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 33
    Localisation : France, Bouches du Rhône (Provence Alpes Côte d'Azur)

    Informations professionnelles :
    Activité : Développeur .NET

    Informations forums :
    Inscription : novembre 2009
    Messages : 1 885
    Points : 5 134
    Points
    5 134
    Par défaut
    Citation Envoyé par Shalien Voir le message
    Par exemple, certains de mes codes sur GitHub sont soumis à une licence interdisant leur usage dans un produit commercial sans mon accord écrit.
    Mais est-on dans ce cas là? Ici on est sur des bouts de code, qui probablement ressorte s'ils existent en n exemplaires.
    Par exemple une simple boucle for, ou un bout de code que tout le monde utilise pour aller lire un fichier.
    J'imagine que la licence ne peut pas s'appliquer à des bouts de codes non fonctionnel en l'état. Sinon on peut tout aussi bien arrêter de coder car il y a forcement un code "for(int i=0;i<table.length;i++) qui est sous une licence quelque part.

    Dans le cas de bout de code plus conséquent, le problème est probablement plus réel, même si sans être une seconde hypocrite, 99.99% des devs vont récupérer, à un moment ou un autre, des bouts de code plus ou moins conséquent à droite à gauche en faisant un simple copier coller sans se poser la question de la licence. Peut-être est-ce un tord, mais dans la majorité des cas la licence ne se pose que lorsqu'on utilise un logiciel ou une bibliothèque, et dans une minorité même les gens s'assoient littéralement dessus.

  13. #13
    Expert confirmé Avatar de Zefling
    Homme Profil pro
    Développeur Web
    Inscrit en
    avril 2007
    Messages
    1 146
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Puy de Dôme (Auvergne)

    Informations professionnelles :
    Activité : Développeur Web
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : avril 2007
    Messages : 1 146
    Points : 4 492
    Points
    4 492
    Par défaut
    Open Source ne veut pas dire libre non plus. Par exemple, le code de l'Unreal Engine est open source, mais il est tout sauf libre. Et je pense pas que Epic soit d'accord pour qu'on y récupère quoi que soit.

    Quoi qu'il en soit, s'il y a des licences c'est pas pour rien. Sinon autant rentre tout code libre et sans licences. Mais je suis pas sur que les logiciels en sources fermés sur Github soit ok pour que leurs repos privés ne le soit plus.

  14. #14
    Membre habitué
    Inscrit en
    juin 2010
    Messages
    43
    Détails du profil
    Informations forums :
    Inscription : juin 2010
    Messages : 43
    Points : 196
    Points
    196
    Par défaut
    Citation Envoyé par micka132 Voir le message
    Mais est-on dans ce cas là? Ici on est sur des bouts de code, qui probablement ressorte s'ils existent en n exemplaires.
    Par exemple une simple boucle for, ou un bout de code que tout le monde utilise pour aller lire un fichier.
    J'imagine que la licence ne peut pas s'appliquer à des bouts de codes non fonctionnel en l'état. Sinon on peut tout aussi bien arrêter de coder car il y a forcement un code "for(int i=0;i<table.length;i++) qui est sous une licence quelque part.

    Dans le cas de bout de code plus conséquent, le problème est probablement plus réel, même si sans être une seconde hypocrite, 99.99% des devs vont récupérer, à un moment ou un autre, des bouts de code plus ou moins conséquent à droite à gauche en faisant un simple copier coller sans se poser la question de la licence. Peut-être est-ce un tord, mais dans la majorité des cas la licence ne se pose que lorsqu'on utilise un logiciel ou une bibliothèque, et dans une minorité même les gens s'assoient littéralement dessus.
    Dans le cas de Copilot je peux certifier que, moyennant une description correcte, il est capable de te sortir une fonction complète. Ce n'est plus des bout de code, mais des implémentations d'algorithme entier. La moindre des choses serait de ne piocher que dans les projets qui autorise la réutilisation de code sans limitation.

  15. #15
    Membre chevronné Avatar de onilink_
    Profil pro
    Inscrit en
    juillet 2010
    Messages
    529
    Détails du profil
    Informations personnelles :
    Âge : 31
    Localisation : France

    Informations forums :
    Inscription : juillet 2010
    Messages : 529
    Points : 2 192
    Points
    2 192
    Par défaut
    Un truc qui m’énerve beaucoup avec le machine learning, c'est que si tu n'es pas d'accord pour être inclus dans leurs bases de données, tu n'as aucun recours, ou juste aucun moyen de le faire savoir.
    Ça serait bien d'avoir des licences qui interdisent explicitement du contenu d'être utilisées en tant que données d’entraînement. Ou un équivalent des robots.txt pour spécifier certaines contraintes.

    Puis comme toujours, qui c'est que ça avantage? Qui est capable d’entraîner des modèles titanesques? Certainement pas de petites entreprises avec un budget limité.
    Les petits se font toujours piller par les gros, et ce n'est pas près de s'arrêter avec l'IA, bien au contraire...
    Circuits intégrés mis à nu: https://twitter.com/TICS_Game

  16. #16
    Expert éminent
    Avatar de Matthieu Vergne
    Homme Profil pro
    Consultant IT, chercheur IA indépendant
    Inscrit en
    novembre 2011
    Messages
    2 237
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Consultant IT, chercheur IA indépendant
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : novembre 2011
    Messages : 2 237
    Points : 7 650
    Points
    7 650
    Billets dans le blog
    3
    Par défaut
    Pour ma part, tous mes codes sont en CC0, donc n'importe qui peut faire ce qu'il veut avec. Des licences comme ça il y en a d'autres. Ils pourraient tout à fait se limiter à exploiter des codes qui ont ce type de licence pour éviter tout problème. Donc la critique me semble justifiée, même d'un point de vue pratique.
    Site perso
    Recommandations pour débattre sainement

    Références récurrentes :
    The Cambridge Handbook of Expertise and Expert Performance
    L’Art d’avoir toujours raison (ou ce qu'il faut éviter pour pas que je vous saute à la gorge {^_^})

  17. #17
    Membre confirmé
    Homme Profil pro
    Développeur .NET
    Inscrit en
    septembre 2014
    Messages
    154
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Développeur .NET
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : septembre 2014
    Messages : 154
    Points : 518
    Points
    518
    Par défaut
    C'est exactement le même problème pour les IA qui génèrent des œuvres artistiques en se basant sur le travail réalisé par toute l'humanité au fil de l'histoire.
    C'est du vol si ce n'est pas juste un petit extrait qui est copié

  18. #18
    Expert éminent
    Avatar de Matthieu Vergne
    Homme Profil pro
    Consultant IT, chercheur IA indépendant
    Inscrit en
    novembre 2011
    Messages
    2 237
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Consultant IT, chercheur IA indépendant
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : novembre 2011
    Messages : 2 237
    Points : 7 650
    Points
    7 650
    Billets dans le blog
    3
    Par défaut
    Ce n'est pas du "vol" car rien n'a été retiré à l'auteur original. Ce n'est pas pour rien qu'on a introduit la notion de "contrefaçon".

    Pour ma part, ça reste assez flou, dans le sens où les humains eux-même apprennent en reproduisant ce que font d'autres. Je vois difficilement comment mettre une limite claire entre une œuvre originale et un agrégat de choses reprises ailleurs.
    Site perso
    Recommandations pour débattre sainement

    Références récurrentes :
    The Cambridge Handbook of Expertise and Expert Performance
    L’Art d’avoir toujours raison (ou ce qu'il faut éviter pour pas que je vous saute à la gorge {^_^})

  19. #19
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    mars 2013
    Messages
    7 299
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : mars 2013
    Messages : 7 299
    Points : 175 408
    Points
    175 408
    Par défaut Une avocate spécialisée dans l'open source donne son point de vue sur la plainte contre GitHub Copilot
    Une avocate spécialisée dans l'open source donne son point de vue sur la plainte contre GitHub Copilot,
    l'assistant de programmation basé sur l'IA

    GitHub Copilot est un outil d'intelligence artificielle basé sur le cloud développé par GitHub et OpenAI pour aider les utilisateurs des environnements de développement intégrés Visual Studio Code, Visual Studio, Neovim et JetBrains en complétant automatiquement le code. Matthieu Butterick, qui porte les casquettes d'écrivain, designer, développeur et avocat, a évoqué en juin 2022 les problèmes juridiques liés au fonctionnement de GitHub Copilot, « en particulier sa mauvaise gestion des licences open source ». Récemment, il a revêtu sa casquette d'avocat pour s'associer à des confrères plaideurs en recours collectif. Ensemble, ils ont enquêté sur une poursuite potentielle contre GitHub Copilot pour violation de ses obligations légales envers les auteurs open source et les utilisateurs finaux. Au terme de cette enquête lancée en octobre, ils ont déposé une plainte contre GitHub Copilot.

    Kate Downin, une avocate spécialisée dans l'open source, a donné son point de vue sur la plainte en question. En somme, elle explique que les utilisateurs de Github accordent une licence spéciale à GitHub, qui contourne la licence d'origine. Cependant, si cela est vrai, tout téléchargement (upload) de code dont les utilisateurs n'ont pas le contrôle à 100% du droit d'auteur est alors une violation du droit d'auteur puisque l'utilisateur n'aurait pas le pouvoir d'accorder à Github cette licence spéciale. Ce serait similaire à un utilisateur téléchargeant (upload) un film protégé par des droits d'auteur sur YouTube, et Google l'utilisant comme licence pour se servir du film dans une publicité par exemple.


    GitHub Copilot, qu'est-ce que c'est ?

    Copilot a été lancé en fin juin après une Preview technique d'un an, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.

    GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.

    Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.

    Nom : copilot.png
Affichages : 1572
Taille : 84,3 Ko

    Un réseau neuronal dans GitHub Copilot est entraîné à l'aide de volumes massifs de données, constituées du code : des millions de lignes téléchargées par les 65 millions d'utilisateurs de GitHub, la plus grande plateforme au monde permettant aux développeurs de collaborer et de partager leur travail. Le but est que Copilot en apprenne suffisamment sur les modèles de code pour pouvoir faire du hacking lui-même. Il peut prendre le code incomplet d'un partenaire humain et terminer le travail en ajout les parties manquantes. Dans la plupart des cas, il semble réussir à le faire. GitHub prévoit de vendre l'accès à l'outil aux développeurs.

    Comme pour la plupart des outils d'IA, GitHub souhaite également que Copilot devienne plus intelligent au fil du temps en fonction des données qu'il collecte auprès des utilisateurs. Lorsque les utilisateurs acceptent ou rejettent les suggestions de Copilot, son modèle d'apprentissage automatique utilisera ce retour d'information pour améliorer les suggestions futures, de sorte que l'outil deviendra peut-être plus humain à mesure qu'il apprendra.

    Matthew Butterick a décidé de porter plainte contre GitHub Copilot aux côtés d'avocats spécialisés dans le recours collectif

    En formant leurs systèmes d'IA sur des référentiels publics GitHub (bien que basés sur leurs déclarations publiques, peut-être bien plus), nous soutenons que les accusés ont violé les droits légaux d'un grand nombre de créateurs qui ont publié du code ou d'autres travaux sous certaines licences open source sur GitHub. Quelles licences ? Un ensemble de 11 licences open source populaires qui nécessitent toutes l'attribution du nom de l'auteur et des droits d'auteur, y compris la licence MIT, la GPL et la licence Apache. (Celles-ci sont énumérées dans l'annexe à la plainte.)

    En plus d'avoir enfreint les exigences d'attribution de ces licences, nous soutenons que les défendeurs ont enfreint :
    • les conditions d'utilisation et les politiques de confidentialité de GitHub ;
    • le DMCA § 1202, qui interdit la suppression des informations de gestion des droits d'auteur ;
    • la loi californienne sur la protection de la vie privée des consommateurs ;
    • et d'autres lois donnant lieu à des réclamations légales connexes.

    Dans les semaines à venir, nous modifierons probablement cette plainte pour ajouter d'autres parties et réclamations.
    Le point de vue d'une avocate au sujet de la plainte

    La plainte est fascinante, car la seule chose qu'elle n'allègue pas est la violation du droit d'auteur. La plainte anticipe explicitement une défense d'utilisation équitable sur ce front et tente d'éviter toute cette question principalement en portant plainte en vertu du Digital Millennium Copyright Act, centrée sur l'article 1202, qui interdit de dépouiller les œuvres protégées par le droit d'auteur de diverses informations liées au droit d'auteur. La plainte comprend également d'autres réclamations liées à :
    • la rupture de contrat liée aux licences open source dans les dépôts GitHub individuels (encore une fois, pas une réclamation de droit d'auteur)
    • l'ingérence délictuelle dans une relation contractuelle (en omettant de donner aux utilisateurs de Copilot les informations de licence appropriées auxquelles ils pourraient se conformer)
    • la fraude (relative aux mensonges présumés de GitHub dans leurs conditions d'utilisation et leur politique de confidentialité sur la façon dont le code sur GitHub ne serait pas utilisé en dehors de GitHub)
    • l'inversion de la substitution en vertu de la loi Lanham (pour avoir prétendument amené les utilisateurs de Copilot à croire que la sortie générée par Copilot appartenait à Copilot)
    • l'enrichissement sans cause (vaguement pour tout ce qui précède)
    • la concurrence déloyale (vaguement pour tout ce qui précède)
    • la rupture de contrat liée à la violation présumée par GitHub des dispositions relatives aux données personnelles dans leurs conditions d'utilisation et leur politique de confidentialité
    • la violation de la California Consumer Privacy Act (CCPA) en relation avec la prétendue violation par GitHub des dispositions relatives aux données personnelles dans leurs conditions d'utilisation et leur politique de confidentialité
    • la négligence – traitement négligent des données personnelles
    • le complot civil (vaguement pour tout ce qui précède)

    Évaluation des réclamations

    L'absence de revendication de droit d'auteur ici est très intéressante. La première pensée qui vient à l'esprit est que la plupart des gens qui ont du code sur GitHub ne prennent pas la peine d'enregistrer officiellement leurs droits d'auteur auprès du Bureau du droit d'auteur, ce qui signifie qu'en vertu de la Loi sur le droit d'auteur, bien qu'ils aient un droit d'auteur, ils n'ont pas le droit de faire valoir leur droit d'auteur devant les tribunaux. Parce qu'il s'agit d'un recours collectif, du moins en ce qui concerne une plainte pour violation du droit d'auteur, les avocats des plaignants auraient eu du mal à identifier les plaignants avec des droits d'auteur enregistrés et le groupe de plaignants dans le groupe serait considérablement réduit - probablement d'environ 99 %. Il existe cependant d'autres raisons de ne pas vouloir plaider une défense d'utilisation équitable. Un tel litige est extrêmement factuel, pour commencer. Il convient de noter que même si une entreprise motivée par les incitations financières qui accompagnent les recours collectifs peut ne pas vouloir intenter une action en violation du droit d'auteur, cela n'empêche certainement pas les personnes ayant d'autres motivations de porter une telle action. Sans la revendication de droit d'auteur, toute participation dans ce procès ne sera certainement pas la pierre angulaire vers laquelle les avocats se tourneront lorsqu'ils évalueront les risques juridiques liés à l'apprentissage automatique (ML).

    L'autre élément qui semble étrange ici est que la plainte semble mal interpréter les conditions d'utilisation (ToS) de GitHub. Les conditions d'utilisation, comme toutes les conditions de service bien rédigées, identifient spécifiquement "GitHub" comme incluant tous ses affiliés (comme Microsoft) et les utilisateurs de GitHub accordent à GitHub le droit d'utiliser leur contenu pour exécuter et améliorer le "Service". Les conseillers en produits diligents ne seront pas surpris d'apprendre que « service » est défini comme tout service fourni par « GitHub », c'est-à-dire y compris tous les affiliés de GitHub. Alors que les profanes pourraient être surpris de savoir que publier du code sur GitHub permet en fait à un réseau géant d'entreprises d'utiliser leur code à des fins connues et inconnues, légalement, le ToS est clair sur ce point. Une allégation de fraude plus convaincante aurait été centrée sur les supports marketing de GitHub (le cas échéant) autour de l'utilisation par GitHub du code uniquement « pour GitHub ».

    Presque toutes les réclamations dans cette plainte reposent sur l'idée que les seuls utilisateurs de licence de GitHub accordés à GitHub sont la licence open source sous laquelle ils ont publié leur code et il n'y a aucune mention de la licence que les utilisateurs de GitHub accordent à GitHub dans le ToS. Étant donné qu'un nombre non négligeable de dépôts GitHub ne contiennent aucune information de licence, la position des plaignants est qu'en l'absence d'une licence OSS, il n'y a ni licence dans le ToS ni aucune licence implicite permettant à GitHub d'héberger le code ? Ce serait une position étrange à prendre, d'autant plus que GitHub n'a commencé que récemment à inviter les utilisateurs à ajouter des informations de licence à leurs dépôts - ce n'est certainement jamais un champ obligatoire - et fondamentalement, chaque site Web commercial prend une licence pour le contenu utilisateur via leurs termes de service dans plus ou moins le même langage que GitHub. Il serait particulièrement étrange de prétendre qu'un utilisateur pourrait mettre n'importe quelle disposition de licence dans son dépôt et que GitHub devrait tirer l'intégralité de son droit d'héberger et d'utiliser autrement le code d'une licence invisible. Cela sonne un peu comme les "mèmes" Facebook d'antan promettant aux utilisateurs que s'ils copient et collent simplement ces phrases magiques sur leur calendrier, alors Facebook ne pourra pas faire quelque chose ou autre avec leurs données ou leurs comptes.

    Nom : kate.png
Affichages : 1558
Taille : 573,3 Ko

    Impact

    Dans l'ensemble, on ne sait pas ce que les plaignants (le groupe réel, pas les avocats) gagneraient réellement à forcer Copilot à afficher les informations de licence pour toutes ses suggestions protégées par le droit d'auteur. En imaginant un monde où cela est possible et facile, est-ce qu'un titulaire de droits d'auteur se sent mieux en sachant qu'un produit commercial est associé à son nom dans un fichier d'attribution d'un million de pages ? Les attributions de milliers de pages sont déjà courantes, même sans l'utilisation de Copilot sur presque tous les fichiers. Bien sûr, ce type d'informations n'est pas vraiment facile à fournir. En pratique, pour une suggestion donnée, il est fort probable qu'elle provienne de plusieurs sources différentes. Les demandeurs eux-mêmes décrivent Copilot comme fondant ses suggestions sur les approches les plus courantes. À qui revient le crédit si des milliers de personnes ont écrit cette fonction particulière de cette manière particulière (même si nous supposons qu'elle est suffisamment détaillée pour être protégée par le droit d'auteur) ? Les créditer tous est-il utile ou pratique ? Qui décide si une suggestion est réellement nouvelle ou dérivée d'un autre code et quelles mesures doivent être utilisées pour décider cela sur une échelle de millions de suggestions par jour ? La loi ne fournit pas de réponses claires à ces questions ; les experts du Bureau du droit d'auteur réfléchissent souvent à ces questions pendant des mois pour une seule œuvre protégée par le droit d'auteur et même cette décision est souvent annulée par les tribunaux. En pratique, même si GitHub voulait fournir toutes les informations de licence pertinentes pour une suggestion donnée, cela est probablement impossible dans la plupart des cas.

    Si l'on en croit GitHub, Copilot ne régurgite des extraits de code exacts à partir des données d'entraînement que 1 % du temps. Une partie de ce 1 % est certainement constituée d'extraits non protégés par le droit d'auteur. Ainsi, les plaignants demandent essentiellement une attribution pour moins de 1 % des suggestions Copilot. La plainte prévoit à plusieurs reprises que toute réclamation gagnante découlera de ce 1%. Bien sûr, les titulaires de droits d'auteur concernés ont des droits, mais il ne s'agit pas exactement d'un "litige à fort impact". Cela ressemble beaucoup plus à la pêche à la traîne si une technologie par ailleurs incroyablement utile et stimulant la productivité est bloquée par des personnes qui souhaitent recevoir des paiements pour un manque d'attributions dénuées de sens.

    La plupart des plaintes ouvertes sont liées à une attribution OSS incorrecte, mais curieusement, une seule ligne est consacrée à l'idée que le modèle Copilot lui-même est en fait soumis à peut-être certaines des licences du code sous-jacent et devrait en fait être open source. Si l'objectif de la plainte était d'avoir un impact significatif sur l'avenir de l'IA et du ML, alors ce serait vraiment le nœud de la plainte car ce serait un argument selon lequel les modèles de ML sont protégés par le droit d'auteur (c'est une question très controversée), que les modèles ML sont des œuvres dérivées des données de formation (c'est vraiment spécifique aux faits en fonction de la façon dont le modèle fonctionne réellement et peut-être aussi un grand bourbier philosophique), et que la sortie du modèle ML est protégée par le droit d'auteur (également très controversé parce que le Bureau du droit d'auteur n'enregistrera pas les droits d'auteur des non-humains aujourd'hui, selon leur interprétation de la Copyright Act). L'effet pratique serait probablement qu'au moins dans l'espace logiciel, le monde verrait au moins un modèle ML sous licence copyleft (ce qui pourrait ne profiter à personne si le modèle lui-même est toujours hébergé et jamais distribué et donc les propriétaires du modèle n'ont aucune obligation de partager son code source).

    Mais en dehors de l'espace logiciel, où les licences open source ne prolifèrent pas et où les données de formation peuvent ne pas être du tout soumises au droit d'auteur (comme les données de formation qui sont purement des données ou qui sont dans le domaine public), cela peut créer un précédent que ML/ Les modèles d'IA devraient être protégés par le droit d'auteur, et les propriétaires d'un modèle pourraient potentiellement bloquer le développement d'un modèle similaire, bloquant ainsi les connaissances qu'un tel modèle pourrait produire sur un domaine entier de tout le monde, sauf les toutes premières personnes à créer un modèle pour cela domaine. Ou pire, la reconnaissance du droit d'auteur dans le modèle conduit à la reconnaissance du droit d'auteur dans la sortie et maintenant les humains peuvent être poursuivis pour violation des droits d'auteur liés au contenu généré par l'IA, qui peut être généré à grande échelle en très peu de temps sans aucun effort humain. Sous la bannière «ouverte», cette action en justice et d'autres similaires contribuent en fait à ouvrir la voie à une plus grande reconnaissance des droits de propriété dans une catégorie d'œuvres plus large, pas moins.

    Source : Kate Downing

    Et vous ?

    Que pensez-vous du point de vue de Kate Downing ?
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  20. #20
    Membre chevronné Avatar de onilink_
    Profil pro
    Inscrit en
    juillet 2010
    Messages
    529
    Détails du profil
    Informations personnelles :
    Âge : 31
    Localisation : France

    Informations forums :
    Inscription : juillet 2010
    Messages : 529
    Points : 2 192
    Points
    2 192
    Par défaut
    Très interessant.

    Je serais d'avis que tout contenu à licence "contaminante" comme la GNU GPL devrait aussi être contaminant pour les modèles d'IA si ils sont entraînées avec ces données.
    Surtout qu'il est clair que les gros modèles ont tendance à retenir des morceaux de code par cœur, donc on peut dire qu'ils contiennent du code GPL.

    De même, tout modèle entraîné sur des données sous copyrights ne devrait pouvoir être exploité commercialement, ainsi que ses sorties.

    Ce qui est assez étonnant, c'est qu'on peut voir actuellement deux poids deux mesures en fonction des données d’entraînement utilisées.

    Je vais citer le cas de Stability AI et de deux de ses produits: Stable Diffusion (génération d'images) et Dance Diffusion (generation de musiques).
    Dance Diffusion is also built on datasets composed entirely of copyright-free and voluntarily provided music and audio samples. Because diffusion models are prone to memorization and overfitting, releasing a model trained on copyrighted data could potentially result in legal issues. In honoring the intellectual property of artists while also complying to the best of their ability with the often strict copyright standards of the music industry, keeping any kind of copyrighted material out of training data was a must.
    Stable Diffusion est entraîné sur LAION 5b, qui contient majoritairement des images sous copyright qui ont été scrap sur le net.
    Mais Dance Diffusion n'utilise que des données sans copyright, car l'industrie audio est très à cheval sur le copyright.

    Du coup d'un côté les musiciens sont protégés et ne verront pas leur travail utilisés pour l’entraînement de models sans leur consentement, mais on ne demande même pas l'avis des artistes.

    Bref, c'est un peu du foutage de gueule.

    Source de l'extrait: https://wandb.ai/wandb_gen/audio/rep...lldzoyNjkwOTM1
    Circuits intégrés mis à nu: https://twitter.com/TICS_Game

Discussions similaires

  1. Réponses: 3
    Dernier message: 08/09/2012, 14h16
  2. Android : grande enquête sur les utilisateurs français
    Par Gordon Fowler dans le forum Android
    Réponses: 2
    Dernier message: 21/10/2011, 22h15
  3. Enquête sur les salariés de SSII
    Par Etudiante-RH dans le forum SSII
    Réponses: 26
    Dernier message: 23/09/2011, 10h41
  4. Réponses: 0
    Dernier message: 17/09/2008, 19h41
  5. Question sur les problèmes d'allocation dynamique
    Par slylafone dans le forum C++
    Réponses: 23
    Dernier message: 25/10/2004, 15h18

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo