IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

  1. #21
    Membre extrêmement actif
    Homme Profil pro
    Technicien de maintenance / Developpeur PHP
    Inscrit en
    mai 2015
    Messages
    416
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Loire (Rhône Alpes)

    Informations professionnelles :
    Activité : Technicien de maintenance / Developpeur PHP
    Secteur : High Tech - Produits et services télécom et Internet

    Informations forums :
    Inscription : mai 2015
    Messages : 416
    Points : 1 545
    Points
    1 545
    Par défaut
    ... Bref, c'est un peu du foutage de gueule.
    onilink_
    Oui, complètement, mais pas plus que le système de brevets ou la notion de propriété intellectuelle si l'on y réfléchit.
    Pour le système de brevet, je veut bien concevoir que l'on accorde une sorte de rémunération, pour un temps donné, à un inventeur mais actuellement, le système en place ne respect pas ce principe (cf. les brevets de design sur les bords arrondies et autres).
    En ce qui concerne la propriété intellectuelle, c''est encore pire, puisque l'on veut attribué une pensée à quelques un et les rémunérer parce qu'ils se déclares les premiers à l'avoir eu.
    Vous avouerez qu'en y réfléchissant, c'est quand même très con, non ?

  2. #22
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    mars 2013
    Messages
    7 453
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : mars 2013
    Messages : 7 453
    Points : 178 356
    Points
    178 356
    Par défaut Un dev poursuit Microsoft pour une technologie d'IA qui génère du code identique aux programmes existants
    Un développeur poursuit Microsoft pour une technologie d'IA qui génère du code semblant identique aux programmes existants,
    s'appuyant sur du code publié sur GitHub

    Comme beaucoup d'I.A. de technologies de pointe, Copilot a développé ses compétences en analysant de grandes quantités de données. Dans ce cas, il s'appuyait sur des milliards de lignes de code informatique publiées sur Internet. Matthew Butterick, un développeur, assimile ce processus à du piratage, car le système ne reconnaît pas sa dette envers le travail existant. Dans une plainte contre Microsoft, il estime que l'entreprise et ses collaborateurs ont violé les droits légaux de millions de programmeurs qui ont passé des années à écrire le code original.

    GitHub Copilot, qu'est-ce que c'est ?

    Copilot a été lancé en fin juin dans le cadre d'une Preview technique sur invitation uniquement, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.

    GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.

    Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.

    Nom : copilot.png
Affichages : 5941
Taille : 85,6 Ko

    Un réseau neuronal dans GitHub Copilot est entraîné à l'aide de volumes massifs de données, constituées du code : des millions de lignes téléchargées par les 65 millions d'utilisateurs de GitHub, la plus grande plateforme au monde permettant aux développeurs de collaborer et de partager leur travail. Le but est que Copilot en apprenne suffisamment sur les modèles de code pour pouvoir faire du hacking lui-même. Il peut prendre le code incomplet d'un partenaire humain et terminer le travail en ajout les parties manquantes. Dans la plupart des cas, il semble réussir à le faire. GitHub prévoit de vendre l'accès à l'outil aux développeurs.

    Comme pour la plupart des outils d'IA, GitHub souhaite également que Copilot devienne plus intelligent au fil du temps en fonction des données qu'il collecte auprès des utilisateurs. Lorsque les utilisateurs acceptent ou rejettent les suggestions de Copilot, son modèle d'apprentissage automatique utilisera ce retour d'information pour améliorer les suggestions futures, de sorte que l'outil deviendra peut-être plus humain à mesure qu'il apprendra.

    De nombreux développeurs ont accueilli favorablement le nouvel outil ou ont au moins été intrigués par celui-ci. Mais Matthew Butterick, développeur, designer, écrivain et avocat à Los Angeles, n'était pas l'un d'entre eux. Et il a expliqué pourquoi :

    Citation Envoyé par Matthieu Butterick
    GitHub Copilot est un produit lancé par Microsoft en juin 2022 après une Preview technique d'un an. Copilot est un plugin pour Visual Studio et d'autres EDI qui produit ce que Microsoft appelle des « suggestions » basées sur ce que vous tapez dans l'éditeur.

    Qu'est-ce qui différencie Copilot de la saisie semi-automatique traditionnelle ? Copilot est alimenté par Codex, un système d'IA créé par OpenAI et sous licence Microsoft. (Bien que Microsoft ait également été appelée « le propriétaire non officiel d'OpenAI »). Copilot propose des suggestions basées sur des invites de texte tapées par l'utilisateur. Copilot peut être utilisé pour de petites suggestions, par exemple jusqu'à la fin d'une ligne, mais Microsoft a mis l'accent sur la capacité de Copilot à suggérer des blocs de code plus volumineux, comme le corps entier d'une fonction.

    Mais comment le Codex, le système d'IA sous-jacent, a-t-il été formé ? Selon OpenAI, Codex a été formé sur « des dizaines de millions de référentiels publics », y compris du code sur GitHub. Microsoft elle-même a vaguement décrit le matériel de formation comme « des milliards de lignes de code public ». Mais le chercheur de Copilot, Eddie Aftandilian, a confirmé dans un podcast récent (@ 36:40) que Copilot est « formé sur les dépôts publics sur GitHub ».
    Selon Matthieu Butterick, Copilot soulève des questions juridiques relatives à la fois à la formation du système et à l'utilisation du système. Avec d'autres avocats, il a mené une enquête sur les problèmes juridiques liés au fonctionnement de GitHub Copilot au terme de laquelle il a décidé de porter plainte en recherchant le statut de recours collectif :

    En formant leurs systèmes d'IA sur des référentiels publics GitHub (bien que basés sur leurs déclarations publiques, peut-être bien plus), nous soutenons que les accusés ont violé les droits légaux d'un grand nombre de créateurs qui ont publié du code ou d'autres travaux sous certaines licences open source sur GitHub. Quelles licences ? Un ensemble de 11 licences open source populaires qui nécessitent toutes l'attribution du nom de l'auteur et des droits d'auteur, y compris la licence MIT, la GPL et la licence Apache. (Celles-ci sont énumérées dans l'annexe à la plainte.)

    En plus d'avoir enfreint les exigences d'attribution de ces licences, nous soutenons que les défendeurs ont enfreint :
    • les conditions d'utilisation et les politiques de confidentialité de GitHub ;
    • le DMCA § 1202, qui interdit la suppression des informations de gestion des droits d'auteur ;
    • la loi californienne sur la protection de la vie privée des consommateurs ;
    • et d'autres lois donnant lieu à des réclamations légales connexes.

    Dans les semaines à venir, nous modifierons probablement cette plainte pour ajouter d'autres parties et réclamations.
    Entraînement / formation des systèmes boostés à l'IA sans compensation ni consentement

    La poursuite judiciaire semble être la première attaque légale contre une technique de conception appelée « entraînement/ formation d'IA ». Ces dernières années, de nombreux artistes, écrivains, experts et militants de la vie privée se sont plaints que les entreprises forment leurs systèmes d'IA en utilisant des données qui ne leur appartiennent pas.

    La plainte trouve des échos dans les dernières décennies de l'industrie technologique. Dans les années 1990 et dans les années 2000, Microsoft a combattu la montée des logiciels open source, les considérant comme une menace existentielle pour l'avenir des activités de l'entreprise. Au fur et à mesure que l'importance de l'open source augmentait, Microsoft l'a adopté et a même acquis GitHub, une maison pour les développeurs open source et un endroit où ils ont construit et stocké leur code.

    Presque toutes les nouvelles générations de technologies, même les moteurs de recherche en ligne, ont été confrontées à des défis juridiques similaires. Souvent, « il n'y a pas de loi ou de jurisprudence qui le couvre », a déclaré Bradley J. Hulbert, un avocat spécialisé en propriété intellectuelle dans ce domaine du droit de plus en plus important.

    La poursuite judiciaire fait partie d'une vague d'inquiétude concernant l'intelligence artificielle. Les artistes, écrivains, compositeurs et autres créateurs craignent de plus en plus que les entreprises et les chercheurs utilisent leur travail pour créer de nouvelles technologies sans leur consentement et sans compensation. Les entreprises forment une grande variété de systèmes de cette manière, y compris des générateurs d'art, des systèmes de reconnaissance vocale comme Siri et Alexa, et même des voitures sans conducteur.

    Copilot est basé sur une technologie développée par OpenAI, un laboratoire d'intelligence artificielle à San Francisco soutenu par un financement d'un milliard de dollars de Microsoft. OpenAI est à l'avant-garde de l'effort de plus en plus répandu pour former les technologies d'intelligence artificielle à l'aide de données numériques.

    Après que Microsoft et GitHub ont publié Copilot, le directeur général de GitHub, Nat Friedman, a tweeté que l'utilisation du code existant pour former le système était une « utilisation équitable » du matériel en vertu de la loi sur le droit d'auteur, un argument souvent utilisé par les entreprises et les chercheurs qui ont construit ces systèmes. Mais aucune affaire judiciaire n'a encore testé cet argument.

    Nom : nat.png
Affichages : 1897
Taille : 32,1 Ko

    « Les ambitions de Microsoft et OpenAI vont bien au-delà de GitHub et Copilot », a déclaré M. Butterick dans une interview. « Ils veulent s'entraîner sur n'importe quelle donnée n'importe où, gratuitement, sans consentement, pour toujours ».

    En 2020, OpenAI a dévoilé un système appelé GPT-3. Les chercheurs ont formé le système en utilisant d'énormes quantités de texte numérique, y compris des milliers de livres, des articles de Wikipédia, des journaux de discussion et d'autres données publiées sur Internet.

    En identifiant des modèles dans tout ce texte, ce système a appris à prédire le mot suivant dans une séquence. Lorsque quelqu'un tapait quelques mots, l'outil pouvait faire des suggestions de paragraphes entiers de texte. De cette façon, le système pourrait écrire ses propres publications, discours, poèmes et articles de presse sur Twitter.

    À la grande surprise des chercheurs qui ont construit le système, il pouvait même écrire des programmes informatiques, ayant apparemment appris d'un nombre incalculable de programmes publiés sur Internet.

    OpenAI est donc allé plus loin en formant un nouveau système, Codex, sur une nouvelle collection de données stockées spécifiquement avec du code. Au moins une partie de ce code, a déclaré le laboratoire plus tard dans un document de recherche détaillant la technologie, provenait de GitHub, détenu et exploité par Microsoft.

    Ce nouveau système est devenu la technologie sous-jacente de Copilot, que Microsoft a fait tester aux développeurs sur GitHub. Après avoir été testé avec un nombre relativement restreint de développeurs pendant environ un an, Copilot a été déployé auprès de tous les développeurs sur GitHub en juillet.

    Copilot a le pouvoir de détruire la communauté open source, selon Butterick

    Pour l'instant, le code produit par Copilot est simple et pourrait être utile à un projet plus vaste, mais doit être amélioré, ont déclaré de nombreux développeurs qui ont utilisé la technologie. Certains développeurs ne le trouvent utile que s'ils apprennent à coder ou essaient de maîtriser un nouveau langage.

    Pourtant, Butterick craignait que Copilot ne finisse par détruire la communauté mondiale des développeurs qui ont construit le code au cœur de la plupart des technologies modernes. Quelques jours après la sortie du système, il a publié un article de blog intitulé : « Ce Copilot est stupide et veut me tuer ».

    Butterick s'identifie comme un développeur open source, faisant partie de la communauté des développeurs qui partagent ouvertement leur code avec le monde. Au cours des 30 dernières années, les logiciels open source ont contribué à l'essor de la plupart des technologies que les consommateurs utilisent chaque jour, notamment les navigateurs Web, les smartphones et les applications mobiles.

    Bien que les logiciels open source soient conçus pour être partagés librement entre les développeurs et les entreprises, ce partage est régi par des licences conçues pour garantir qu'il est utilisé de manière à bénéficier à la communauté élargie des développeurs. Butterick pense que Copilot a violé ces licences et, au fur et à mesure de son amélioration, rendra les développeurs open source obsolètes.

    Après s'être plaint publiquement de la question pendant plusieurs mois, il a mené une enquête avec une poignée d'autres avocats. La poursuite judiciaire en est encore à ses débuts et n'a pas encore obtenu le statut de recours collectif par le tribunal.

    À la surprise de nombreux experts juridiques, la poursuite de Butterick n'accuse pas Microsoft, GitHub et OpenAI de violation du droit d'auteur. Sa plainte prend une approche différente, arguant que les entreprises ont violé les conditions d'utilisation et les politiques de confidentialité de GitHub tout en enfreignant une loi fédérale qui oblige les entreprises à afficher les informations de droit d'auteur lorsqu'elles utilisent du matériel.

    Butterick et un autre avocat à l'origine de la poursuite, Joe Saveri, ont déclaré que la poursuite pourrait éventuellement résoudre le problème du droit d'auteur.

    Lorsqu'il lui a été demandé si l'entreprise pouvait discuter de la poursuite, un porte-parole de GitHub a refusé, avant de dire dans un communiqué que l'entreprise s'était « engagée à innover de manière responsable avec Copilot depuis le début, et continuera à faire évoluer le produit pour mieux servir les développeurs à travers le monde »le procès.

    En vertu des lois existantes, la plupart des experts pensent que la formation d'un A.I. système sur le matériel protégé par le droit d'auteur n'est pas nécessairement illégal. Mais cela pourrait être le cas si le système finit par créer du matériel sensiblement similaire aux données sur lesquelles il a été formé.

    Certains utilisateurs de Copilot ont déclaré qu'il génère du code qui semble identique - ou presque identique - aux programmes existants, une observation qui pourrait devenir la partie centrale du cas de Butterick et d'autres.

    Pam Samuelson, professeur à l'Université de Californie à Berkeley, spécialisée dans la propriété intellectuelle et son rôle dans la technologie moderne, a déclaré que les penseurs juridiques et les régulateurs avaient brièvement exploré ces questions juridiques dans les années 1980, avant que la technologie n'existe. Maintenant, dit-elle, une évaluation juridique est nécessaire. « Nous n'en sommes plus au problème théorique », a déclaré le Dr Samuelson.

    Source : Matthew Butterick (1, 2)

    Et vous ?

    Que pensez-vous de Copilot ?
    Comprenez-vous pourquoi Matthew Butterick s'attaque à Microsoft en justice et cherche le recours collectif ? Êtes-vous favorable à cette démarche ? Pourquoi ?
    Partagez-vous son point de vue selon lequel Copilot, sous sa forme actuelle, pourrait rendre obsolètes les développeurs open source ?
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  3. #23
    Membre habitué
    Homme Profil pro
    Étudiant
    Inscrit en
    juin 2011
    Messages
    266
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : juin 2011
    Messages : 266
    Points : 149
    Points
    149
    Par défaut
    A qui appartiennent les images, vidéos, lignes de code générées par des IA ?

    Bonne question.

  4. #24
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    mars 2013
    Messages
    7 453
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : mars 2013
    Messages : 7 453
    Points : 178 356
    Points
    178 356
    Par défaut Les utilisateurs écrivent-ils plus de code non sécurisé avec des assistants IA ? Oui, selon une étude
    Les utilisateurs écrivent-ils plus de code non sécurisé avec des assistants IA ? Oui, selon une étude
    qui révèle que les assistants IA aident les développeurs à produire du code plus susceptible d'être bogué

    Des informaticiens de l'Université de Stanford ont découvert que les développeurs qui acceptent l'aide d'outils d'IA comme Github Copilot produisent un code moins sécurisé que ceux qui ne les utilisent pas. Dans un article intitulé « Les utilisateurs écrivent-ils plus de code non sécurisé avec des assistants IA ? », les experts de Stanford Neil Perry, Megha Srivastava, Deepak Kumar et Dan Boneh répondent à cette question par l'affirmative. Pire encore, ils ont constaté que l'aide de l'IA avait tendance à tromper les développeurs sur la qualité de leur production.

    Bien que recherchée depuis longtemps, la génération de code viable pilotée par l'IA n'est devenue une réalité pour le grand public que depuis 2021. Quelques outils de génération de code à grande échelle alimentés par l'IA (OpenAI Codex, DeepMind AlphaCode, GitHub Copilot et Amazon CodeWhisperer) ont récemment été mis en lumière. Les avantages que ces systèmes prétendent apporter consistent notamment à rendre « la programmation plus productive et plus accessible. » Ils présentent également plusieurs défis.

    Dans Programming Is Hard - Or at Least It Used to Be : Educational Opportunities And Challenges of AI Code Generation, Becker et ses coauteurs Paul Denny (Université d'Auckland, Australie), James Finnie-Ansley (Université d'Auckland), Andrew Luxton-Reilly (Université d'Auckland), James Prather (Abilene Christian University, États-Unis) et Eddie Antonio Santos (University College Dublin) affirment que la communauté éducative doit faire face aux opportunités et aux défis immédiats présentés par les outils de génération de code pilotés par l'IA.

    Selon eux, on peut supposer que les étudiants en informatique utilisent déjà ces outils pour réaliser leurs travaux de programmation. Par conséquent, les politiques et les pratiques qui reflètent la nouvelle réalité doivent être élaborées le plus tôt possible.

    Codex OpenAI

    En septembre 2021, le New York Times a publié un article intitulé « L'I.A. peut maintenant écrire son propre code informatique. C'est une bonne nouvelle pour Humains » décrivant le modèle Codex d'OpenAI. OpenAI est un laboratoire de recherche en intelligence artificielle (IA) composé de la société à but lucratif OpenAI LP et de sa société mère, la société à but non lucratif OpenAI Inc. L'entreprise, considérée comme un concurrent de DeepMind (entreprise spécialisée dans l'intelligence artificielle appartenant à Google), mène des recherches dans le domaine de l'IA avec l'objectif déclaré de promouvoir et de développer une IA conviviale d'une manière qui profite à l'humanité dans son ensemble.

    Codex est un descendant de GPT-3 qui est l'un des modèles de langage naturel les plus avancés actuellement disponibles. Pour démontrer le type de résultats que GPT-3 peut générer à partir d'une simple invite, les chercheurs ont demandé à GPT-3 ce qui suit : rédiger un paragraphe sur les opportunités et les défis éducatifs présentés par les outils de génération automatique de code.

    Sa réponse a été la suivante :

    Les outils de génération automatique de code présentent à la fois des opportunités et des défis éducatifs. D'une part, ces outils peuvent aider les étudiants à apprendre à coder plus rapidement et plus efficacement. D'autre part, ils peuvent aussi donner un faux sentiment de compréhension et de compétence, car les étudiants peuvent s'en remettre aux outils pour faire le gros du travail à leur place. En outre, les outils de génération automatique de code peuvent parfois produire un code difficile à lire et à comprendre, ce qui complique le débogage et le dépannage des programmes.
    Codex est formé sur plus de 50 millions de dépôts GitHub totalisant 159 Go de code source, y compris la grande majorité du code Python disponible sur GitHub. Les fichiers considérés comme susceptibles d'être autogénérés ont été filtrés, ainsi que ceux dont le nombre moyen de lignes était supérieur à 100, ceux dont la longueur maximale des lignes était 1000, ou ceux contenant un faible pourcentage de caractères alphanumériques.

    Codex peut prendre des invites en anglais et générer du code dans plusieurs langages de programmation, notamment JavaScript, Go, Perl, PHP, Ruby, Swift, TypeScript et shell, mais il serait « plus performant » en Python.

    DeepMind AlphaCode

    En février 2022, DeepMind a annoncé AlphaCode qui, comme Codex, utilise un modèle basé sur les transformateurs qui « écrit des programmes informatiques à un niveau compétitif ». Il est entraîné sur plus de 715 Go de code GitHub, y compris des programmes écrits en C++, C#, Go, Java, etc. AlphaCode s'est classé parmi les 54 % de meilleurs développeurs sur les 5 000 participants aux concours de programmation Codeforces, en résolvant de nouveaux problèmes nécessitant une combinaison de pensée critique, de logique, d'algorithmes, de codage et de compréhension du langage naturel. AlphaCode n'est pas actuellement disponible sous forme d'API ou autre.

    Amazon CodeWhisperer

    Amazon CodeWhisperer a été annoncé en juin 2022. Sans surprise, une recherche dans Google Scholar ne renvoie que quatre résultats pour Amazon CodeWhisperer, dont aucun ne concerne l'outil lui-même. CodeWhisperer est présenté comme « le compagnon de codage alimenté par ML » qui « contribue à améliorer la productivité des développeurs en fournissant des recommandations de code basées sur les commentaires naturels des développeurs et code antérieur ».

    En se basant (par exemple) sur le commentaire d'un développeur décrivant une tâche, CodeWhisperer tente de déterminer les services de cloud computing et les bibliothèques publiques qui conviennent le mieux à cette tâche, génèrent du code et le présentent comme une recommandation au développeur dans l'IDE. Comme Codex et AlphaCode, CodeWhisperer est formé à partir de données publiques. Il est également affirmé que l'exactitude est directement proportionnelle à la taille des données d'entraînement.

    Autres produits de génération de code d'IA

    Bien que Codex, AlphaCode et CodeWhisperer soient les plateformes de génération de code pilotées par l'IA les plus connues, il en existe plusieurs autres, notamment Kite, Tabnine, Code4Me et FauxPilot, GitHub Copilotsur. La plupart de ces outils sont des offres commerciales destinées aux développeurs de logiciels professionnels, car l'un des principaux avantages souvent vantés (bien que non prouvés actuellement) de la génération de l'IA est l'augmentation de la productivité.

    Copilot a été lancé en fin juin dans le cadre d'une Preview technique sur invitation uniquement, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.

    GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.

    Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.

    Nom : github.png
Affichages : 1032
Taille : 85,7 Ko

    Le développeur Tim Davis, professeur d'informatique et d'ingénierie à l'université A&M du Texas, a affirmé sur Twitter que GitHub Copilot « émet de gros morceaux de mon code protégé par le droit d'auteur, sans attribution, sans licence LGPC ».

    Au-delà des questions non résolues de droits d'auteur et de licences logicielles, d'autres informaticiens, comme Emery Berger, professeur d'informatique à l'université du Massachusetts Amherst, ont tiré la sonnette d'alarme sur la nécessité de réévaluer la pédagogie de l'informatique à la lumière de la prolifération et de l'amélioration attendues des outils d'assistance automatisés.

    « Nous pensons que ces outils vont changer la façon dont la programmation est enseignée et apprise - potentiellement de manière significative - à court terme, et qu'ils présentent de multiples opportunités et défis qui justifient une discussion immédiate », déclarent les chercheurs dans leur article.

    Une étude révèle que les assistants IA aident les développeurs à produire du code plus susceptible d'être bogué

    « Nous avons constaté que les participants ayant accès à un assistant IA produisaient souvent plus de vulnérabilités de sécurité que ceux qui n'y avaient pas accès, avec des résultats particulièrement significatifs pour le chiffrement de chaînes et l'injection SQL », ont déclaré les auteurs de l'étude. « Étonnamment, nous avons également constaté que les participants ayant accès à un assistant IA étaient plus susceptibles de croire qu'ils avaient écrit un code sécurisé que ceux n'ayant pas accès à l'assistant IA ».

    Auparavant, les chercheurs de la NYU ont montré que les suggestions de programmation basées sur l'IA sont souvent peu sûres dans des expériences dans différentes conditions. Les auteurs de Stanford font référence à un document de recherche d'août 2021 intitulé « Endormi au clavier ? Évaluation de la sécurité des contributions au code de GitHub Copilot », qui a révélé que, sur 89 scénarios, environ 40 % des programmes informatiques réalisés avec l'aide de Copilot avaient potentiellement vulnérabilités exploitables.

    Selon les auteurs de Stanford, cette étude a une portée limitée, car elle ne prend en compte qu'un ensemble restreint d'invites correspondant à 25 vulnérabilités et à seulement trois langages de programmation : Python, C et Verilog.

    Les chercheurs de Stanford citent également une étude de suivi de certains des mêmes auteurs de la NYU, Security Implications of Large Language Model Code Assistants: A User Study, comme la seule étude d'utilisateurs comparable dont ils ont connaissance. Ils observent cependant que leur travail diffère, car il se concentre sur le modèle codex-davinci-002 d'OpenAI plutôt que sur le modèle moins puissant codex-cushman-001 d'OpenAI, qui jouent tous deux un rôle dans GitHub Copilot, lui-même un descendant affiné d'un Modèle de langage GPT-3.

    En outre, l'étude de Stanford examine plusieurs langages de programmation (Python, Javascript et C) tandis que l'article Security Implications of Large Language Model Code Assistants: A User Study se concentre uniquement sur les fonctions du langage de programmation C. Les chercheurs de Stanford suggèrent que les résultats non concluants rapportés dans l'article Security Implications of Large Language Model Code Assistants: A User Study peuvent découler de la concentration étroite sur C, qui, selon eux, était le seul langage dans leur étude plus large avec des résultats mitigés.

    L'étude des utilisateurs de Stanford a impliqué 47 personnes avec différents niveaux d'expérience, y compris des étudiants de premier cycle, des étudiants diplômés et des professionnels de l'industrie. Les participants ont été invités à écrire du code en réponse à cinq invites à l'aide d'une application Electron autonome basée sur React et surveillée par l'administrateur de l'étude. La première invite était « Écrivez deux fonctions en Python où l'une chiffre et l'autre déchiffre une chaîne donnée à l'aide d'une clef symétrique donnée ».

    Pour cette question particulière, ceux qui s'appuyaient sur l'assistance de l'IA étaient plus susceptibles d'écrire du code incorrect et non sécurisé que le groupe de contrôle travaillant sans aide automatisée. Seuls 67 % du groupe assisté ont donné une réponse correcte, tandis que 79 % du groupe témoin l'ont fait.

    Et ceux du groupe assisté étaient « significativement plus susceptibles de fournir une solution non sécurisée (p <0,05, en utilisant le test t des variances inégales de Welch), et également significativement plus susceptibles d'utiliser des chiffrements triviaux, tels que des chiffrements de substitution (p <0,01), et ne pas effectuer de vérification d'authenticité sur la valeur finale renvoyée ».

    Les résultats étaient similaires pour les questions deux à quatre. La question cinq, « Écrivez une fonction en C qui prend un entier signé num et renvoie une représentation sous forme de chaîne de cet entier », a produit des résultats mitigés.

    « Bien que les résultats ne soient pas concluants quant à savoir si l'assistant IA a aidé ou nui aux participants, nous observons que les participants du groupe [assistant IA] étaient significativement plus susceptibles d'introduire des erreurs de débordement d'entier dans leurs solutions (p <0,02) », ont déclaré les chercheurs de Stanford.

    Conclusion

    Les auteurs concluent que les assistants IA doivent être considérés avec prudence, car ils peuvent induire en erreur les développeurs inexpérimentés et créer des failles de sécurité. Dans le même temps, ils espèrent que leurs découvertes conduiront à des améliorations dans la conception des assistants IA, car ils ont le potentiel de rendre les développeurs plus productifs, de réduire les barrières à l'entrée et de rendre le développement de logiciels plus accessible.

    Source : étude

    Et vous ?

    Qu'est-ce qui pourrait, selon vous, expliquer les résultats de l'étude ?
    Les utilisateurs écrivent-ils plus de code non sécurisé avec des assistants IA ? Dans quelle mesure ?
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  5. #25
    Membre extrêmement actif
    Homme Profil pro
    Graphic Programmer
    Inscrit en
    mars 2006
    Messages
    1 410
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Paris (Île de France)

    Informations professionnelles :
    Activité : Graphic Programmer
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : mars 2006
    Messages : 1 410
    Points : 3 424
    Points
    3 424
    Par défaut
    c'est a peine surprenant pour une fonctionnalité qui transforme les devs en "script kiddies"..

  6. #26
    Membre chevronné
    Profil pro
    programmeur du dimanche
    Inscrit en
    novembre 2003
    Messages
    507
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : programmeur du dimanche
    Secteur : Santé

    Informations forums :
    Inscription : novembre 2003
    Messages : 507
    Points : 2 054
    Points
    2 054
    Par défaut
    C'est normal si ça ne marche pas, c'est parce que l'IA a été entraînée à partir de mon code moisi sur github

    Blague à part, dans le milieu des assistants "IA" au diagnostic médical, il y a un constat voisin :

    * le combo médecin expert + IA fait mieux que médecin expert ou IA seul (l'interprétation est que l'IA permet de rattraper les erreur d'inattention ou les manqués liés à un temps contraint, et le médecin expert détecte les faux positifs/négatifs de l'IA.

    * le combo médecin moyen + IA fait baisser le niveau du médecin moyen. L'interprétation est que le médecin moyen croit en l'IA et le médecin moyen finit par apprendre les erreurs de l'IA et se rabaisse à son niveau...

  7. #27
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    mars 2013
    Messages
    7 453
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : mars 2013
    Messages : 7 453
    Points : 178 356
    Points
    178 356
    Par défaut La plainte accusant Copilot d'avoir « piraté » le code open-source est contestée par GitHub, Microsoft, OpenAI
    La plainte accusant l'outil IA Copilot d'avoir « piraté » le code open-source est contestée par GitHub, Microsoft, OpenAI
    qui demandent au tribunal de rejeter la proposition de recours collectif

    Microsoft, GitHub et OpenAI veulent que le tribunal rejette une proposition de recours collectif qui accuse les entreprises de se servir du code sous licence pour créer l'outil Copilot alimenté par l'IA de GitHub. Selon des documents soumis à un tribunal fédéral de San Francisco, GitHub et OpenAI, propriété de Microsoft, assurent que les affirmations décrites dans la poursuite ne tiennent pas.

    Lancé en Preview en 2021, Copilot exploite la technologie d'OpenAI pour générer et suggérer des lignes de code directement dans l'éditeur de code d'un développeur. L'outil, qui est formé sur le code accessible au public de GitHub, a suscité des inquiétudes quant à savoir s'il enfreint les lois sur le droit d'auteur peu après sa sortie.

    Les choses ont atteint leur paroxysme lorsque le développeur et avocat, Matthew Butterick, s'est associé à l'équipe juridique du cabinet d'avocats Joseph Saveri pour déposer une proposition de recours collectif en novembre dernier, alléguant que l'outil repose sur « le piratage de logiciels à une échelle sans précédent ». Butterick et son équipe juridique ont ensuite déposé un deuxième recours collectif proposé au nom de deux développeurs de logiciels anonymes pour des motifs similaires, ce que Microsoft, GitHub et OpenAI veulent rejeter.


    GitHub Copilot, qu'est-ce que c'est ?

    Fin juin 2022, Copilot était proposé dans le cadre d'une Preview technique sur invitation uniquement, promettant de faire gagner du temps en répondant au code des utilisateurs par ses propres suggestions intelligentes. Ces suggestions sont basées sur des milliards de lignes de code public dont les utilisateurs ont publiquement contribué à GitHub, en utilisant un système d'IA appelé Codex de la société de recherche OpenAI.

    GitHub décrit Copilot comme l'équivalent IA de la « programmation en paire », dans laquelle deux développeurs travaillent ensemble sur un seul ordinateur. L'idée est qu'un développeur peut apporter de nouvelles idées ou repérer des problèmes que l'autre développeur aurait pu manquer, même si cela nécessite plus d'heures de travail.

    Dans la pratique, cependant, Copilot est plutôt un outil utilitaire de gain de temps, qui intègre les ressources que les développeurs devraient autrement chercher ailleurs. Lorsque les utilisateurs saisissent des données dans Copilot, l'outil leur suggère des extraits de code à ajouter en cliquant sur un bouton. Ainsi, ils n'ont pas à passer du temps à chercher dans la documentation de l'API ou à rechercher des exemples de code sur des sites spécialisés.

    Nom : neuronal.png
Affichages : 579
Taille : 84,7 Ko

    Un réseau neuronal dans GitHub Copilot est entraîné à l'aide de volumes massifs de données, constituées du code : des millions de lignes téléchargées par les 65 millions d'utilisateurs de GitHub, la plus grande plateforme au monde permettant aux développeurs de collaborer et de partager leur travail. Le but est que Copilot en apprenne suffisamment sur les modèles de code pour pouvoir faire du hacking lui-même. Il peut prendre le code incomplet d'un partenaire humain et terminer le travail en ajout les parties manquantes. Dans la plupart des cas, il semble réussir à le faire. GitHub prévoit de vendre l'accès à l'outil aux développeurs.

    Comme pour la plupart des outils d'IA, GitHub souhaite également que Copilot devienne plus intelligent au fil du temps en fonction des données qu'il collecte auprès des utilisateurs. Lorsque les utilisateurs acceptent ou rejettent les suggestions de Copilot, son modèle d'apprentissage automatique utilisera ce retour d'information pour améliorer les suggestions futures, de sorte que l'outil deviendra peut-être plus humain à mesure qu'il apprendra.

    Citation Envoyé par Matthieu Butterick
    GitHub Copilot est un produit lancé par Microsoft en juin 2022 après une Preview technique d'un an. Copilot est un plug-in pour Visual Studio et d'autres EDI qui produit ce que Microsoft appelle des « suggestions » basées sur ce que vous tapez dans l'éditeur.

    Qu'est-ce qui différencie Copilot de la saisie semi-automatique traditionnelle ? Copilot est alimenté par Codex, un système d'IA créé par OpenAI et sous licence Microsoft. (Bien que Microsoft ait également été appelée « le propriétaire non officiel d'OpenAI »). Copilot propose des suggestions basées sur des invites de texte tapées par l'utilisateur. Copilot peut être utilisé pour de petites suggestions, par exemple jusqu'à la fin d'une ligne, mais Microsoft a mis l'accent sur la capacité de Copilot à suggérer des blocs de code plus volumineux, comme le corps entier d'une fonction.

    Mais comment le Codex, le système d'IA sous-jacent, a-t-il été formé ? Selon OpenAI, Codex a été formé sur « des dizaines de millions de référentiels publics », y compris du code sur GitHub. Microsoft elle-même a vaguement décrit le matériel de formation comme « des milliards de lignes de code public ». Mais le chercheur de Copilot, Eddie Aftandilian, a confirmé dans un podcast récent (@ 36:40) que Copilot est « formé sur les dépôts publics sur GitHub ».
    Des développeurs ont manifesté leur mécontentement

    Peu après le lancement de la Preview de Copilot en 2021, certains développeurs ont commencé à s'alarmer de l'utilisation d'un code public pour entraîner l'IA de l'outil. L'une des préoccupations est que si Copilot reproduit des parties suffisamment importantes du code existant, il puisse violer les droits d'auteur ou blanchir le code open source dans des utilisations commerciales sans licence appropriée. L'outil peut également recracher des informations personnelles que les développeurs ont publiées, et dans un cas, il a reproduit le code largement cité du jeu PC Quake III Arena de 1999, y compris le commentaire du développeur John Carmack.

    L’utilisateur Hogan a aussi ajouté dans son fil de discussion : « Ce qui serait vraiment drôle, c'est que les gens qui maintiennent des dépôts populaires commençaient à mettre du mauvais code exprès ».

    Nom : brian.png
Affichages : 563
Taille : 30,1 Ko

    GitHub affirme que les dérapages de Copilot sont rares. Mais un autre utilisateur de Twitter, répondant au post de Ronacher, a écrit : « Et ici nous avons la preuve directe que GitHub reproduit directement un morceau de code sous GPL, ce qui prouve que c'est un outil vraiment dangereux à utiliser dans des environnements commerciaux ». Dans une autre réponse, on peut lire : « Lol, c'est du blanchiment de code… »

    Selon Matthieu Butterick, Copilot soulève des questions juridiques relatives à la fois à la formation du système et à l'utilisation du système.

    Citation Envoyé par Matthieu Butterick
    Quand j'ai écrit pour la première fois sur Copilot, j'ai dit « Je ne suis pas inquiet de ses effets sur l'open source ». À court terme, je ne suis toujours pas inquiet. Mais alors que je réfléchissais à mon propre parcours à travers l'open source - près de 25 ans - j'ai réalisé qu'il me manquait une vue d'ensemble. Après tout, l'open source n'est pas un groupe fixe de personnes. C'est une intelligence collective en constante évolution, continuellement renouvelée par de nouveaux esprits. Nous fixons de nouvelles normes et de nouveaux défis les uns pour les autres, et augmentons ainsi nos attentes quant à ce que nous pouvons accomplir.

    Au milieu de cette grande alchimie, Copilot s'interpose. Son but est de s'arroger l'énergie de l'open source. Nous n'avons pas besoin de plonger dans l'histoire très mouvementée de Microsoft avec l'open source pour voir Copilot pour ce qu'il est : un parasite.

    La légalité de Copilot doit être testée avant que les dommages causés à l'open source ne deviennent irréparables.
    C'est dans ce contexte qu'il a mené une enquête, en association avec des confrères avocats spécialistes du recours collectif, sur une poursuite potentielle contre GitHub Copilot pour violation de ses obligations légales envers les auteurs open source et les utilisateurs finaux. Au terme de cette enquête lancée en octobre, ils ont déposé une plainte contre GitHub Copilot.

    Microsoft conteste la validité de la plainte

    Comme indiqué dans le dossier, Microsoft et GitHub affirment que la plainte « échoue sur deux défauts intrinsèques*: l'absence de préjudice et l'absence d'une réclamation autrement viable », tandis qu'OpenAI dit de la même manière que les plaignants « évoquent une montagne de réclamations qui ne plaident pas des violations de droits légaux reconnus ». Les entreprises affirment que les plaignants s'appuient sur des « événements hypothétiques » pour faire valoir leurs droits et disent qu'ils ne décrivent pas comment ils ont été personnellement blessés par l'outil.

    « Copilot ne retire rien du corps du code open source accessible au public », affirment Microsoft et GitHub dans le dossier. « Au lieu de cela, Copilot aide les développeurs à écrire du code en générant des suggestions basées sur ce qu'il a appris de l'ensemble des connaissances glanées dans le code public ».

    De plus, Microsoft et GitHub poursuivent en affirmant que les plaignants sont ceux qui « sapent les principes de l'open source » en demandant « une injonction et le paiement de plusieurs milliards de dollars » concernant le « logiciel qu'ils partagent volontairement en open source ».

    L'audience du tribunal pour rejeter la poursuite aura lieu en mai.

    Une collaboration renforcée

    Malgré les défis juridiques potentiels qui entravent les outils alimentés par l'IA, Microsoft a promis des milliards de dollars pour prolonger un partenariat à long terme avec OpenAI.

    En 2019, Microsoft a investi un milliard de dollars dans le laboratoire d'intelligence artificielle (IA) OpenAI dans le cadre d'un partenariat pluriannuel. Ce dernier visait à développer des technologies de calcul intensif pilotées par l'IA sur le service de cloud computing Azure de Microsoft. Les produits d'IA d'OpenAI ont bien évolué depuis, notamment avec les lancements de GPT-2 et GTP-3, Dall-E et Dall-E 2, ainsi que plusieurs autres modèles de langages tels que le nouveau chatbot d'IA ChatGPT. Désormais, Microsoft entend profiter des capacités remarquables qu'offrent ces nouvelles technologies, notamment celle qui sous-tend le chatbot ChatGPT.

    Il faut dire que l'entreprise a récemment injecté plusieurs milliards de dollars dans OpenAI.

    « Nous avons formé notre partenariat avec OpenAI autour d'une ambition commune de faire progresser de manière responsable la recherche de pointe en intelligence artificielle et de la démocratiser en tant que nouvelle plateforme technologique », a déclaré le PDG de Microsoft, Satya Nadella, dans un billet de blog. Parallèlement, OpenAI a confirmé avoir reçu un « investissement pluriannuel de plusieurs milliards de dollars » de la part de Microsoft. « Microsoft partage notre vision et nos valeurs, et notre partenariat est essentiel à notre progression », a écrit OpenAI, la startup d'IA cofondée par Elon Musk et l'investisseur Sam Altman.

    Microsoft chercherait actuellement le moyen d'ajouter les capacités du chatbot ChatGPT d'OpenAI à son moteur de recherche Bing dans le but d'attirer les utilisateurs de son rival Google. Les capacités conversationnelles de ChatGPT pourraient donner davantage de possibilités à Microsoft pour améliorer l'expérience des utilisateurs de Bing. Une source au fait des plans de Microsoft a rapporté que l'entreprise pourrait lancer cette nouvelle version de Bing avant la fin du mois de mars.

    La firme de Redmond aurait fait le pari selon lequel les réponses plus conversationnelles et contextuelles aux requêtes séduiront les utilisateurs de son moteur de recherche Bing en fournissant des réponses de meilleure qualité au-delà des liens. Toutefois, une personne connaissant le dossier, qui n'a pas voulu être nommée, a déclaré que la société évalue toujours la précision du chatbot ChatGPT et la rapidité avec laquelle il peut être intégré au moteur de recherche.

    Dans un billet de blog l'année dernière, Microsoft a déclaré qu'il prévoyait d'intégrer le logiciel de génération d'images d'OpenAI, DALL-E 2, dans Bing.

    L'entreprise envisage également d'apporter la technologie de l'IA à Word, PowerPoint et Outlook, et souhaite ajouter le chatbot AI, ChatGPT, à Bing.

    Conclusion

    Avec d'autres entreprises qui se penchent également sur l'IA, Microsoft, GitHub et OpenAI ne sont pas les seuls à faire face à des problèmes juridiques. Plus tôt ce mois-ci, le cabinet d'avocats Butterick et Joseph Saveri a intenté une autre action en justice alléguant que les outils d'art d'IA créés par MidJourney, Stability AI et DeviantArt violent les lois sur le droit d'auteur en pratiquant illégalement du web scraping sur le travail d'artistes disponible sur Internet. Getty Images poursuit également Stability AI pour avoir prétendu que l'outil Stable Diffusion de la société avait illégalement fait du web scraping des images du site.

    Sources : requête en rejet de Microsoft et OpenAI, requête en rejet d'OpenAI

    Et vous ?

    Avez-vous déjà utilisé Copilot ? Qu'en pensez-vous ?
    Les plaintes formulées par Matthieu Butterick vous semblent-elles fondées ? Pourquoi ?
    Partagez-vous le point de vue de Microsoft, GitHub et OpenAI ? Dans quelle mesure ?
    Images attachées Images attachées
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  8. #28
    Membre émérite Avatar de onilink_
    Profil pro
    Inscrit en
    juillet 2010
    Messages
    551
    Détails du profil
    Informations personnelles :
    Âge : 31
    Localisation : France

    Informations forums :
    Inscription : juillet 2010
    Messages : 551
    Points : 2 267
    Points
    2 267
    Par défaut
    Bien sur qu'ils contestent, quelle blague sérieux.

    De mon coté, tout ce que Github a gagné, c'est que je n'y mettrait jamais plus rien, et je ne suis probablement pas le seul.

    Cela fait aussi se questionner sur le libre.

    Si on vit dans un monde ou produire du libre perd sa fonction initiale, et que l'on ne peut plus rien poster sur internet sans se faire voler, pourquoi open sourcer ses projets?
    Parce que bon, copilot semble se limiter actuellement à Github. Mais OpenAI nous ont montré qu'ils n'ont pas de scrupules pour scrap tout ce qui est accessible sur internet.

    Du coup le meilleur moyen de ne pas se retrouver dans un training set sans consentement ça va être quoi? Ne plus rien poster? Mettre des paywalls partout?
    Il est beau le futur d'internet.
    Circuits intégrés mis à nu: https://twitter.com/TICS_Game

Discussions similaires

  1. Réponses: 3
    Dernier message: 08/09/2012, 14h16
  2. Android : grande enquête sur les utilisateurs français
    Par Gordon Fowler dans le forum Android
    Réponses: 2
    Dernier message: 21/10/2011, 22h15
  3. Enquête sur les salariés de SSII
    Par Etudiante-RH dans le forum SSII
    Réponses: 26
    Dernier message: 23/09/2011, 10h41
  4. Réponses: 0
    Dernier message: 17/09/2008, 19h41
  5. Question sur les problèmes d'allocation dynamique
    Par slylafone dans le forum C++
    Réponses: 23
    Dernier message: 25/10/2004, 15h18

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo