IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

La définition de l'IA open source obtient enfin sa première version candidate, mais à quel prix ?


Sujet :

Intelligence artificielle

  1. #1
    Chroniqueur Actualités
    Avatar de Bruno
    Homme Profil pro
    Rédacteur technique
    Inscrit en
    Mai 2019
    Messages
    2 117
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Cameroun

    Informations professionnelles :
    Activité : Rédacteur technique
    Secteur : High Tech - Produits et services télécom et Internet

    Informations forums :
    Inscription : Mai 2019
    Messages : 2 117
    Par défaut La définition de l'IA open source obtient enfin sa première version candidate, mais à quel prix ?
    La définition de l'IA open source obtient enfin sa première version candidate,
    mais à quel prix ?

    L'Open Source Initiative (OSI) a publié une première version candidate d'une définition d'intelligence artificielle open source après deux ans de travail. Cette définition clarifie les critères d'open source pour l'IA, incluant quatre libertés essentielles : utiliser, étudier, modifier et partager le système. Cependant, l'OSI a choisi un compromis concernant les données de formation, exigeant des informations détaillées plutôt que l'accès complet aux ensembles de données, ce qui suscite des critiques parmi certains puristes et entreprises. La définition insiste également sur la disponibilité du code source et des paramètres sous des licences approuvées. L'OSI prévoit d'améliorer le texte avant de publier la version finale en octobre 2024.

    Nom : Open source AI.PNG
Affichages : 9618
Taille : 328,8 Ko

    L'Open Source Initiative a franchi une étape importante dans l'élaboration d'une définition officielle de l'IA Open Source en annonçant la première version candidate de cette définition. Initié en 2022, le processus a impliqué une collecte de retours à l’échelle mondiale, comprenant cinq réunions publiques et des discussions. Désormais, les futures mises à jour se limiteront à des corrections de bugs, sans ajout de nouvelles fonctionnalités.

    Citation Envoyé par Open Source Initiative
    Un peu plus d'un mois après la version 0.0.9, nous avons le plaisir d'annoncer la disponibilité d'une version Release Candidate de la Définition Open Source de l'IA. Ce progrès a été rendu possible grâce aux retours de la communauté, qui s'est exprimée lors de 5 réunions publiques, sur le forum, ainsi que lors d'événements en Autriche, en Chine, en Inde, au Sénégal et en Argentine.

    Trois modifications clés ont été apportées à la section de la définition relative à la « forme préférée pour apporter des modifications à un système d'apprentissage automatique ».

    L'un des changements majeurs concerne la nouvelle terminologie sur les données. Il est désormais stipulé que toutes les données d'apprentissage doivent être partagées et divulguées. Ce texte révisé résulte de nombreuses discussions passionnées avec des membres de la communauté, tant sur le forum qu’en personne. Ces échanges ont permis d’identifier quatre types de données : ouvertes, publiques, accessibles et non partageables, chacun ayant des exigences légales distinctes. Toutes doivent être partagées conformément à la législation en vigueur.

    Deux autres ajouts importants sont également présents. La RC1 précise que le code doit être complet, permettant ainsi aux utilisateurs en aval de comprendre le processus de formation. Cela vise à renforcer la transparence et la sécurité, surtout dans un domaine où l’innovation est cruciale. Nous constatons que peu d’entreprises publient leur code de formation, et nous croyons qu’une telle divulgation est nécessaire pour permettre des modifications significatives des systèmes d'IA.

    Enfin, un nouveau paragraphe reconnaît explicitement qu'il est acceptable d'imposer des conditions similaires à celles du copyleft pour tout code, données ou paramètres, individuellement ou combinés. Un exemple illustratif serait celui d’un consortium qui possède des droits sur un code de formation et un ensemble de données, et qui choisit de distribuer ce package sous des conditions juridiques communes avec des clauses de type copyleft. Bien qu'un tel cadre légal n'existe pas encore, son plausibilité mérite d'être explorée. L'OSI suivra attentivement cette question avec la communauté.

    En ce qui concerne la science et la reproductibilité, il est important de préciser que l'objectif de l'Open Source n'est pas de garantir la reproductibilité des logiciels, et cela s'applique également à l'IA Open Source. L'Open Source ne doit pas être un obstacle à cette reproductibilité. Il est donc possible d’ajouter d'autres exigences, comme le fait l'initiative Reproducible Builds.

    L’Open Source vise à donner à chacun la possibilité de « forker » (étudier et modifier) un système sans demander d'autorisation supplémentaire, afin de le rendre plus utile. C’est pourquoi l’OSD n° 2 exige que le « code source » soit fourni dans un format facilitant les modifications. Cela garantit que tout le monde a les mêmes droits pour améliorer le système. Dans le cadre de l'apprentissage automatique, forker signifie pouvoir créer un système qui se comporte différemment de son état d'origine, ce qui permet de résoudre des problèmes de sécurité, d'améliorer le comportement et d'éliminer des biais, grâce aux exigences de la Définition Open Source de l'IA.

    Alors que nous entamons le cycle des versions candidates, le processus d'élaboration va évoluer : il n’y aura pas de nouvelles fonctionnalités, seulement des corrections de bogues. Nous nous concentrerons sur les nouveaux problèmes et les failles majeures nécessitant des modifications significatives du texte. L’accent sera mis sur la documentation, la liste de contrôle et la FAQ. Nous avons également constaté qu’en cherchant à résoudre le problème des données qui ne peuvent pas être partagées pour de bonnes raisons, nous avons omis de rappeler l'exigence fondamentale selon laquelle « si vous pouvez partager des données, vous devez le faire ». Des ajustements ont été faits dans la RC1, et nous solliciterons des avis pour mieux formuler cette exigence dans la RC2.

    Au cours des prochaines semaines, jusqu'à la publication de la version 1.0 le 28 octobre, notre objectif est de recueillir davantage d'approbations pour la définition.
    La définition stipule qu'un système d'IA est considéré open source s'il remplit quatre critères : il peut être utilisé à des fins diverses sans autorisation, ses composants peuvent être étudiés, il peut être modifié par quiconque, et il peut être partagé librement, avec ou sans modifications.

    Trois changements notables ont été apportés depuis la dernière version, axés sur la manière de modifier un système d'apprentissage automatique. D'abord, un nouveau libellé clarifie l'obligation de partager les données de formation. Ensuite, le code doit être suffisamment complet pour permettre aux utilisateurs en aval de comprendre le processus de formation. Enfin, le texte indique qu'il est acceptable d'imposer des conditions de type copyleft pour le code, les informations sur les données et les paramètres, que ce soit individuellement ou regroupés.

    L'OSI souligne que l'objectif de l'open source n'est pas simplement de garantir un logiciel reproductible, mais de permettre à chacun de forker un système, favorisant ainsi l'innovation. À cet effet, la définition exige que le code source soit fourni sous une forme qui facilite les modifications. Ce processus de fork permet de résoudre des problèmes de sécurité et de corriger des biais, grâce aux exigences de l'Open Source AI Definition. Pour l'avenir, l'OSI se concentrera sur la création de la documentation, de la liste de contrôle et de la FAQ pour cette définition, avec une version officielle 1.0 prévue pour le 28 octobre.

    « Y compris contre rémunération » : une clause ambiguë qui risque de saboter l’IA Open Source

    La version candidate de la Définition Open Source de l'IA soulève de sérieuses préoccupations, notamment en ce qui concerne le compromis sur le partage des données de formation. En ne nécessitant pas la divulgation complète des ensembles de données, l'OSI compromet l'idée même de l'open source. Les critiques estiment qu'un accès total aux données est essentiel pour garantir la transparence et la crédibilité des systèmes d'IA. Sans cela, ces modèles risquent de ne pas être considérés comme véritablement open source, ce qui pourrait limiter l'innovation et enfermer l'IA dans une niche restreinte.

    L'inclusion de l'expression « y compris contre rémunération » soulève également des inquiétudes légitimes, notamment dans des contextes juridiques comme celui du Japon. Cette clause pourrait engendrer des ambiguïtés sur les droits d'utilisation des données, et pourrait renforcer l'opposition à l'IA en alimentant des craintes concernant l'exploitation commerciale des données. Il est préoccupant que l'OSI semble ne pas prendre en compte l'impact potentiel de cette formulation sur la perception et l'acceptabilité de l'IA open source.

    En outre, le lien établi entre transparence et innovation dans cette définition peut se révéler problématique. Alors que l'OSI affirme que la transparence du code et des processus de formation est cruciale pour l'innovation, cela doit être mis en balance avec les intérêts commerciaux des entreprises qui voient leurs méthodes de formation comme des secrets commerciaux. Ce dilemme pourrait dissuader les entreprises de participer à l'open source, ce qui irait à l'encontre des objectifs d’innovation collaborative.


    Bien que l'OSI indique qu'elle est ouverte à des révisions et à l'amélioration continue de la définition, cela laisse planer un doute sur sa robustesse. Les inquiétudes soulevées par les critiques montrent qu'il existe des failles majeures qui nécessitent une attention urgente. Il est impératif que l'OSI prenne en compte ces retours pour éviter que la définition ne devienne trop permissive et pour garantir qu'elle reste fidèle aux valeurs fondamentales de l'open source.

    Source : Open Source Initiative

    Et vous ?

    Quel est votre avis sur le sujet ?

    Les informations détaillées sur les données de formation suffisent-elles réellement à garantir la crédibilité et la transparence des modèles d'IA, ou cela ouvre-t-il la porte à des interprétations floues ?

    L'OSI prend-elle suffisamment en compte les préoccupations des puristes de l'open source, ou la définition privilégie-t-elle des intérêts commerciaux au détriment des valeurs fondamentales ?

    Voir aussi :

    L'IA open source est la voie à suivre, car elle permet à un plus grand nombre de personnes dans le monde d'avoir accès aux avantages et aux opportunités de l'IA, par Mark Zuckerberg, fondateur et PDG de Meta

    Flux, une nouvelle IA générative texte-image open-source avec 12 milliards de paramètres, bat Midjourney, Stable Diffusion 3 et Auraflow, par Black Forest Labs, l'équipe de l'original Stable Diffusion

    Google lance le premier "système d'agents d'IA" au monde, le projet Oscar, une plateforme open-source qui permet aux équipes de développement d'utiliser des agents d'IA pour gérer des projets logiciels
    Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  2. #2
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 455
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 455
    Par défaut La définition de l'IA open source critiquée parce qu'elle n'exige pas l'ouverture des données de formation
    La nouvelle « définition de l'IA open source » critiquée parce qu'elle n'exige pas explicitement l'ouverture des données d'entraînement,
    mais d'autres soutiennent la définition de l'OSI, évoquant entre autres la sensibilité de certaines données

    L'Open Source Initiative (OSI), l'une des principales organisations mondiales en matière de normes open source, a récemment dévoilé une définition officielle pour l'intelligence artificielle (IA) open source. Cette annonce, bien que porteuse de promesses pour l'écosystème de l'IA, a suscité une vague de critiques. La controverse provient principalement de l'absence d'une exigence explicite pour l'ouverture des données d'entraînement, un aspect que beaucoup considèrent comme essentiel à toute véritable transparence dans l’IA.

    Contexte et objectif de la nouvelle définition

    La croissance rapide de l'IA et l’intérêt croissant pour les modèles open source ont rendu nécessaire l'établissement de standards clairs pour déterminer ce qui constitue véritablement une IA open source. Selon l’OSI, une organisation réputée pour promouvoir l'open source, l’objectif de cette nouvelle définition est de promouvoir la transparence et l’accessibilité des modèles d’IA. Elle vise à créer une base de compréhension commune pour guider les développeurs, les chercheurs et les entreprises souhaitant contribuer de manière ouverte à l'innovation en IA.

    La définition de l’OSI propose pour qu’un modèle d’IA soit considéré comme open source est que le code source, les algorithmes sous-jacents, et la documentation technique doivent être accessibles à tous sans restriction. Cependant, cette définition n’inclut pas l’accès aux données d’entraînement, un élément crucial selon de nombreux experts du domaine. Cette omission a rapidement provoqué des réactions mitigées, certains y voyant une ouverture salutaire pour l’innovation, tandis que d’autres y voient un obstacle majeur à la transparence et à l’éthique en IA. Les critiques affirment que sans ces données, la définition d’une IA open source est incomplète.

    Nom : open.png
Affichages : 5325
Taille : 298,1 Ko

    Pourquoi l'absence d'accès aux données d'entraînement est-elle problématique ?

    Transparence et reproductibilité

    Pour beaucoup, l’open source ne peut exister sans une transparence totale, ce qui inclut l’ouverture des données d’entraînement. Ces données, qui forment la base de tout modèle d’IA, influencent directement son comportement et les décisions qu’il prend. Sans accès aux données d’entraînement, il devient difficile, voire impossible, de reproduire et de comprendre le comportement exact du modèle. Dans un contexte où les biais algorithmiques et les discriminations sont des préoccupations majeures, l’accès aux données est indispensable pour garantir que les modèles soient équitables et non discriminatoires.

    Les chercheurs, notamment dans les milieux académiques, ont exprimé leur inquiétude quant à cette lacune. Ils estiment que cette absence d’exigence pourrait conduire à des modèles opaques, qui pourraient être utilisés de manière irresponsable, sans supervision adéquate. Si les données d’entraînement ne sont pas disponibles, les utilisateurs finaux, les régulateurs et les chercheurs n’ont aucun moyen de savoir si un modèle est biaisé, ou s’il respecte réellement les standards d’équité et de diversité.

    Opportunité pour les grandes entreprises

    Un autre point soulevé par les critiques est que cette définition pourrait avantager les grandes entreprises technologiques, souvent en possession de vastes ensembles de données propriétaires. En omettant de rendre obligatoires les données d’entraînement, la définition permettrait aux entreprises de revendiquer leurs modèles comme étant « open source » tout en conservant un contrôle exclusif sur les données ayant servi à les entraîner. Cela va directement à l’encontre de l'esprit de l'open source, qui prône la transparence, la collaboration, et l’accès égal aux ressources de développement.

    Dans le contexte actuel, où la question de la centralisation des ressources technologiques par quelques géants du secteur est une source de débat, cette approche pourrait contribuer à renforcer cette concentration. Si seules les entreprises dotées de ressources massives peuvent prétendre offrir des modèles d’IA open source – en raison de leur accès exclusif aux données d’entraînement – l’innovation pourrait se retrouver limitée aux entreprises ayant les moyens d’acquérir ou de générer de grands ensembles de données.

    Problèmes de biais et de discrimination

    Sans l’ouverture des données d’entraînement, il est difficile de détecter et d’atténuer les biais potentiels dans les modèles d’IA. Par exemple, un modèle de reconnaissance faciale peut être entraîné sur des ensembles de données biaisés, créant des risques de discrimination envers certaines communautés. L’accès aux données d’entraînement permettrait aux chercheurs d’évaluer la diversité et l’équité des données sources et, par conséquent, de juger de la justesse du modèle lui-même.

    Les exemples d'IA qui affichent des biais involontaires sont nombreux. Dans les années récentes, des modèles utilisés dans le secteur de la justice, de l’assurance et du recrutement ont été critiqués pour avoir des biais raciaux ou de genre. De nombreux experts estiment que l’ouverture des données d’entraînement est une des solutions nécessaires pour mieux détecter, comprendre et corriger ces biais avant que les modèles ne soient déployés dans des contextes sensibles.


    Les arguments en faveur de la confidentialité des données

    Les défenseurs de la définition de l’OSI avancent des arguments basés sur la confidentialité et les restrictions légales. Les données d’entraînement contiennent souvent des informations sensibles, notamment lorsque ces données proviennent de sources médicales, de dossiers judiciaires, ou de plateformes de réseaux sociaux. L'ouverture de telles données pourrait poser de sérieux problèmes de confidentialité et même violer des réglementations comme le Règlement général sur la protection des données (RGPD) en Europe.

    De plus, certaines entreprises investissent des ressources considérables dans l’acquisition de données d’entraînement de haute qualité. Rendre ces données open source pourrait compromettre leur avantage concurrentiel, ce qui pourrait freiner les investissements dans la collecte et le développement de nouvelles données de qualité. Pour certains, cette restriction peut donc être justifiée par la protection de la vie privée et le respect de la propriété intellectuelle.

    Un compromis contesté

    La définition de l’OSI a le mérite de poser les bases d’une structure pour les modèles d'IA open source, en fournissant une première norme pour les développeurs et les entreprises. Cependant, elle soulève des questions fondamentales : peut-on parler d’open source sans transparence totale ? La définition risque de créer un flou éthique, laissant le champ libre à des pratiques où la forme prime sur le fond. En omettant l'accès aux données d’entraînement, l'OSI pourrait encourager des pratiques où le modèle est techniquement ouvert, mais reste fonctionnellement opaque.

    Les critiques estiment que l’OSI devrait reconsidérer sa position en collaborant avec des experts en protection des données pour trouver des solutions qui garantiraient la confidentialité tout en favorisant une ouverture partielle ou contrôlée des données. Des solutions comme l’utilisation de données synthétiques, la pseudonymisation ou l’anonymisation avancée pourraient être des voies à explorer pour permettre une certaine transparence tout en préservant la vie privée.

    Les implications futures pour l'Open Source et l’IA

    Si cette définition est adoptée sans modification, elle pourrait transformer la façon dont l’open source est perçue dans le domaine de l’IA. Cela pourrait influencer les futures licences et créer un précédent où les modèles open source sont accessibles, mais non vérifiables. À long terme, cela pourrait même affecter la confiance du public envers l’IA, car la capacité de vérifier et de comprendre un modèle serait réduite.

    L’avenir de l’IA open source repose donc sur la capacité à concilier transparence et respect des données. Il est possible que cette définition évolue, mais elle a déjà lancé un débat majeur au sein de la communauté de l’IA open source. Pour beaucoup, le cœur de l’open source repose sur l’accessibilité et la responsabilité ; il reste à voir si l’OSI pourra répondre aux préoccupations croissantes sur le sujet et, potentiellement, redéfinir une approche de l’open source plus inclusive et éthique pour l'IA.

    Sources : pétition, Debian

    Et vous ?

    Êtes-vous pour ou contre l'exigence explicite pour l'ouverture des données d'entraînement dans la définition d'AI Open Source ? Dans quelles mesures ?
    Quels critères minimaux devraient définir une IA open source pour garantir transparence et équité ? Est-il suffisant de partager uniquement le code source et la documentation, ou l'accès aux données d’entraînement devrait-il être un prérequis incontournable ?
    Comment pourrait-on concilier ouverture et protection de la vie privée dans le cadre des données d’entraînement ? Est-il possible de mettre en place des approches alternatives, comme l’anonymisation, les données synthétiques ou le partage limité des données, pour répondre aux deux impératifs ?
    Les grandes entreprises profitent-elles d'une définition limitée de l'open source ? La définition actuelle favorise-t-elle les entreprises avec un accès privilégié aux données, au détriment des chercheurs indépendants et de la communauté académique ?
    L’ouverture des données d’entraînement est-elle indispensable pour lutter contre les biais algorithmiques ? Dans quelle mesure le partage des données pourrait-il aider à repérer et à corriger les biais dans les modèles d’IA, et est-ce un impératif pour les applications sensibles comme la santé, la justice ou le recrutement ?
    Une IA peut-elle être qualifiée « d'open source » si ses données d'entraînement restent fermées ? Le concept d’open source appliqué à l’IA perd-il son sens sans ouverture des données ? Quels seraient les risques à continuer d’apposer le label « open source » sur des modèles partiellement opaques ?
    Comment l’OSI pourrait-elle adapter sa définition pour répondre aux critiques ? Quelles mesures pourraient être prises pour enrichir la définition, en tenant compte des contraintes légales, de la protection des données et de la transparence nécessaire ?
    Est-il possible de définir des standards d’audit pour les IA sans ouverture des données d’entraînement ? Pourrait-on imaginer des alternatives permettant d’auditer les modèles de manière indépendante, même sans accès direct aux données d’entraînement ?
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  3. #3
    Invité
    Invité(e)
    Par défaut
    L’avenir de l’IA open source repose donc sur la capacité à concilier transparence et respect des données
    Impossible actuellement : comment cela pourrait-il devenir ne serait-ce qu'envisageable ? ...
    En fait, l'IA n'émerge pas de la technologie elle-même, elle apparaît dans la relation que nous avons avec la technologie (qui est à proprement parler une création humaine).
    La singularité de l'espèce humaine est l'humanité.
    To be continued ...

Discussions similaires

  1. Réponses: 6
    Dernier message: 25/04/2020, 09h53
  2. Réponses: 0
    Dernier message: 15/03/2018, 09h24
  3. Réponses: 0
    Dernier message: 27/03/2015, 02h38
  4. Réponses: 0
    Dernier message: 25/02/2015, 13h47
  5. Pour ou contre l'Open source ?
    Par Thcan dans le forum Débats sur le développement - Le Best Of
    Réponses: 317
    Dernier message: 01/05/2008, 15h06

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo