IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Le MIT s'excuse d'avoir publié un jeu de données qui a mené à des IA racistes et le supprime


Sujet :

Intelligence artificielle

  1. #1
    Chroniqueur Actualités
    Avatar de Patrick Ruiz
    Homme Profil pro
    Redacteur web
    Inscrit en
    Février 2017
    Messages
    1 815
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Cameroun

    Informations professionnelles :
    Activité : Redacteur web
    Secteur : Communication - Médias

    Informations forums :
    Inscription : Février 2017
    Messages : 1 815
    Points : 50 937
    Points
    50 937
    Par défaut Le MIT s'excuse d'avoir publié un jeu de données qui a mené à des IA racistes et le supprime
    Le MIT s’excuse, met hors ligne de façon permanente un énorme jeu de données qui a mené à des systèmes d’IA qui usent d’insultes racistes
    Et misogynes

    Qui doit être tenu pour responsable lorsqu’une intelligence artificielle utilise des termes racistes pour désigner une catégorie d’individu ? Qui doit endosser la responsabilité de ce qu’une IA use de termes offensants pour désigner certaines parties du corps humain ? C’est celui qui, lors de la phase d’entraînement de la dite intelligence artificielle, l’a nourrie de données biaisées. C’est la conclusion qu’inspire une récente du MIT. Le laboratoire de recherche en informatique et intelligence artificielle de l’institution universitaire annonce la mise hors ligne de façon permanente d’un énorme jeu de données qui a mené à des systèmes d’IA qui usent d’insultes racistes et misogynes.

    C’est le fameux problème du biais des données fournies aux intelligences artificielles (lors de leur phase d’entraînement) qui prend un coup de neuf avec la dernière annonce du laboratoire de recherche en informatique et intelligence artificielle du Massachusetts Institute of Technology (MIT).

    « Il a été porté à notre attention que l'ensemble de données Tiny Images contient des termes péjoratifs en tant que catégories ainsi que des images offensantes. C'est la conséquence de la procédure de collecte automatisée des données qui s'est appuyée sur la base de données de noms WordNet. Nous sommes très préoccupés par cette situation et nous présentons nos excuses à ceux qui ont pu être affectés.

    Le jeu de données est trop grand (80 millions d'images) et les images sont si petites (32 x 32 pixels) qu'il peut être difficile pour des tiers de reconnaître son contenu de façon visuelle. Par conséquent, une inspection manuelle, même si elle est possible, ne garantira pas que les images offensantes puissent être complètement supprimées.

    Nous avons donc décidé de retirer officiellement le jeu de données. Il a été mis hors ligne et ne sera pas remis en ligne. Nous demandons à la communauté de s'abstenir de l'utiliser à l'avenir et de supprimer toute copie existante de l'ensemble de données qui aurait été téléchargée », dit l’institution.

    Le jeu de données a été créé en 2006 et contient 53 464 noms différents directement tirés de la base de données Wordnet. Ces termes ont ensuite été utilisés pour télécharger automatiquement des images du nom correspondant à partir des moteurs de recherche Internet de l'époque (en utilisant les filtres disponibles à l'époque) afin de collecter les 80 millions d'images (à une résolution minuscule de 32x32 ; les versions originales en haute résolution n'ont jamais été stockées). WordNet est une base de données lexicale développée par des linguistes du laboratoire des sciences cognitives de l'université de Princeton au milieu des années ‘80. Il s’agit d’une espèce de cartographie de la façon dont les mots sont associés entre eux.

    C’est une étude d’une équipe conjointe de chercheurs d’UnifyID (une startup de la Silicon Valley) et de L’University College de Dublin qui est venue mettre en lumière le problème de biais de données du jeu Tiny Images du MIT. Après avoir passé en revue ladite base de données, ils y ont découvert des milliers d’images étiquetées avec des insultes racistes pour les Noirs et les Asiatiques et des termes péjoratifs utilisés pour décrire les femmes. Le document support de l’étude est soumis à l'examen des pairs pour l’édition 2021 de la conférence Workshop on Applications of Computer Vision.

    Nom : Screenshot_2020-07-01 MIT apologizes, permanently pulls offline huge dataset that taught AI syst.png
Affichages : 2910
Taille : 109,4 Ko

    ImageNet (une autre base de données d’entraînement d’algorithmes de vision par ordinateur) est concernée par ces développements puisqu’elle aussi annotée à l'aide de WordNet. D'ailleurs, dans le cadre d’une expérience appelée ImageNet Roulette des tiers ont soumis des photos à un réseau de neurones formé à partir d'ImageNet afin que ce dernier décrive les images mises à disposition à l'aide d'étiquettes provenant du jeu de données. Constat final : le logiciel a formulé une description en utilisant des étiquettes racistes et offensantes.

    À la réalité, rien de nouveau quand on se souvient que le même MIT a illustré ce problème de biais de données fournies aux IA au travers de Norman – la première intelligence artificielle psychopathe. Les données utilisées pour l’entraînement de cette IA ont été tirées de l’une des sections de Reddit les plus obscures, « consacrée à documenter et observer la réalité dérangeante de la mort. » Le nom de ce “subreddit” n’a pas été cité, mais on sait qu’il sert d’endroit où des internautes partagent des vidéos choquantes décrivant des événements où des personnes trouvent la mort. Norman a donc été exposé à des images ultra-violentes, ce qui explique les tendances psychopathes de l’IA qui voit tout d’une perspective sépulcrale.

    Nom : Screenshot_2020-07-01 Des chercheurs du MIT créent la première intelligence artificielle psychop.png
Affichages : 2573
Taille : 186,5 Ko

    La tentation de formuler que l’on peut faire voir à une intelligence ce que l’on veut est grande. C’est en tout cas ce que suggèrent ces développements, ce qui pose la question de savoir pourquoi l’on s’appuie sur de tels systèmes pour des prises de décision sensibles. À titre d’illustration, Robert Julian-Borchak Williams, un Afro-Américain, se retrouve à gérer des démêlés avec la justice parce qu’un algorithme de reconnaissance faciale a, par « erreur », fait correspondre sa photo avec une vidéo d’une caméra de sécurité. Dans une récente sortie, le chef de la police de Detroit admet que le système de reconnaissance faciale qui l’a identifié à tort a un taux d’erreur de 96 %.

    Sources : MIT, Etude conjointe UnifyID – UCD

    Et vous ?

    Qu’en pensez-vous ?

    Voir aussi :

    Google obtient le rejet d'un procès concernant la reconnaissance faciale, le juge citant le manque de « préjudices concrets » infligés aux plaignants
    Facebook rend open source le système de reconnaissance vocale Wav2letter++ et publie Flashlight, une bibliothèque d'apprentissage machine
    Google ne vendra pas la technologie de reconnaissance faciale pour l'instant, avant d'aborder d'importantes questions de technologie et de politique
    Une tête imprimée en 3D a pu tromper le système de reconnaissance faciale de plusieurs smartphones Android populaires lors d'un test
    Reconnaissance faciale : Microsoft appelle à une régulation mondiale, avant que cette technologie ne devienne problématique au sein de la société
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  2. #2
    Inactif  


    Homme Profil pro
    Doctorant sécurité informatique — Diplômé master Droit/Économie/Gestion
    Inscrit en
    Décembre 2011
    Messages
    9 012
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 30
    Localisation : France, Loire (Rhône Alpes)

    Informations professionnelles :
    Activité : Doctorant sécurité informatique — Diplômé master Droit/Économie/Gestion
    Secteur : Enseignement

    Informations forums :
    Inscription : Décembre 2011
    Messages : 9 012
    Points : 23 209
    Points
    23 209
    Par défaut
    Ridicule, et c'est le MIT ? Tout se perd.


    Un tel jeu de donnée à toujours un intérêt. Les catégories "offensantes", tu peux les renommer, les images offensantes, tu peux apprendre à les reconnaître, bref, il y a toujours largement matière à s'amuser avec un tel jeu de données plutôt que de le mettre purement et simplement hors ligne.

  3. #3
    Membre émérite Avatar de Cpt Anderson
    Profil pro
    Développeur informatique
    Inscrit en
    Novembre 2005
    Messages
    624
    Détails du profil
    Informations personnelles :
    Âge : 49
    Localisation : France, Rhône (Rhône Alpes)

    Informations professionnelles :
    Activité : Développeur informatique

    Informations forums :
    Inscription : Novembre 2005
    Messages : 624
    Points : 2 479
    Points
    2 479
    Par défaut
    répondre à cette question répondra à celle à propos des voitures autonomes et des accidents qui en découleront. Qui est responsable ?
    Voici la méthode de mon chef:

    copy (DateTimeToStr(Now),7,4)+
    copy (DateTimeToStr(Now),4,2)+copy (DateTimeToStr(Now),1,2)+copy (DateTimeToStr(Now),12,2)+
    copy (DateTimeToStr(Now),15,2)+copy (DateTimeToStr(Now),18,2)

    Je lui ai dit que FormatDateTime irait surement mieux


  4. #4
    Membre chevronné Avatar de Mister Nono
    Homme Profil pro
    Ingénieur Mathématiques et Informatique
    Inscrit en
    Septembre 2002
    Messages
    2 232
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 60
    Localisation : France, Haute Garonne (Midi Pyrénées)

    Informations professionnelles :
    Activité : Ingénieur Mathématiques et Informatique
    Secteur : Santé

    Informations forums :
    Inscription : Septembre 2002
    Messages : 2 232
    Points : 1 894
    Points
    1 894
    Par défaut
    Citation Envoyé par Neckara Voir le message
    Un tel jeu de donnée à toujours un intérêt. Les catégories "offensantes", tu peux les renommer, les images offensantes, tu peux apprendre à les reconnaître, bref, il y a toujours largement matière à s'amuser avec un tel jeu de données plutôt que de le mettre purement et simplement hors ligne.
    Et pour corriger les erreurs de l'intelligence artificielle, on va utiliser quoi ? Et bien ... L'intelligence artificielle.

    A+
    La connaissance ne sert que si elle est partagée.
    http://ms2i.net

Discussions similaires

  1. Réponses: 10
    Dernier message: 30/04/2023, 18h10
  2. Réponses: 48
    Dernier message: 09/08/2016, 14h04
  3. [BDE] [D2005] Comment avoir les outils base de donnée
    Par melles dans le forum Bases de données
    Réponses: 7
    Dernier message: 18/09/2006, 11h57

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo