IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Et si des portraits de personnes pouvaient être réalisés avec le son de leur voix ?


Sujet :

Intelligence artificielle

  1. #1
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    8 443
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 8 443
    Points : 197 522
    Points
    197 522
    Par défaut Et si des portraits de personnes pouvaient être réalisés avec le son de leur voix ?
    L'IA Speech2Face permet de « reconstruire » le visage d'une personne en se basant sur sa voix,
    elle a besoin au minimum de trois secondes de parole pour générer un visage

    Les photographies sont réalisées à l'aide de la lumière. Et si des portraits de personnes pouvaient être réalisés avec le son de leur voix ? Les chercheurs en intelligence artificielle ont travaillé sur la reconstruction du visage d'une personne en utilisant uniquement un court enregistrement audio de cette personne en train de parler. Les résultats ne sont pas encore parfaits, mais dans certains cas, ils sont sacrément proches du visage d'origine. Les scientifiques du Computer Science and Artificial Intelligence Laboratory (CSAIL) au MIT ont publié pour la première fois un algorithme d'IA appelé Speech2Face dans un article en 2019. « Combien pouvons-nous déduire de l'apparence d'une personne à partir de la façon dont elle parle ? », peut-on lire sur le résumé. « Nous étudions la tâche de reconstruire une image faciale d'une personne à partir d'un court enregistrement audio de cette personne qui parle ». Bien sûr, ils ont précisé : « Notez que notre objectif n'est pas de reconstruire une image précise de la personne, mais plutôt de récupérer des traits physiques caractéristiques qui sont corrélés avec le discours d'entrée ».

    La technologie de Speech2Face affiche des rendus très photoréalistes qui sont également trop génériques pour identifier une personne en particulier. Mais elle permet d'établir un profil suffisamment précis avec l'ethnie, le sexe et l'âge du sujet. Une technologie capable d'estimer ces deux facteurs existait déjà, mais la composante ethnique est une nouveauté de l'IA Speech2Face.


    Nom : explication.png
Affichages : 7168
Taille : 58,5 Ko

    La technologie continue de croître à pas de géant, s'appuyant sur divers domaines pour explorer de nouvelles capacités et fonctionnalités. L'une d'entre elles est de pouvoir « reconstruire » le visage d'une personne à travers un fragment de voix. De nombreux résultats montrent une grande similitude avec la personne derrière la voix.

    Le document explique que l'objectif des chercheurs Tae-Hyun On, Tali Dekel, Changil Kim, Inbar Mosseri, William T. Freeman et Michael Rubinstein du MIT Science and Research Program n'est pas de reconstruire à l'identique les visages des personnes mais de faire une image avec les caractéristiques physiques liées à l'audio analysé.

    Pour y parvenir, ils ont utilisé, conçu et formé un réseau de neurones profonds qui a analysé des millions de vidéos prises sur YouTube où il y a des gens qui parlent. Au cours de la formation, le modèle a appris à corréler les voix avec les visages , ce qui lui a permis de produire des images avec des attributs physiques similaires aux locuteurs, notamment l'âge, le sexe et l'origine ethnique. Le fonctionnement de l'algorithme s'articule autour de l'utilisation de deux composants principaux :
    • un encodeur ; qui extrait et enregistre le spectrogramme des ondes audio, en reconnaissant une série de caractéristiques clés de celui-ci
    • un décodeur ; qui sur la base des caractéristiques précitées génère une image du visage, représenté de face et avec un geste neutre

    Il n'y a eu aucune implication humaine dans le processus de formation, car les chercheurs n'ont pas eu besoin d'étiqueter manuellement des sous-ensembles de données - l'IA a simplement reçu une énorme quantité de vidéos et a été chargée de déterminer les corrélations entre les caractéristiques vocales et les caractéristiques faciales.

    « Nous avons conçu et formé un réseau neuronal profond pour effectuer cette tâche en utilisant des millions de vidéos naturelles de personnes parlant depuis Internet/Youtube. Au cours de la formation, notre modèle apprend les corrélations audiovisuelles, voix-visage qui lui permettent de produire des images qui capturent divers attributs physiques des locuteurs tels que l'âge, le sexe et l'origine ethnique. Cela se fait de manière auto-supervisée, en utilisant la cooccurrence naturelle des visages et de la parole dans les vidéos Internet, sans qu'il soit nécessaire de modéliser explicitement les attributs. Nos reconstructions, obtenues directement à partir de l'audio, révèlent les corrélations entre les visages et les voix. Nous évaluons et quantifions numériquement comment - et de quelle manière - nos reconstructions Speech2Face à partir de l'audio ressemblent aux vraies images de visage des locuteurs ».

    Une fois formée, l'IA était remarquablement douée pour créer des portraits basés uniquement sur des enregistrements vocaux qui ressemblaient à ce à quoi ressemblait réellement l'orateur.

    Nom : un.png
Affichages : 4600
Taille : 403,6 Ko
    À gauche, le vrai visage (la référence), à droite, l'image reconstruite par l'IA grâce au son de la voix

    Pour analyser plus en détail la précision des reconstructions faciales, les chercheurs ont construit un « décodeur de visage » qui crée une reconstruction standardisée du visage d'une personne à partir d'une image fixe tout en ignorant les « variations non pertinentes » telles que la pose et l'éclairage. Cela a permis aux scientifiques de comparer plus facilement les reconstructions vocales avec les caractéristiques réelles du locuteur.

    Encore une fois, les résultats de l'IA étaient étonnamment proches des vrais visages dans un grand pourcentage de cas.

    Nom : deux.png
Affichages : 4641
Taille : 462,4 Ko
    Nom : trois_1.png
Affichages : 4569
Taille : 194,8 Ko
    À droite, l'image reconstruite par l'IA grâce au son de la voix. Au milieu, le travail du « décodeur de visage ». À gauche, le vrai visage (la référence)

    Incidemment, des enregistrements vocaux plus longs conduisent à un meilleur résultat. Les chercheurs l'ont montré avec des exemples qui ont été créés à partir d'extraits audio de trois ou six secondes.

    Nom : quatre.png
Affichages : 4588
Taille : 300,3 Ko

    Faiblesses et problèmes éthiques

    Dans certains cas, l'IA avait du mal à déterminer à quoi pouvait ressembler le locuteur. Des facteurs tels que l'accent, la langue parlée et la tonalité de la voix étaient des facteurs qui provoquaient des « incompatibilités discours-visage » dans lesquelles le sexe, l'âge ou l'origine ethnique étaient incorrects.

    Nom : trois.png
Affichages : 4551
Taille : 315,0 Ko
    Exemples d'erreurs. La première photo correspond au visage de la personne dans l'audio et la seconde à celui recréé par le programme

    Les personnes à voix aigue (y compris les garçons plus jeunes) étaient souvent identifiées comme des femmes tandis que les personnes à voix grave étaient étiquetées comme des hommes. Un homme asiatique parlant anglais avait une apparence moins asiatique que lorsqu'il parlait chinois. En clair, si la même personne parle sa langue maternelle, l'origine ethnique correcte est attribuée.

    Les chercheurs espèrent obtenir des résultats encore plus précis s'ils fournissent davantage de données d'entraînement plus représentatives de l'ensemble de la population mondiale. Ils sont conscients que l'IA est actuellement aux prises avec des préjugés racistes et tentent de remédier à cette situation.

    Les chercheurs ont souligné que, bien qu'il s'agisse d'une enquête purement académique, ils pensaient qu'il est important de discuter explicitement d'un ensemble de considérations éthiques en raison de la sensibilité potentielle des informations faciales :
    • Vie privée : Comme mentionné, notre méthode ne peut pas récupérer la véritable identité d'une personne à partir de sa voix (c'est-à-dire une image exacte de son visage). En effet, notre modèle est formé pour capturer les caractéristiques visuelles (liées à l'âge, au sexe, etc.) qui sont communes à de nombreux individus, et uniquement dans les cas où il existe des preuves suffisamment solides pour relier ces caractéristiques visuelles aux attributs vocaux / vocaux dans le données. En tant que tel, le modèle ne produira que des visages d'apparence moyenne, avec des caractéristiques visuelles caractéristiques qui sont corrélées avec le discours d'entrée. Il ne produira pas d'images d'individus spécifiques.
    • Corrélations voix-visage et biais des ensembles de données : Notre modèle est conçu pour révéler les corrélations statistiques qui existent entre les traits du visage et les voix des locuteurs dans les données d'entraînement. Les données d'entraînement que nous utilisons sont une collection de vidéos éducatives de YouTube et ne représentent pas de manière égale l'ensemble de la population mondiale. Par conséquent, le modèle --- comme c'est le cas avec tout modèle d'apprentissage automatique --- est affecté par cette distribution inégale des données.

      Plus précisément, si un ensemble de locuteurs peut avoir des traits vocaux-visuels relativement rares dans les données, la qualité de nos reconstructions pour de tels cas peut se dégrader. Par exemple, si une certaine langue n'apparaît pas dans les données d'apprentissage, nos reconstructions ne capteront pas bien les attributs faciaux qui peuvent être corrélés à cette langue.

      Notez que certaines des caractéristiques de nos visages prédits peuvent même ne pas être physiquement liées à la parole, par exemple la couleur ou le style des cheveux. Cependant, si de nombreux locuteurs de l'ensemble de formation qui parlent d'une manière similaire (par exemple, dans la même langue) partagent également certains traits visuels communs (par exemple, une couleur ou un style de cheveux commun), alors ces traits visuels peuvent apparaître dans les prédictions.

      Pour les raisons ci-dessus, nous recommandons que toute enquête plus approfondie ou utilisation pratique de cette technologie soit soigneusement testée pour s'assurer que les données de formation sont représentatives de la population d'utilisateurs prévue. Si ce n'est pas le cas, des données plus représentatives devraient être largement collectées .
    • Catégories : Dans notre section expérimentale, nous mentionnons les catégories démographiques inférées telles que "Blanc" et "Asiatique". Ce sont des catégories définies et utilisées par un classificateur d'attributs de visage commercial (Face++), et n'ont été utilisées que pour l'évaluation dans cet article. Notre modèle n'est pas fourni avec et n'utilise à aucun moment ces informations.

    Concernant les usages, certains pensent qu'une employabilité commerciale de cet algorithme serait la possibilité de générer une image représentative de l'interlocuteur lorsque l'on est en train de téléphoner ou d'écouter la radio.

    Source : Speech2Face

    Et vous ?

    Que pensez-vous de Speech2Face ?
    Entrevoyez-vous des usages ? Lesquels ?

    Voir aussi :

    Deux chercheurs ont trouvé plus de 1000 faux profils sur LinkedIn qui ont utilisés des visages générés par l'IA, plus de 70 entreprises ont créé de faux profils pour conclure des ventes
    L'IA NeRF de NVIDIA permet de reconstruire presque instantanément une scène 3D à partir d'une poignée d'images 2D, Instant NeRF n'a besoin que de quelques secondes pour s'entraîner
    Le générateur d'images de l'IA DALL-E d'OpenAI peut désormais modifier des photos, les chercheurs peuvent s'inscrire pour le tester
    Plus de 70 % des individus souhaitent que l'IA les aide plutôt que de faire tout le travail ou de ne rien faire, en effectuant des tâches simples comme les calculs ou la simplification de procédures
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  2. #2
    Membre expérimenté
    Homme Profil pro
    bricoleur par les mots
    Inscrit en
    Avril 2015
    Messages
    713
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 79
    Localisation : France, Seine Maritime (Haute Normandie)

    Informations professionnelles :
    Activité : bricoleur par les mots
    Secteur : Distribution

    Informations forums :
    Inscription : Avril 2015
    Messages : 713
    Points : 1 597
    Points
    1 597
    Par défaut
    jour

    C'est du grand n'importe quoi
    Plus vite encore plus vite toujours plus vite.

  3. #3
    Membre expert
    Profil pro
    undef
    Inscrit en
    Février 2013
    Messages
    957
    Détails du profil
    Informations personnelles :
    Localisation : France, Lot (Midi Pyrénées)

    Informations professionnelles :
    Activité : undef

    Informations forums :
    Inscription : Février 2013
    Messages : 957
    Points : 3 525
    Points
    3 525
    Par défaut
    Encore une IA qui va se voir accuser de racisme.

  4. #4
    Membre émérite Avatar de vttman
    Homme Profil pro
    Développeur "couteau mosellan"
    Inscrit en
    Décembre 2002
    Messages
    1 140
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Moselle (Lorraine)

    Informations professionnelles :
    Activité : Développeur "couteau mosellan"
    Secteur : Industrie

    Informations forums :
    Inscription : Décembre 2002
    Messages : 1 140
    Points : 2 286
    Points
    2 286
    Par défaut
    Et avec l'haleine on va pouvoir reconstituer la corpulence ?
    Emérite, émérite je ne pense pas ... plutôt dans le développement depuis FORT FORT longtemps, c'est mon job, ça oui
    A part ça ... Il ne pleut jamais en Moselle !

  5. #5
    Expert éminent Avatar de kain_tn
    Homme Profil pro
    Inscrit en
    Mars 2005
    Messages
    1 564
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Suisse

    Informations forums :
    Inscription : Mars 2005
    Messages : 1 564
    Points : 7 285
    Points
    7 285
    Par défaut
    Citation Envoyé par Stéphane le calme Voir le message
    Concernant les usages, certains pensent qu'une employabilité commerciale de cet algorithme serait la possibilité de générer une image représentative de l'interlocuteur lorsque l'on est en train de téléphoner ou d'écouter la radio.
    [mode ironique]Ohlàlà! Ça c'est quelque chose de très utile! Vivement que ça sorte![/mode ironique]
    Copier c'est copier; voler c'est vendre un CD une vingtaine d'euros!


    Code C : Sélectionner tout - Visualiser dans une fenêtre à part
    1
    2
    3
    4
    5
    6
    7
    #include <stdio.h>
     
    int main(int argc, char **argv) {
     
        printf("So long, and thanks for the fish, Dennis...\n");
        return 0;
    }

  6. #6
    Membre émérite
    Profil pro
    retraité
    Inscrit en
    Décembre 2010
    Messages
    806
    Détails du profil
    Informations personnelles :
    Localisation : France

    Informations professionnelles :
    Activité : retraité

    Informations forums :
    Inscription : Décembre 2010
    Messages : 806
    Points : 2 307
    Points
    2 307
    Par défaut
    Et quand le mec en face lâche par erreur une caisse, l'IA dessine quoi ? un trou noir ?

    On ne sait jamais il y a peut être une connexion entre les parties du corps, qui sait.

  7. #7
    Modérateur
    Avatar de tourlourou
    Homme Profil pro
    Biologiste ; Progr(amateur)
    Inscrit en
    Mars 2005
    Messages
    3 857
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 61
    Localisation : France, Yvelines (Île de France)

    Informations professionnelles :
    Activité : Biologiste ; Progr(amateur)

    Informations forums :
    Inscription : Mars 2005
    Messages : 3 857
    Points : 11 291
    Points
    11 291
    Billets dans le blog
    6
    Par défaut
    Ça permettra peut-être d'approcher le visage d'acteurs avant bistouri...
    Delphi 5 Pro - Delphi 11.3 Alexandria Community Edition - CodeTyphon 6.90 sous Windows 10 ; CT 6.40 sous Ubuntu 18.04 (VM)
    . Ignorer la FAQ Delphi et les Cours et Tutoriels Delphi nuit gravement à notre code !

  8. #8
    Expert éminent
    Avatar de Matthieu Vergne
    Homme Profil pro
    Consultant IT, chercheur IA indépendant
    Inscrit en
    Novembre 2011
    Messages
    2 264
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France

    Informations professionnelles :
    Activité : Consultant IT, chercheur IA indépendant
    Secteur : High Tech - Éditeur de logiciels

    Informations forums :
    Inscription : Novembre 2011
    Messages : 2 264
    Points : 7 760
    Points
    7 760
    Billets dans le blog
    3
    Par défaut
    Ça peut paraître idiot pour beaucoup, mais moi je hais le téléphone en partie car j'ai du mal à comprendre mon interlocuteur. Et avoir un visage mouvant (notamment les lèvres) permettrait d'améliorer la compréhensibilité du message. Imaginez donc les malentendants (et pourtant je n'en suis pas un) qui pourraient profiter de ce genre de technologie. On pourrait tout aussi bien le faire avec un avatar, mais une fois qu'on parle de pouvoir personnaliser l'avatar pour ne pas avoir toujours la même face, on tombe sur ce type de techno.
    Site perso
    Recommandations pour débattre sainement

    Références récurrentes :
    The Cambridge Handbook of Expertise and Expert Performance
    L’Art d’avoir toujours raison (ou ce qu'il faut éviter pour pas que je vous saute à la gorge {^_^})

Discussions similaires

  1. Réponses: 2
    Dernier message: 17/07/2021, 17h15
  2. Réponses: 13
    Dernier message: 29/08/2016, 12h20
  3. au moins l'un des arguments ne peut pas être marshalé
    Par thierry007 dans le forum Windows Forms
    Réponses: 3
    Dernier message: 07/05/2015, 13h16
  4. Mes fieldset s'affichent les un en dessous des autres au lieu d'être cote à cote
    Par seb28310 dans le forum Balisage (X)HTML et validation W3C
    Réponses: 3
    Dernier message: 09/02/2009, 18h29
  5. Crée des groupes de personnes en fonction d'une note
    Par lecabels dans le forum Macros et VBA Excel
    Réponses: 1
    Dernier message: 21/05/2008, 13h24

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo