IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Actualités Discussion :

Google développe une IA capable de reconnaître et isoler une voix dans une foule

  1. #1
    Expert éminent sénior
    Avatar de Coriolan
    Homme Profil pro
    Développeur informatique
    Inscrit en
    Mai 2016
    Messages
    701
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : France, Sarthe (Pays de la Loire)

    Informations professionnelles :
    Activité : Développeur informatique
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Mai 2016
    Messages : 701
    Points : 51 810
    Points
    51 810
    Par défaut Google développe une IA capable de reconnaître et isoler une voix dans une foule
    Google développe une IA capable de reconnaître et isoler une voix dans une foule
    Une aptitude réservée auparavant aux humains

    Pour les humains, il est tout à fait facile de concentrer leur attention sur la voix d’une personne même dans un environnement bruyant, tout en restant attentif aux autres signaux sonores. En psychoacoustique, on appelle ça l’effet cocktail party, une capacité remarquable qui est naturelle aux humains, mais qui constitue un défi pour les ordinateurs.

    Nom : IA_google.jpg
Affichages : 3433
Taille : 54,0 Ko

    Mais grâce au progrès rapide de l’intelligence artificielle, les machines auront peut-être la même capacité, c’est ce qu’a illustré Google en développant une nouvelle IA capable de reconnaître et isoler des voix dans une foule.

    Dans un document publié par le géant de la recherche, il présente un modèle d’apprentissage approfondi audiovisuel pour isoler un seul signal vocal d’une combinaison de sons comme d’autres voix et le bruit de fond.

    « Dans ce travail, nous sommes en mesure de produire de façon computationnelle des vidéos dans lesquelles le discours de personnes spécifiques est rehaussé alors que tous les autres sons sont supprimés, » explique Google. « Notre méthode fonctionne sur des vidéos ordinaires avec une seule piste audio, et tout ce que l’utilisateur doit faire est de sélectionner le visage d’une personne dans la vidéo qu’il veut entendre, ou mettre en sorte que la personne soit sélectionnée algorithmiquement selon le contexte. »


    Mais comment Google a-t-il réussi cette prouesse technique ? En fait, c’est en grande partie grâce au deep learning. Les ingénieurs de Google ont rassemblé une large collection de 100 000 vidéos de haute qualité issues de YouTube.

    En utilisant ces données, les ingénieurs ont pu entraîner l’IA à analyser une écoute et la diviser en autant de pistes audio que nécessaire. La particularité de ce système est qu’il analyse aussi l’image. Il s’appuie sur le mouvement du visage des gens lorsqu’ils parlent pour distinguer des voix spécifiques. Le signal visuel améliore non seulement la qualité de la séparation audio, mais permet aussi d’associer les pistes audio avec le locuteur visible dans la vidéo. Au final, des segments propres de discours ont été extraits, pas moins de 2000 heures de vidéo ont été nettoyées, chacune avec une seule personne visible à la caméra et en train de parler sans interférence en arrière-plan.

    Google a publié quatre vidéos illustrant comment fonctionne cette IA et les résultats sont plutôt bons, voire bluffants quand il s’agit d’un débat entre deux personnes. Grâce à cet outil, il est tout à fait possible de sélectionner une seule personne dans une vidéo et isoler parfaitement sa voix pour n’écouter que celle-ci, même si le bruit de fond est important.

    Google explique que cette technologie va améliorer les sous-titres automatiques des vidéos, notamment sur YouTube. Cette IA pourrait aussi servir aux services de chat vidéo comme Hangouts ou Duo pour améliorer la qualité des appels vidéo. Elle pourrait aussi améliorer considérablement l'accessibilité. Pour le moment, Google explore toujours les applications potentielles de cette technologie.

    Source : blog Google

    Et vous ?

    Quelles applications suggérez-vous pour cette technologie ?

    Voir aussi :

    Chine : la police se sert de la reconnaissance faciale pour arrêter un fugitif, la fiction Big Brother de 1984 est-elle devenue une réalité en 2018 ?
    La police chinoise teste des lunettes connectées capables d'identifier les suspects en scannant les visages et les plaques d'immatriculation
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

  2. #2
    Membre extrêmement actif
    Avatar de Ryu2000
    Homme Profil pro
    Étudiant
    Inscrit en
    Décembre 2008
    Messages
    9 605
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Décembre 2008
    Messages : 9 605
    Points : 18 523
    Points
    18 523
    Par défaut
    Citation Envoyé par Coriolan Voir le message
    Quelles applications suggérez-vous pour cette technologie ?
    Pour sampler des vocals à partir de différentes sources. (en français on doit dire "échantillonner des chants" j'imagine)
    En gros on pourrait presque récupérer un acapella propre à partir d'un morceau.
    Ce serait l'utilisation la plus sympa qu'on puisse en faire.

    Mais c'est flippant comme technologie je trouve.
    Ça va peut être finir en outil de surveillance de masse où on pourra savoir ce que quelqu'un dans une foule dit.
    Keith Flint 1969 - 2019

  3. #3
    Membre émérite Avatar de onilink_
    Profil pro
    Inscrit en
    Juillet 2010
    Messages
    597
    Détails du profil
    Informations personnelles :
    Âge : 32
    Localisation : France

    Informations forums :
    Inscription : Juillet 2010
    Messages : 597
    Points : 2 443
    Points
    2 443
    Par défaut
    Cool, on va enfin pouvoir virer les rires en fond des séries américaines.

    Impressionnant en tout cas.
    Circuits intégrés mis à nu: https://twitter.com/TICS_Game

  4. #4
    Expert confirmé Avatar de AoCannaille
    Inscrit en
    Juin 2009
    Messages
    1 414
    Détails du profil
    Informations forums :
    Inscription : Juin 2009
    Messages : 1 414
    Points : 4 735
    Points
    4 735
    Par défaut
    Citation Envoyé par onilink_ Voir le message
    Cool, on va enfin pouvoir virer les rires en fond des séries américaines.

    Impressionnant en tout cas.
    je pense que techniquement c'est beaucoup plus simple, étant donné qu'il y a max 5 rires différents...

  5. #5
    Membre extrêmement actif
    Avatar de Ryu2000
    Homme Profil pro
    Étudiant
    Inscrit en
    Décembre 2008
    Messages
    9 605
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 36
    Localisation : France, Hérault (Languedoc Roussillon)

    Informations professionnelles :
    Activité : Étudiant

    Informations forums :
    Inscription : Décembre 2008
    Messages : 9 605
    Points : 18 523
    Points
    18 523
    Par défaut
    Citation Envoyé par onilink_ Voir le message
    Cool, on va enfin pouvoir virer les rires en fond des séries américaines.
    Dans certaines sitcom des rires sont ajoutés, mais c'est un vieux procédé qui devrait tendre à disparaitre si ceux qui produisent les sitcoms étaient moins cons.

    Ça fait bizarre de voir quelque chose comme The Big Bang Theory sans les rires (remarque c'est également bizarre de regarder avec les rires) :


    Les personnages attendent.
    Keith Flint 1969 - 2019

  6. #6
    Bot Troll en alpha-test

    Femme Profil pro
    Webmarketer
    Inscrit en
    Septembre 2016
    Messages
    133
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 29
    Localisation : France, Marne (Champagne Ardenne)

    Informations professionnelles :
    Activité : Webmarketer
    Secteur : Enseignement

    Informations forums :
    Inscription : Septembre 2016
    Messages : 133
    Points : 0
    Points
    0
    Billets dans le blog
    1
    Par défaut
    Citation Envoyé par onilink_ Voir le message
    Cool, on va enfin pouvoir virer les rires en fond des séries américaines.

    Impressionnant en tout cas.
    et comment on saura quand es ce qu'il faut rire ?

  7. #7
    Membre actif
    Femme Profil pro
    Développeur de jeux vidéo
    Inscrit en
    Décembre 2017
    Messages
    59
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Âge : 32
    Localisation : France, Gironde (Aquitaine)

    Informations professionnelles :
    Activité : Développeur de jeux vidéo

    Informations forums :
    Inscription : Décembre 2017
    Messages : 59
    Points : 281
    Points
    281
    Par défaut
    Pour les humains, il est tout à fait facile de concentrer leur attention sur la voix d’une personne même dans un environnement bruyant, tout en restant attentif aux autres signaux sonores.
    Je ne doute pas de notre capacité à le faire à un certain degré, mais vous avez des sources sur la facilité de la chose ?

Discussions similaires

  1. Réponses: 4
    Dernier message: 09/08/2017, 10h54
  2. Réponses: 10
    Dernier message: 04/07/2015, 13h38
  3. Réponses: 2
    Dernier message: 23/12/2012, 15h46
  4. Réponses: 2
    Dernier message: 05/07/2008, 09h54
  5. Reconnaître un type de caractère dans une chaîne
    Par FoxDeltaSierra dans le forum ASP.NET
    Réponses: 5
    Dernier message: 03/07/2007, 17h31

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo