Mozilla publie une solution d’apprentissage profond pour la reconnaissance vocale
Une implémentation TensorFlow de l’architecture Deep Speech

Les systèmes de reconnaissance vocale sont déjà bien intégrés dans le quotidien des utilisateurs d’ordinateurs et autres appareils dits « intelligents ». Le temps d’une escapade avec un smartphone Apple ou Samsung et l’on peut échanger avec une application informatique dotée d’aptitudes à la reconnaissance vocale et à la parole ; ce qu’on nomme assistant personnel intelligent. Mozilla apporte sa contribution au développement d’applications de reconnaissance vocale avec une solution d’apprentissage profond dédiée.

Le projet Deep Speech est une implémentation TensorFlow de l’architecture de réseaux de neurones du même nom dont elle s’inspire. D’après ce que rapporte Mozilla, le modèle peut permettre d’effectuer une transcription audio – texte avec un taux d’erreur inférieur à 10 %. L’expérimentation peut être menée à l’aide de packages Python et Node.JS disponibles au sein du dépôt GitHub du projet. À noter également que dans le cadre d’utilisations plus poussées comme l’entrainement de ce dernier, une vaste base de données de près de 400 000 enregistrements audio (publiés dans le cadre du projet Common Voice) est disponible.

Nom : Deep Speech.jpg
Affichages : 7687
Taille : 76,1 Ko


« Nous avons fait de gros progrès : notre taux d’erreurs de transcription avec le jeu de données LibriSpeech est de 6,5 %, ce qui non seulement marque l’atteinte de notre objectif initial, mais nous rapproche du niveau de performances d’un humain », écrit Mozilla. Les systèmes de reconnaissance vocale sont désormais dans l’air du temps avec l’exploitation des techniques d’intelligence artificielle. Au-delà, il y a cette quête constante de performances qui s’exprime aussi en termes de réactivité du système. Et à ce propos, il faut distinguer ceux qui s’appuient sur des ressources matérielles accessibles via le cloud et ceux qui opèrent localement.

Intel serait le pionnier de la deuxième catégorie avec son système dénommé Jarvis, conçu en tandem avec Nuance, une entreprise spécialisée dans le développement d’applications de commande vocale. Jarvis « vit » au sein des processeurs mobiles assez performants pour prendre des commandes vocales en charge de façon locale et assez petits pour être intégrés à divers dispositifs. Avec ce dernier, pas d’envoi de commandes vocales via le cloud pour traitement par un serveur externe. Résultat, contrairement à des offres comme Siri ou Google assistant, la rapidité est considérablement accrue. Avec l’annonce de la disponibilité de Deep Speech, Mozilla vient augmenter les possibilités qui s’offrent aux développeurs désireux de tirer profit d’une architecture matérielle locale.

Source

Billet de blog Mozilla

Votre avis

Faites-vous dans le développement d’applications de reconnaissance vocale ? Si oui, partagez votre expérience en soulignant en quoi cette solution de Mozilla peut vous être utile

Voir aussi

Intel - Machine Learning - Reconnaissance vocale : optimiser la performance de la reconnaissance vocale avec la bibliothèque Intel Math Kernel
Web Speech API franchit un nouveau cap, la spécification JavaScript permettra d'intégrer la reconnaissance vocale dans les pages Web
Le cofondateur d'Android prédit la disparition du clavier d'ici 20 ans pour être remplacé par la reconnaissance vocale et faciale entre autres