Facebook rend open source le système de reconnaissance vocale Wav2letter++
et publie Flashlight, une bibliothèque d'apprentissage machine

Aujourd’hui, de plus en plus de sociétés supportent les solutions open source soient par le financement des projets ou en travaillant directement avec les développeurs. Parmi ces sociétés, Facebook, le troisième site le plus visité au monde, a décidé de rendre une panoplie de projets open source. Ainsi, Facebook compte des centaines de projets listés sur GitHub, dont on peut citer : React, GraphQL, Caffe2 et bien d’autres.

Travaillant depuis des années sur le développement de l’intelligence artificielle, Facebook a annoncé qu’il rend open source une nouvelle approche convolutive de reconnaissance vocale automatique, et wav2letter++, un système de reconnaissance vocale de bout en bout le plus rapide selon la société. Cette approche tire parti des réseaux neuronaux convolutifs (CNNs) pour la modélisation acoustique et les modèles de langage.

« Les architectures CNN sont en compétition avec les réseaux de neurones récurrents pour les tâches dans lesquelles la modélisation de dépendances à long terme est importante, comme la modélisation de langage, la traduction automatique et la synthèse vocale. Cependant, dans la reconnaissance vocale de bout en bout, les architectures récurrentes sont encore plus répandues pour la modélisation acoustique et linguistique, » ont écrit les chercheurs de Facebook.

Dans un document scientifique, l’équipe de recherche informe que wav2letter a été écrit entièrement en C++ et utilise la bibliothèque ArrayFire pour un maximum d’efficience. En comparant wav2letter++ aux autres systèmes majeurs et open source de reconnaissance vocale, l’équipe informe que wav2letter est 2 fois plus rapide que les autres frameworks optimisés pour entraîner les réseaux neuronaux de bout en bout pour la reconnaissance vocale.

« La speech team de Facebook AI Research (FAIR) partage le premier système de reconnaissance vocale complètement convolutif. De la forme d'onde à la transcription du mot final, les parties du système que l'on peut apprendre sont composées uniquement de couches convolutives. Cela permet d'obtenir des performances compétitives comparées aux architectures récurrentes, » explique l’équipe.

Nom : rsz_1fully_convolutional_asr.png
Affichages : 1448
Taille : 49,8 Ko

L’équipe a publié aussi flashlight, une bibliothèque d’apprentissage machine conçue par FAIR Speech team et les créateurs de Torch et DeepSpeech. « Elle est dotée de la compilation à la volée avec du C++ moderne, et cible les backends CPU et GPU pour un maximum d’efficience et de scalabilité. Le toolkit wav2letter++ a été bâti sur flashlight. Nous publions les deux Frameworks conjointement avec cette recherche afin de permettre la reproductibilité,” a écrit l’équipe.

La reconnaissance automatique de la parole reste un domaine complexe, du fait qu’il existe une différence importante entre le langage formel, qui est compris et utilisé par les machines, et le langage naturel, que les humains utilisent. Mais pour l’équipe de recherche de Facebook, « la reconnaissance vocale de bout en bout rend facile la prise en charge de plusieurs langages. De plus, apprendre directement à partir de la parole brute est une voie prometteuse dans des contextes où la qualité audio est très variable. »

Bien que les CNN sont intéressants et faciles à entrainer, certains développeurs estiment que les RNN sont plus précis. Dans un domaine comme le traitement automatique de langage naturel, la précision est importante.

On pourrait se demander pourquoi Facebook cherche à développer activement un système de reconnaissance vocale, sachant que le réseau social est un système basé sur texte. Bien que certains soupçonnent Facebook d’écouter secrètement leurs conversations et d’utiliser les informations tirées dans son fil d’actualité, il se pourrait que la société cherche à développer une technologie de reconnaissance vocale pour ses enceintes connectées intelligentes Facebook Portal. Pour le moment, ils sont livrés avec Alexa, l’assistant personnel développé par Amazon. Le site a été doté aussi d’une option de sous-titrage automatique des vidéos, ce qui parait comme une raison valide pour se doter de la reconnaissance vocale.

Source : code.fb

Et vous ?

Qu’en pensez-vous ?
Selon vous, pourquoi Facebook cherche-t-il à développer activement une technologie de reconnaissance vocale ?

Voir aussi

Facebook souhaite enregistrer les sons autour des téléphones, en s'appuyant sur des signaux cachés émis par des pubs à la télé, pour ou contre cela ?
Facebook incarnerait-il le Big Brother dont George Orwell parlait dans son roman 1984 ? Quelques éléments de réponse
Facebook travaillerait sur la création de sa propre cryptomonnaie basée sur la blockchain pour le transfert d'argent via WhatsApp
« Zuckerberg doit démissionner » : l'indignation monte après un rapport indiquant que Facebook, a laissé des entreprises lire des messages privés