L'IA de Google est capable de traduire ce que vous dites tout en conservant les caractéristiques de votre voix

**Stéphane le calme** · 21/05/2019, 16h05

L'IA de Google est capable de traduire ce que vous dites tout en conservant les caractéristiques de votre voix,
Translatotron en est encore au stade expérimental

Des systèmes de traduction de parole à parole ont été développés au cours des dernières décennies dans le but d'aider les personnes qui parlent des langues différentes à communiquer les unes avec les autres. De tels systèmes ont généralement été divisés en trois composants distincts: reconnaissance automatique de la parole pour transcrire le discours source en texte, traduction automatique pour traduire le texte transcrit dans la langue cible et synthèse par synthèse vocale (TTS) pour générer de la parole dans la cible. langue du texte traduit.

Diviser la tâche en une telle cascade de systèmes a été un grand succès, alimentant de nombreux produits de traduction vocale commerciaux, y compris Google Translate. Mais Google voudrait aller plus loin. Dans un projet de recherche, l’entreprise a annoncé son objectif : traduire directement la parole d’une langue en parole dans une autre langue, sans recourir à une représentation textuelle intermédiaire. Si l’entreprise y arrivait, cela rendrait la traduction de parole à parole plus rapide, permettrait d’éviter les erreurs entraînées par toutes ces étapes (comme dans le jeu du « téléphone », un mot peut vite être modifié au cours de transcriptions successives) et, plus important peut-être, permettrait de refléter plus facilement la voix source.

À cette fin, les chercheurs ont commencé à réfléchir sur des moyens de convertir les spectrogrammes (en quelques sortes une image qui contient les fréquences de ce signal audio) de paroles dans une langue donnée en spectrogrammes dans une autre. Ce processus est très différent du processus en trois étapes et a ses propres faiblesses, mais il a aussi des avantages.

Nom : 5cdbccfc04e42.jpg
Affichages : 2882
Taille : 26,0 Ko

Premièrement, bien que complexe, il s’agit essentiellement d’un processus en une étape plutôt que de plusieurs étapes. En d’autres termes, si vous disposez d’une puissance de traitement suffisante, le système pourrait fonctionner plus rapidement. Mais plus important encore, pour beaucoup, le processus permet de conserver la voix source. La traduction ne sort donc pas de manière robotique, mais avec le ton et la cadence de la phrase originale.

Naturellement, cela a un impact énorme sur l'expression, et quelqu'un qui s'appuie régulièrement sur la traduction ou la synthèse vocale comprendra que non seulement ce qu'il dit est reflété, mais également de la façon dont il le dit.

Arrive alors Translatotron

Translatotron, comme l’appelle le projet, est l’aboutissement de plusieurs années de travaux connexes, bien qu’il s’agisse toujours d’une expérience. Les chercheurs de Google et d’autres chercheurs étudient la possibilité d’une traduction directe de parole à parole depuis des années, mais ce n’est que récemment que ces efforts ont porté leurs fruits.

Google avance que « Dans “Traduction directe parole à parole avec un modèle séquence à séquence”, nous proposons un nouveau système expérimental basé sur un seul modèle attentif séquence à séquence pour la traduction directe parole à parole sans faire appel à des intermédiaires de représentation textuelle. Surnommé Translatotron, ce système évite de diviser la tâche en étapes séparées, offrant quelques avantages par rapport aux systèmes en cascade, notamment une vitesse de déduction plus rapide, évitant naturellement les erreurs de combinaison entre la reconnaissance et la traduction, facilitant la conservation de la voix du locuteur d'origine après la traduction, et offrant un meilleur traitement des mots qui n'ont pas besoin d'être traduits (par exemple, noms et noms propres) ».

Et Google d’indiquer que « Translatotron est basé sur un réseau séquence à séquence qui prend en entrée les spectrogrammes source et génère des spectrogrammes du contenu traduit dans la langue cible. Il utilise également deux autres composants entraînés séparément: un vocodeur neuronal convertissant les spectrogrammes de sortie en formes d'onde dans le domaine temporel et, éventuellement, un encodeur pouvant être utilisé pour conserver le caractère de la voix du locuteur source dans la parole traduite synthétisée. Au cours de la formation, le modèle séquence à séquence utilise un objectif multitâche pour prédire les transcriptions source et cible en même temps que la génération de spectrogrammes cible. Cependant, aucune transcription ou autre représentation textuelle intermédiaire n'est utilisée lors de l'inférence ».

Préserver les caractéristiques vocales

Google avance qu’en intégrant un réseau d’encodeurs, Translatotron est également capable de conserver les caractéristiques vocales de la source dans le discours traduit, ce qui rend le discours traduit plus naturel. Cette fonctionnalité s'appuie sur les recherches précédentes de Google sur l’analyse de la source vocale et son adaptation pour TTS. Le réseau d’encodeurs est pré-entraîné sur la tâche d’analyse de la source, ce qui lui permet d'apprendre à coder les caractéristiques de la source à partir d'un court exemple d'énoncé. Conditionner le décodeur de spectrogramme sur ce codage permet de synthétiser une parole ayant des caractéristiques similaires, même si le contenu est dans une langue différente.

Nom : encode.png
Affichages : 2261
Taille : 69,9 Ko

Performance

« Nous avons validé la qualité de la traduction de Translatotron en mesurant le score BLEU, calculé avec du texte transcrit par un système de reconnaissance vocale. Bien que nos résultats soient à la traîne par rapport à un système en cascade classique, nous avons démontré la faisabilité de la traduction vocale directe de bout en bout ».

Les premières démonstrations de cette technologie ont étés faites en espagnol. Google a utilisé deux bases de données où sont traduites des phrases de l’espagnol vers l’anglais. Vous pouvez écouter une vingtaine de phrases, traduites depuis cette langue vers l’anglais avec le Translatotron. Le résultat n’est pas encore parfait.

Les chercheurs admettent que la précision de la traduction n’est pas aussi bonne que celle des systèmes traditionnels, qui ont eu plus de temps pour affiner leur précision. Mais beaucoup de traductions résultantes sont (au moins partiellement) assez bonnes, et pouvoir inclure une expression est un trop grand avantage pour le laisser passer. En fin de compte, l’équipe décrit modestement son travail comme un point de départ démontrant la faisabilité de l’approche.

Le document décrivant la nouvelle technique a été publié sur Arxiv, et vous pouvez parcourir des exemples audio, avec la source, la traduction traditionnelle et la traduction avec Translatotron. Il faut garder à l’esprit que ces extraits audio n’ont pas été tous sélectionnés pour la qualité de leur traduction, mais servent plutôt d'exemples de la façon dont le système conserve l'expression tout en obtenant l'essentiel du sens.

Échantillon audio

Traduction directe parole à parole avec un modèle séquence à séquence

Source : Google

Et vous ?

Êtes-vous satisfait des outils actuels de traduction de voix à voix ? Lesquels utilisez-vous ?

Que pensez-vous de cette nouvelle approche ?

**Matthieu Vergne** · 26/05/2019, 12h11

Je n'ai pas lu les sources, le travail restant visiblement très préliminaire.

BLEU étant basé sur du textuel, il manque l'évaluation du ton. Or, le ton est lui aussi souvent dépendant de la langue, certains mots nécessitant un ton particulier pour être compris correctement. Il ne suffit donc pas de reproduire le ton employé par le locuteur, il faut lui aussi le faire passer par un processus de traduction. Je ne doute pas que si ce n'est pas fait (ou très préliminaire), celui puisse être fait par la suite.

Un problème en revanche plus difficile est la longueur. Pour des langues très proches, comme l'anglais et l'espagnol ici, la grammaire et le vocabulaire se ressemblent beaucoup, les phrases sont donc très similaires et il s'agit pour beaucoup de changer des bouts de mots, ce qui rend l'idée de remplacer les phonèmes pertinente. En revanche, le japonais est très différent : non seulement le vocabulaire est complètement différent, avec des mots plus ou moins courts, mais la grammaire impose de placer les mots différemment, et certains éléments de la phrase sont explicite chez l'un mais implicite chez l'autre, et inversement. Je suis curieux de voir comment ils prendront ce challenge. C'est déjà le cas en textuel, donc je ne doute pas qu'ils auront de quoi s'inspirer. À voir si les solutions en textuel sont applicables à l'audio.

L'IA de Google est capable de traduire ce que vous dites tout en conservant les caractéristiques de votre voix

Intelligence artificielle

Discussions similaires

Partager

Partager