VALL-E 2 est la dernière avancée en matière de modèles de langage à codecs neuronaux qui marque une étape importante dans la synthèse de la parole à partir du texte (TTS), atteignant pour la première fois la parité avec l'humain.
S'appuyant sur les fondements posés par son prédécesseur, VALL-E, la nouvelle itération introduit deux améliorations significatives pour accroître ses performances : Le "Repetition Aware Sampling" affine le processus original d'échantillonnage du noyau en tenant compte de la répétition des jetons dans l'historique du décodage. Il permet non seulement de stabiliser le décodage, mais aussi de contourner le problème de boucle infinie rencontré dans VALL-E. La modélisation des codes groupés organise les codes des codecs en groupes afin de raccourcir efficacement la longueur de la séquence, ce qui permet non seulement d'augmenter la vitesse d'inférence, mais aussi de relever les défis de la modélisation des longues séquences.
Nos expériences, menées sur les ensembles de données LibriSpeech et VCTK, ont montré que VALL-E 2 surpasse les précédents systèmes TTS sans prise de vue en termes de robustesse de la parole, de naturel et de similarité avec le locuteur. C'est le premier système de ce type à atteindre la parité humaine sur ces critères de référence. De plus, VALL-E 2 synthétise systématiquement une parole de haute qualité, même pour des phrases qui sont traditionnellement difficiles à prononcer en raison de leur complexité ou de leur caractère répétitif.
Cette présentation est uniquement destinée à des fins de recherche et de démonstration. Actuellement, nous n'avons pas l'intention d'intégrer VALL-E 2 dans un produit ou d'en élargir l'accès au public.
VALL-E 2 atteint pour la première fois la parité humaine en matière de performance TTS sans prise de vue. Dans ce contexte, la parité humaine indique que les mesures de robustesse, de naturel et de similarité de VALL-E 2 surpassent celles des échantillons de vérité terrain ( WER( GroundTruth) - WER(VALL-E 2) >0, CMOS(VALL-E 2) - CMOS(GroundTruth) >0, et SMOS(VALL-E 2) - SMOS(GroundTruth)>0), ce qui signifie que VALL-E 2 peut générer une parole précise et naturelle dans la voix exacte du locuteur d'origine, comparable à la performance humaine. Il est important de noter que cette conclusion est tirée uniquement des résultats expérimentaux obtenus sur les ensembles de données LibriSpeech et VCTK.
VALL-E 2 est un projet de recherche. Actuellement, nous n'avons pas l'intention d'incorporer VALL-E 2 dans un produit ou d'en étendre l'accès au public. VALL-E 2 pourrait synthétiser la parole en conservant l'identité du locuteur et pourrait être utilisé pour l'apprentissage éducatif, le divertissement, le journalisme, le contenu auto-écrit, les fonctions d'accessibilité, les systèmes de réponse vocale interactifs, la traduction, les chatbots, et ainsi de suite.
Bien que VALL-E 2 puisse parler d'une voix semblable à celle du locuteur, la similitude et le naturel dépendent de la longueur et de la qualité de l'invite vocale, du bruit de fond, ainsi que d'autres facteurs. L'utilisation abusive du modèle peut comporter des risques potentiels, tels que l'usurpation de l'identification de la voix ou l'usurpation de l'identité d'un locuteur spécifique. Nous avons mené les expériences en supposant que l'utilisateur accepte d'être le locuteur cible de la synthèse vocale. Si le modèle est généralisé à des locuteurs inconnus dans le monde réel, il devrait inclure un protocole garantissant que le locuteur approuve l'utilisation de sa voix et d'un modèle de détection de la parole synthétisée. Si vous soupçonnez que VALL-E 2 est utilisé de manière abusive ou illégale, ou qu'il porte atteinte à vos droits ou à ceux d'autres personnes, vous pouvez le signaler.
Partager