Synchronisation audio-vidéo dans une application de traduction vidéo

**Lord_Ivan_237** · 27/05/2025, 14h15

Bonjour tout le monde, je suis nouveau dans la communauté et je me permet de vous soumettre un problème que j'ai rencontré en travaillant sur un projet.

Contexte :
Je développe une application Node.js (Express) qui traduit des vidéos YouTube en convertissant l'audio original en une autre langue. Le processus fonctionne comme suit :

Extraction de l'audio de la vidéo YouTube
Transcription du texte avec Whisper API
Traduction du texte vers la langue cible avec OpenAI
Synthèse vocale du texte traduit
Fusion de l'audio traduit avec la vidéo originale via FFmpeg

Problème :

L'audio traduit et la vidéo originale ne sont pas correctement synchronisés. La durée de l'audio traduit est souvent différente de celle de la vidéo originale, ce qui cause un décalage progressif entre le son et l'image.

Détails techniques :

J'utilise FFmpeg pour la fusion avec la commande : ffmpeg -i "video.mp4" -i "audio.mp3" -c:v copy -map 0:v:0 -map 1:a:0 "output.mp4"
J'ai précédemment essayé d'ajuster automatiquement la vitesse de l'audio traduit pour correspondre à la durée de la vidéo, mais cette approche a été abandonnée
Le paramètre -shortest a été supprimé pour éviter que la vidéo ne soit tronquée

Solutions déjà tentées :

Ajustement automatique de la vitesse de l'audio (abandonné)
Modification des paramètres FFmpeg
Suppression du paramètre -shortest

Question :

Quelle serait la meilleure approche pour synchroniser l'audio traduit avec la vidéo originale sans déformer la voix ni tronquer la vidéo ? Y a-t-il des techniques FFmpeg spécifiques ou d'autres outils que je devrais considérer ?

Cordialement

**mathieu** · 27/05/2025, 15h41

si j'ai bien compris, l'audio traduit est juste une suite de phrases collées les unes après les autres. et donc ces phrases sont parfois en retard sur la vidéo et parfois en avance ?

une première étape serait qu'au moment d'extraire les phrases, il faudrait associer à chaque phrase la position dans la vidéo.
et à la fin, il faut générer un son où chaque phrase traduite sera à la même position que la phrase d'origine.

**Lord_Ivan_237** · 28/05/2025, 06h34

Envoyé par mathieu

si j'ai bien compris, l'audio traduit est juste une suite de phrases collées les unes après les autres. et donc ces phrases sont parfois en retard sur la vidéo et parfois en avance ?

une première étape serait qu'au moment d'extraire les phrases, il faudrait associer à chaque phrase la position dans la vidéo.
et à la fin, il faut générer un son où chaque phrase traduite sera à la même position que la phrase d'origine.

Oui oui c'est exactement cela, l'audio traduit est juste une suite de phrases collées les unes après les autres. D'accord merci beaucoup pour votre aide, j'essaye cette méthode et je vous reviendrai.
Merci.

**Lord_Ivan_237** · 31/05/2025, 23h06

Envoyé par mathieu

si j'ai bien compris, l'audio traduit est juste une suite de phrases collées les unes après les autres. et donc ces phrases sont parfois en retard sur la vidéo et parfois en avance ?

une première étape serait qu'au moment d'extraire les phrases, il faudrait associer à chaque phrase la position dans la vidéo.
et à la fin, il faut générer un son où chaque phrase traduite sera à la même position que la phrase d'origine.

Bonjour ou Bonsoir Mr Mathieu, comme promis je vous fait mon retour après application de votre proposition. J'ai une bonne nouvelle car cette méthode a fonctionné, le rendu final est désormais bien mieux qu'au paravent. Néanmoins il arrive souvent que l'audio se désynchronise à un moment donné de la vidéo( soit plus lent, soit plus rapide que par rapport à l'audio original ).

J'estime le rendu de synchronisation actuel à 80%. j'essaierai de l'améliorer davantage. Si vous avez d'autres suggestions et conseils je serais ravi de les écouter.

Encore une fois merci beaucoup de votre aide.

Synchronisation audio-vidéo dans une application de traduction vidéo

JavaScript

Discussions similaires

Partager

Partager