Alibaba présente la révolution MIMO : La synthèse vidéo de personnages contrôlables à l'aide de la modélisation spatiale décomposée vise à produire des vidéos réalistes de personnages animables.

Alibaba présente MIMO, un nouveau cadre qui permet de synthétiser des vidéos de personnages avec des attributs contrôlables. À l'aide de la modélisation spatiale décomposée, MIMO vise à produire des vidéos réalistes de personnages animables dans des scènes réalistes.

La synthèse vidéo de personnages vise à produire des vidéos réalistes de personnages animables dans des scènes réalistes. En tant que problème fondamental dans la communauté de la vision par ordinateur et du graphisme, les travaux 3D nécessitent généralement des captures multi-vues pour l'apprentissage au cas par cas, ce qui limite considérablement leur applicabilité à la modélisation de personnages arbitraires en un court laps de temps. Les méthodes récentes en 2D surmontent cette limitation grâce à des modèles de diffusion pré-entraînés, mais elles peinent à assurer la généralité de la pose et l'interaction avec la scène.

À cette fin, des chercheurs d'Alibaba proposent MIMO, un nouveau cadre qui peut non seulement synthétiser des vidéos de personnages avec des attributs contrôlables (c'est-à-dire le personnage, le mouvement et la scène) fournis par de simples entrées utilisateur, mais aussi atteindre simultanément une évolutivité avancée pour des personnages arbitraires, une généralité pour de nouveaux mouvements 3D et une applicabilité à des scènes interactives du monde réel dans un cadre unifié. L'idée de base est d'encoder la vidéo 2D en codes spatiaux compacts, en tenant compte de la nature 3D inhérente à l'occurrence vidéo.

Concrètement, ils transforment les pixels des images 2D en 3D à l'aide d'estimateurs de profondeur monoculaires et décomposent le clip vidéo en trois composants spatiaux (c'est-à-dire l'homme principal, la scène sous-jacente et l'occlusion flottante) dans des couches hiérarchiques basées sur la profondeur 3D. Ces composantes sont ensuite codées en code d'identité canonique, en code de mouvement structuré et en code de scène complète, qui sont utilisés comme signaux de contrôle du processus de synthèse.

La conception de la modélisation décomposée dans l'espace permet un contrôle flexible de l'utilisateur, l'expression de mouvements complexes, ainsi qu'une synthèse consciente de la 3D pour les interactions avec la scène. Les résultats expérimentaux démontrent l'efficacité et la robustesse de la méthode proposée.

Nom : 1.jpg
Affichages : 3869
Taille : 76,2 Ko

Les chercheurs commentent :

Dans cet article, nous avons présenté MIMO, un nouveau cadre pour la synthèse vidéo de personnages contrôlables, qui permet un contrôle flexible de l'utilisateur avec des entrées d'attributs simples. Notre méthode introduit une nouvelle architecture générative qui décompose le clip vidéo en diverses composantes spatiales et intègre leurs codes latents comme condition du décodeur pour reconstruire le clip vidéo.

Les résultats expérimentaux ont démontré que notre méthode permet non seulement un contrôle flexible du personnage, du mouvement et de la scène, mais aussi une évolutivité avancée pour des personnages arbitraires, une généralité pour de nouveaux mouvements 3D et une applicabilité à des scènes interactives. Nous pensons également que notre solution, qui tient compte de la nature 3D inhérente et encode automatiquement la vidéo 2D en composantes spatiales hiérarchiques, pourrait inspirer de futures recherches sur la synthèse vidéo tenant compte de la 3D. En outre, notre cadre n'est pas seulement adapté à la génération de vidéos de personnages, mais peut également être adapté à d'autres tâches de synthèse vidéo contrôlables.


Source : "MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling"

Et vous ?

Que pensez-vous de ce produit ?

Voir aussi :

Meta lance une nouvelle IA génératrice de texte en 3D capable de construire des modèles 3D pouvant être utilisés pour la modélisation et le rendu d'applications dans le monde réel

Stability AI lance Stable Fast 3D : une nouvelle IA générative d'images 3D 1200 fois plus rapide qui peut créer des images 3D à partir d'une seule image d'entrée en seulement une demi-seconde

Kling, un nouvelle modèle d'IA chinois de création de vidéos, fait l'objet de comparaisons avec Sora d'OpenAI et vient allonger la liste d'outils d'IA susceptibles de bouleverser la filière du cinéma