IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Alibaba présente MIMO, un nouveau cadre qui permet de synthétiser des vidéos


Sujet :

Intelligence artificielle

  1. #1
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    2 243
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 2 243
    Par défaut Alibaba présente MIMO, un nouveau cadre qui permet de synthétiser des vidéos
    Alibaba présente la révolution MIMO : La synthèse vidéo de personnages contrôlables à l'aide de la modélisation spatiale décomposée vise à produire des vidéos réalistes de personnages animables.

    Alibaba présente MIMO, un nouveau cadre qui permet de synthétiser des vidéos de personnages avec des attributs contrôlables. À l'aide de la modélisation spatiale décomposée, MIMO vise à produire des vidéos réalistes de personnages animables dans des scènes réalistes.

    La synthèse vidéo de personnages vise à produire des vidéos réalistes de personnages animables dans des scènes réalistes. En tant que problème fondamental dans la communauté de la vision par ordinateur et du graphisme, les travaux 3D nécessitent généralement des captures multi-vues pour l'apprentissage au cas par cas, ce qui limite considérablement leur applicabilité à la modélisation de personnages arbitraires en un court laps de temps. Les méthodes récentes en 2D surmontent cette limitation grâce à des modèles de diffusion pré-entraînés, mais elles peinent à assurer la généralité de la pose et l'interaction avec la scène.

    À cette fin, des chercheurs d'Alibaba proposent MIMO, un nouveau cadre qui peut non seulement synthétiser des vidéos de personnages avec des attributs contrôlables (c'est-à-dire le personnage, le mouvement et la scène) fournis par de simples entrées utilisateur, mais aussi atteindre simultanément une évolutivité avancée pour des personnages arbitraires, une généralité pour de nouveaux mouvements 3D et une applicabilité à des scènes interactives du monde réel dans un cadre unifié. L'idée de base est d'encoder la vidéo 2D en codes spatiaux compacts, en tenant compte de la nature 3D inhérente à l'occurrence vidéo.

    Concrètement, ils transforment les pixels des images 2D en 3D à l'aide d'estimateurs de profondeur monoculaires et décomposent le clip vidéo en trois composants spatiaux (c'est-à-dire l'homme principal, la scène sous-jacente et l'occlusion flottante) dans des couches hiérarchiques basées sur la profondeur 3D. Ces composantes sont ensuite codées en code d'identité canonique, en code de mouvement structuré et en code de scène complète, qui sont utilisés comme signaux de contrôle du processus de synthèse.

    La conception de la modélisation décomposée dans l'espace permet un contrôle flexible de l'utilisateur, l'expression de mouvements complexes, ainsi qu'une synthèse consciente de la 3D pour les interactions avec la scène. Les résultats expérimentaux démontrent l'efficacité et la robustesse de la méthode proposée.

    Nom : 1.jpg
Affichages : 5320
Taille : 76,2 Ko

    Les chercheurs commentent :

    Dans cet article, nous avons présenté MIMO, un nouveau cadre pour la synthèse vidéo de personnages contrôlables, qui permet un contrôle flexible de l'utilisateur avec des entrées d'attributs simples. Notre méthode introduit une nouvelle architecture générative qui décompose le clip vidéo en diverses composantes spatiales et intègre leurs codes latents comme condition du décodeur pour reconstruire le clip vidéo.

    Les résultats expérimentaux ont démontré que notre méthode permet non seulement un contrôle flexible du personnage, du mouvement et de la scène, mais aussi une évolutivité avancée pour des personnages arbitraires, une généralité pour de nouveaux mouvements 3D et une applicabilité à des scènes interactives. Nous pensons également que notre solution, qui tient compte de la nature 3D inhérente et encode automatiquement la vidéo 2D en composantes spatiales hiérarchiques, pourrait inspirer de futures recherches sur la synthèse vidéo tenant compte de la 3D. En outre, notre cadre n'est pas seulement adapté à la génération de vidéos de personnages, mais peut également être adapté à d'autres tâches de synthèse vidéo contrôlables.


    Source : "MIMO: Controllable Character Video Synthesis with Spatial Decomposed Modeling"

    Et vous ?

    Que pensez-vous de ce produit ?

    Voir aussi :

    Meta lance une nouvelle IA génératrice de texte en 3D capable de construire des modèles 3D pouvant être utilisés pour la modélisation et le rendu d'applications dans le monde réel

    Stability AI lance Stable Fast 3D : une nouvelle IA générative d'images 3D 1200 fois plus rapide qui peut créer des images 3D à partir d'une seule image d'entrée en seulement une demi-seconde

    Kling, un nouvelle modèle d'IA chinois de création de vidéos, fait l'objet de comparaisons avec Sora d'OpenAI et vient allonger la liste d'outils d'IA susceptibles de bouleverser la filière du cinéma
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  2. #2
    Membre du Club Avatar de MechaAlex
    Homme Profil pro
    Développeur de jeux vidéo
    Inscrit en
    Octobre 2024
    Messages
    10
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Âge : 32
    Localisation : Chypre

    Informations professionnelles :
    Activité : Développeur de jeux vidéo
    Secteur : High Tech - Multimédia et Internet

    Informations forums :
    Inscription : Octobre 2024
    Messages : 10
    Par défaut
    Cela ressemble à quelque chose qui pourrait inaugurer une nouvelle ère de deepfakes... Un peu effrayant

Discussions similaires

  1. Module qui permet de faire des régression linéaire ?
    Par Anti-T dans le forum Calcul scientifique
    Réponses: 3
    Dernier message: 04/09/2009, 13h28
  2. Réponses: 4
    Dernier message: 22/02/2008, 15h34
  3. Réponses: 2
    Dernier message: 19/12/2007, 14h10
  4. [Icon] Librairie qui permet de faire des interfaces graphiques
    Par kespy13 dans le forum Autres langages
    Réponses: 1
    Dernier message: 25/10/2007, 18h25

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo