Meta annonce Make-A-Video, qui génère de la vidéo à partir de texte,
via une description textuelle ou d'une image existante, Make-A-Video peut rendre une vidéo à la demande
Dall-E, le générateur texte-image préféré de tous, a un nouveau concurrent chez Meta : un générateur de vidéo en texte appelé Make-A-Video. Meta a annoncé Make-A-Video, un générateur de vidéos alimenté par l'IA, capable de créer un contenu vidéo inédit à partir de textes ou d'images, à l'instar des outils de synthèse d'images existants comme DALL-E et Stable Diffusion. Il peut également créer des variations de vidéos existantes, mais il n'est pas encore disponible pour un usage public.
Sur la page d'annonce de Make-A-Video, Meta montre des exemples de vidéos générées à partir de texte, notamment « un jeune couple marchant sous une pluie battante » et « un ours en peluche peignant un portrait ». Elle montre également la capacité de Make-A-Video à prendre une image source statique et à l'animer. Par exemple, une photo fixe d'une tortue de mer, une fois traitée par le modèle d'IA, peut sembler nager. Cet outil génère des extraits vidéo courts et silencieux à partir du même type d'invites textuelles que vous transmettez à Dall-E.
Mais Dall-E est un jeu d'enfant comparé à Make-A-Video, du moins selon Mark Zuckerberg. Le PDG de Meta fait remarquer dans un post Facebook : « Il est beaucoup plus difficile de générer des vidéos que des photos car, en plus de générer correctement chaque pixel, le système doit également prédire comment ils vont évoluer dans le temps. Make-A-Video n'a pas ce problème car elle comprend le mouvement dans le monde physique et l'applique à la génération traditionnelle de texte en image ».
La technologie clé de Make-A-Video, et la raison pour laquelle elle est arrivée plus tôt que certains experts ne l'avaient prévu, est qu'elle s'appuie sur des travaux existants de synthèse texte-image utilisés avec des générateurs d'images comme DALL-E d'OpenAI. En juillet, Meta a annoncé son propre modèle d'IA texte-image appelé Make-A-Scene.
L'IA Make-A-Video de Meta, un nouvel état de l'art ?
Nous avons déjà vu des modèles de conversion de texte en vidéo : c'est une extension naturelle des modèles de conversion de texte en image comme DALL-E, qui produit des images fixes à partir d'invites. Mais si le saut conceptuel d'une image fixe à une image animée est faible pour un esprit humain, il est loin d'être trivial à mettre en œuvre dans un modèle d'apprentissage automatique. En fait, Make-A-Video ne change pas tellement la donne au niveau du back-end, comme le notent les chercheurs dans l'article qui le décrit, « un modèle qui n'a vu que du texte décrivant des images est étonnamment efficace pour générer de courtes vidéos ».
L'IA utilise la technique de diffusion existante et efficace pour créer des images, qui fonctionne essentiellement à rebours à partir de la statique visuelle pure, le "débruitage", vers le message cible. Ce qui est ajouté ici, c'est que le modèle a également bénéficié d'un entraînement non supervisé (c'est-à-dire qu'il a examiné les données lui-même sans recevoir de conseils précis de la part des humains) sur un ensemble de contenus vidéo non étiquetés.
Ce qu'il sait du premier est comment créer une image réaliste ; ce qu'il sait du second est à quoi ressemblent les images séquentielles d'une vidéo. Étonnamment, il est capable d'assembler ces éléments de manière très efficace, sans formation particulière sur la manière de les combiner.
« À tous égards, résolution spatiale et temporelle, fidélité au texte et qualité, Make-A-Video établit le nouvel état de l'art en matière de génération de texte-vidéo, tel que déterminé par des mesures qualitatives et quantitatives », écrivent les chercheurs.
Il est difficile de ne pas être d'accord. Les systèmes de conversion texte-vidéo précédents utilisaient une approche différente et les résultats étaient peu impressionnants mais prometteurs. Aujourd'hui, Make-A-Video les surpasse en atteignant une fidélité comparable à celle des images d'il y a 18 mois dans le DALL-E original ou d'autres systèmes de la dernière génération.
Mais il faut le dire : Il y a toujours quelque chose qui cloche. Non pas qu'il faille s'attendre à un photoréalisme ou à un mouvement parfaitement naturel, mais les résultats ont tous un peu decevant. Il y a juste une qualité affreuse qui est à la fois onirique et terrible. La qualité du mouvement est étrange, comme s'il s'agissait d'un film en stop-motion. La corruption et les artefacts donnent à chaque pièce une sensation de fourrure, surréaliste, comme si les objets fuyaient. Les gens se fondent les uns dans les autres. Il n'y a aucune compréhension des limites des objets ou de ce que quelque chose doit terminer ou contacter.
Il n’est pas question de faire l’apologie d’une IA qui ne veut que la meilleure imagerie réaliste haute définition. Mais il est simplement fascinant qu'aussi réalistes que soient ces vidéos dans un sens, elles sont toutes si bizarres dans d'autres. Le fait qu'elles puissent être générées rapidement et arbitrairement est incroyable, et cela ne fera que s'améliorer. Mais même les meilleurs générateurs d'images ont toujours cette qualité surréaliste sur laquelle il est difficile de mettre le doigt. Make-A-Video permet également de transformer des images fixes et d'autres vidéos en variantes ou en extensions de celles-ci, de la même manière que les générateurs d'images peuvent également être sollicités avec les images elles-mêmes. Les résultats sont légèrement moins troublants.
« En utilisant des transformations préservant les fonctions, nous étendons les couches spatiales à l'étape d'initialisation du modèle pour inclure des informations temporelles. Le réseau spatio-temporel étendu comprend de nouveaux modules d'attention qui apprennent la dynamique du monde temporel à partir d'une collection de vidéos », écrit Meta dans un livre blanc.
Meta n'a pas fait d'annonce sur la manière ou le moment où Make-A-Video pourrait devenir disponible pour le public ou qui y aurait accès. Meta fournit un formulaire d'inscription que les gens peuvent remplir s'ils sont intéressés à l'essayer dans le futur.
Meta reconnaît que la possibilité de créer des vidéos photoréalistes à la demande présente certains risques sociaux. Au bas de la page d'annonce, Meta indique que tout le contenu vidéo généré par l'IA de Make-A-Video contient un filigrane pour « s'assurer que les spectateurs savent que la vidéo a été générée par l'IA et n'est pas une vidéo capturée ». Si l'on se fie à l'histoire, des modèles open source de conversion de texte en vidéo pourraient suivre (certains, comme CogVideo, existent déjà), ce qui pourrait rendre la protection en filigrane de Meta sans intérêt.
Source : Meta
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous des générateurs d'images en général et de Make-A-Video en particulier ?
Que pensez-vous de éventualité que ce générateur d'images soit maintenant un jour ouvert à tous ?
Voir aussi :
Dall-E : le générateur d'images IA développé par OpenAI est maintenant ouvert à tous, en supprimant la liste d'attente, OpenAI donne la possibilité à tout le monde pour s'inscrire et l'utiliser
Stable Diffusion de Stability AI serait le modèle d'IA le plus important de tous les temps, contrairement à GPT-3 et DALL-E 2, il apporte des applications du monde réel ouvertes pour les utilisateur
Dall-E 2 : le générateur d'images IA développé par OpenAI est disponible en bêta. Il peut produire une large gamme d'images à partir de quelques mots
Un ingénieur porte plainte contre l'office US des brevets pour avoir refusé d'accorder des brevets à son IA, sous le prétexte que seules les « personnes physiques » en ont le droit
Partager