IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Meta présente Movie Gen : une IA capable de créer des vidéos réalistes personnalisables à partir d’une image


Sujet :

Intelligence artificielle

  1. #1
    Expert éminent sénior

    Femme Profil pro
    Rédacteur Web
    Inscrit en
    Mars 2020
    Messages
    838
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : Cameroun

    Informations professionnelles :
    Activité : Rédacteur Web

    Informations forums :
    Inscription : Mars 2020
    Messages : 838
    Points : 58 044
    Points
    58 044
    Par défaut Meta présente Movie Gen : une IA capable de créer des vidéos réalistes personnalisables à partir d’une image
    Meta annonce Make-A-Video, qui génère de la vidéo à partir de texte,
    via une description textuelle ou d'une image existante, Make-A-Video peut rendre une vidéo à la demande

    Dall-E, le générateur texte-image préféré de tous, a un nouveau concurrent chez Meta : un générateur de vidéo en texte appelé Make-A-Video. Meta a annoncé Make-A-Video, un générateur de vidéos alimenté par l'IA, capable de créer un contenu vidéo inédit à partir de textes ou d'images, à l'instar des outils de synthèse d'images existants comme DALL-E et Stable Diffusion. Il peut également créer des variations de vidéos existantes, mais il n'est pas encore disponible pour un usage public.

    Nom : Screenshot_2022-09-30 Make-A-Video meta – Recherche Google.png
Affichages : 2444
Taille : 580,2 Ko

    Sur la page d'annonce de Make-A-Video, Meta montre des exemples de vidéos générées à partir de texte, notamment « un jeune couple marchant sous une pluie battante » et « un ours en peluche peignant un portrait ». Elle montre également la capacité de Make-A-Video à prendre une image source statique et à l'animer. Par exemple, une photo fixe d'une tortue de mer, une fois traitée par le modèle d'IA, peut sembler nager. Cet outil génère des extraits vidéo courts et silencieux à partir du même type d'invites textuelles que vous transmettez à Dall-E.

    Mais Dall-E est un jeu d'enfant comparé à Make-A-Video, du moins selon Mark Zuckerberg. Le PDG de Meta fait remarquer dans un post Facebook : « Il est beaucoup plus difficile de générer des vidéos que des photos car, en plus de générer correctement chaque pixel, le système doit également prédire comment ils vont évoluer dans le temps. Make-A-Video n'a pas ce problème car elle comprend le mouvement dans le monde physique et l'applique à la génération traditionnelle de texte en image ».

    La technologie clé de Make-A-Video, et la raison pour laquelle elle est arrivée plus tôt que certains experts ne l'avaient prévu, est qu'elle s'appuie sur des travaux existants de synthèse texte-image utilisés avec des générateurs d'images comme DALL-E d'OpenAI. En juillet, Meta a annoncé son propre modèle d'IA texte-image appelé Make-A-Scene.

    L'IA Make-A-Video de Meta, un nouvel état de l'art ?

    Nous avons déjà vu des modèles de conversion de texte en vidéo : c'est une extension naturelle des modèles de conversion de texte en image comme DALL-E, qui produit des images fixes à partir d'invites. Mais si le saut conceptuel d'une image fixe à une image animée est faible pour un esprit humain, il est loin d'être trivial à mettre en œuvre dans un modèle d'apprentissage automatique. En fait, Make-A-Video ne change pas tellement la donne au niveau du back-end, comme le notent les chercheurs dans l'article qui le décrit, « un modèle qui n'a vu que du texte décrivant des images est étonnamment efficace pour générer de courtes vidéos ».

    L'IA utilise la technique de diffusion existante et efficace pour créer des images, qui fonctionne essentiellement à rebours à partir de la statique visuelle pure, le "débruitage", vers le message cible. Ce qui est ajouté ici, c'est que le modèle a également bénéficié d'un entraînement non supervisé (c'est-à-dire qu'il a examiné les données lui-même sans recevoir de conseils précis de la part des humains) sur un ensemble de contenus vidéo non étiquetés.

    Ce qu'il sait du premier est comment créer une image réaliste ; ce qu'il sait du second est à quoi ressemblent les images séquentielles d'une vidéo. Étonnamment, il est capable d'assembler ces éléments de manière très efficace, sans formation particulière sur la manière de les combiner.

    « À tous égards, résolution spatiale et temporelle, fidélité au texte et qualité, Make-A-Video établit le nouvel état de l'art en matière de génération de texte-vidéo, tel que déterminé par des mesures qualitatives et quantitatives », écrivent les chercheurs.

    Il est difficile de ne pas être d'accord. Les systèmes de conversion texte-vidéo précédents utilisaient une approche différente et les résultats étaient peu impressionnants mais prometteurs. Aujourd'hui, Make-A-Video les surpasse en atteignant une fidélité comparable à celle des images d'il y a 18 mois dans le DALL-E original ou d'autres systèmes de la dernière génération.

    Mais il faut le dire : Il y a toujours quelque chose qui cloche. Non pas qu'il faille s'attendre à un photoréalisme ou à un mouvement parfaitement naturel, mais les résultats ont tous un peu decevant. Il y a juste une qualité affreuse qui est à la fois onirique et terrible. La qualité du mouvement est étrange, comme s'il s'agissait d'un film en stop-motion. La corruption et les artefacts donnent à chaque pièce une sensation de fourrure, surréaliste, comme si les objets fuyaient. Les gens se fondent les uns dans les autres. Il n'y a aucune compréhension des limites des objets ou de ce que quelque chose doit terminer ou contacter.

    Il n’est pas question de faire l’apologie d’une IA qui ne veut que la meilleure imagerie réaliste haute définition. Mais il est simplement fascinant qu'aussi réalistes que soient ces vidéos dans un sens, elles sont toutes si bizarres dans d'autres. Le fait qu'elles puissent être générées rapidement et arbitrairement est incroyable, et cela ne fera que s'améliorer. Mais même les meilleurs générateurs d'images ont toujours cette qualité surréaliste sur laquelle il est difficile de mettre le doigt. Make-A-Video permet également de transformer des images fixes et d'autres vidéos en variantes ou en extensions de celles-ci, de la même manière que les générateurs d'images peuvent également être sollicités avec les images elles-mêmes. Les résultats sont légèrement moins troublants.

    « En utilisant des transformations préservant les fonctions, nous étendons les couches spatiales à l'étape d'initialisation du modèle pour inclure des informations temporelles. Le réseau spatio-temporel étendu comprend de nouveaux modules d'attention qui apprennent la dynamique du monde temporel à partir d'une collection de vidéos », écrit Meta dans un livre blanc.

    Meta n'a pas fait d'annonce sur la manière ou le moment où Make-A-Video pourrait devenir disponible pour le public ou qui y aurait accès. Meta fournit un formulaire d'inscription que les gens peuvent remplir s'ils sont intéressés à l'essayer dans le futur.

    Meta reconnaît que la possibilité de créer des vidéos photoréalistes à la demande présente certains risques sociaux. Au bas de la page d'annonce, Meta indique que tout le contenu vidéo généré par l'IA de Make-A-Video contient un filigrane pour « s'assurer que les spectateurs savent que la vidéo a été générée par l'IA et n'est pas une vidéo capturée ». Si l'on se fie à l'histoire, des modèles open source de conversion de texte en vidéo pourraient suivre (certains, comme CogVideo, existent déjà), ce qui pourrait rendre la protection en filigrane de Meta sans intérêt.

    Source : Meta

    Et vous ?

    Quel est votre avis sur le sujet ?
    Que pensez-vous des générateurs d'images en général et de Make-A-Video en particulier ?
    Que pensez-vous de éventualité que ce générateur d'images soit maintenant un jour ouvert à tous ?

    Voir aussi :

    Dall-E : le générateur d'images IA développé par OpenAI est maintenant ouvert à tous, en supprimant la liste d'attente, OpenAI donne la possibilité à tout le monde pour s'inscrire et l'utiliser

    Stable Diffusion de Stability AI serait le modèle d'IA le plus important de tous les temps, contrairement à GPT-3 et DALL-E 2, il apporte des applications du monde réel ouvertes pour les utilisateur

    Dall-E 2 : le générateur d'images IA développé par OpenAI est disponible en bêta. Il peut produire une large gamme d'images à partir de quelques mots

    Un ingénieur porte plainte contre l'office US des brevets pour avoir refusé d'accorder des brevets à son IA, sous le prétexte que seules les « personnes physiques » en ont le droit

  2. #2
    Chroniqueur Actualités

    Homme Profil pro
    Administrateur de base de données
    Inscrit en
    Mars 2013
    Messages
    9 047
    Détails du profil
    Informations personnelles :
    Sexe : Homme
    Localisation : Canada

    Informations professionnelles :
    Activité : Administrateur de base de données

    Informations forums :
    Inscription : Mars 2013
    Messages : 9 047
    Points : 209 074
    Points
    209 074
    Par défaut Meta présente Movie Gen: une IA capable de créer des vidéos personnalisables et réalistes à partir d’une image
    Meta présente Movie Gen : une IA capable de créer des vidéos personnalisables et réalistes à partir d’une seule image,
    donnant l’impression que des personnes font des choses qu’elles n’ont jamais faites

    Meta, la société mère de Facebook et Instagram, a récemment dévoilé son dernier bijou technologique : Movie Gen. Cette nouvelle IA générative promet de transformer radicalement la création de vidéos en permettant de générer des vidéos réalistes à partir d’une simple photo.

    Movie Gen est une suite de modèles d’IA conçus pour créer et manipuler des vidéos, des audios et des images. L’une des fonctionnalités phares de Movie Gen est la création de vidéos personnalisables, souvent appelées deepfakes. Cette technologie permet de simuler des vidéos authentiques, donnant l’impression que des personnes font des choses qu’elles n’ont jamais faites.


    Vendredi, Meta a annoncé en avant-première Movie Gen, une nouvelle suite de modèles d'IA conçus pour créer et manipuler des vidéos, du son et des images, y compris la création d'une vidéo réaliste à partir d'une simple photo d'une personne. L'entreprise affirme que ces modèles sont plus performants que d'autres modèles de synthèse vidéo lorsqu'ils sont évalués par des humains, ce qui nous rapproche d'un avenir où n'importe qui pourra synthétiser une vidéo complète de n'importe quel sujet à la demande.

    L'entreprise ne sait pas encore quand ni comment elle mettra ces capacités à la disposition du public, mais Meta affirme que Movie Gen est un outil qui pourrait permettre aux gens « d'améliorer leur créativité inhérente » plutôt que de remplacer les artistes et les animateurs humains. La société envisage des applications futures telles que la création et l'édition aisées de vidéos « d'une journée dans la vie » pour les plateformes de médias sociaux ou la génération de vœux d'anniversaire animés personnalisés.

    Movie Gen s'appuie sur les travaux antérieurs de Meta en matière de synthèse vidéo, après le générateur vidéo Make-A-Scene de 2022 et le modèle de synthèse d'images Emu. À l'aide d'invites textuelles, ce dernier système peut pour la première fois générer des vidéos personnalisées avec des sons, éditer et insérer des modifications dans des vidéos existantes, et transformer des images de personnes en vidéos personnalisées réalistes.


    Comment fonctionne Movie Gen ?

    Movie Gen peut produire une vidéo à partir d'une requête (prompt) écrite, mais aussi sur la base d'une simple photo. Par exemple, à partir d’une seule photo, l’IA peut créer une vidéo en haute définition (1080p) de 16 secondes à 16 images par seconde. Elle est capable de gérer des concepts complexes tels que le mouvement des objets, les interactions sujet-objet et les mouvements de caméra. L'outil offre aussi une fonctionnalité d'édition d'une vidéo existante. Le modèle propose également d'ajouter une bande-son à la vidéo, sur le même principe de demande en langage courant.

    Outre des vidéos de démonstration, le groupe a publié vendredi un papier de recherche décrivant son modèle. Les modèles de langage sont des logiciels appuyés sur d'immenses bases de données, qui leur permettent de générer du contenu, texte, image, vidéo, son ou code informatique en réponse à une demande formulée en langage courant.

    Nom : video.png
Affichages : 5151
Taille : 457,6 Ko

    Une concurrence féroce

    Meta n'est pas le premier acteur de l'IA à mettre au point un modèle de génération de vidéo.

    Runway aurait formé son outil d'IA de génération de vidéo à partir de milliers de vidéos YouTube sans autorisation

    Runway, de la start-up Runway AI, permet, à partir d'une demande écrite, de créer un plan de quelques secondes, de transformer une série d'images fixes en courte vidéo, ou de remodeler une séquence existante pour transformer, par exemple, une photo en un tableau.

    Runway est une entreprise spécialisée dans l'IA qui a reçu des millions de dollars de financement de la part d'Alphabet, la société mère de Google, et de Nvidia, le principal fournisseur de puces destinées à la formation de l'IA.

    Lorsque le cofondateur de Runway, Anastasis Germanidis, a été interrogé en juin sur l'origine des données de formations de Gen-3, il n'a pas donné une réponse claire. « Nous avons une équipe de recherche interne qui supervise toutes nos formations et nous utilisons des ensembles de données internes pour former nos modèles », a déclaré Germanidis. Mais une feuille de calcul interne ayant fait l'objet de fuite a révélé que Runway a utilisé illégalement des milliers de vidéos YouTube pour l'occasion. En outre, le rapport ajoute que l'ensemble de données de formation de Gen-3 (lancé en juin) comprend également des versions de films piratés.


    Sora d'OpenAI est capable de créer une vidéo avec des scènes réalistes et imaginatives à partir d'instructions textuelles

    En février, OpenAI a également lancé sa version, baptisée Sora. Selon ses déclarations, Sora génère des vidéos avec un réalisme inédit et des détails précis. « Sora est capable de créer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques et des détails précis sur le sujet et l'arrière-plan. Le modèle peut comprendre comment les objets existent dans le monde physique, ainsi qu'interpréter avec précision les accessoires et générer des personnages convaincants qui expriment des émotions vibrantes ». OpenAI a déclaré que pour l'instant, Sora ne peut générer que des séquences vidéo qui durent au plus une minute.

    Google travaille sur Lumiere, son IA qui génère des vidéos réalistes

    En janvier, Google a dévoilé les capacités de son IA Lumiere dans une vidéo publiée sur YouTube ainsi que sur un site présentant ce projet de recherche. On y voit des animations créées de toutes pièces, ainsi que l’illustration du concept consistant à générer plusieurs vidéos à partir du style d’une image de référence. La firme de Mountain View explique que cette nouvelle intelligence artificielle repose sur un mécanisme inédit chargé de traiter les échelles spatio-temporelles, offrant des rendus aux mouvements réalistes pour l'œil humain.

    La technologie de Google repose sur un modèle d’IA baptisée Space-Time-U-Net (STUNet) pouvant comprendre où se situent les éléments d’une vidéo et comment ceux-ci se déplacent et changent. Elle peut donc générer une première image avant de créer des mouvements en se basant sur les lieux approximatifs où se dirigent les éléments.


    Toutefois, Meta affirme que Movie Gen « est supérieur à des modèles similaires de l'industrie lorsque sa production est évaluée par des humains ».

    La nouvelle avant-garde des deepfakes vidéo

    Meta appelle l'une des principales caractéristiques de Movie Gen « création vidéo personnalisée », mais il y a un autre nom pour cela qui existe depuis 2017 : deepfakes. La technologie des deepfakes a suscité l'inquiétude de certains experts car elle pourrait être utilisée pour simuler des séquences de caméra authentiques, faisant apparaître des personnes comme ayant fait des choses qu'elles n'ont pas réellement faites.

    Nom : photo.png
Affichages : 923
Taille : 541,9 Ko
    Une vidéo deepfake de Movie Gen avec l'invitation : « Réalise une jolie vidéo selfie d'un homme et de son chien. L'homme porte une chemise noire. Le chien est un chiot beagle. L'arrière-plan est un patio, rempli d'arbres. L'homme a un grand sourire, alors qu'il essaie de prendre le selfie parfait avec son chien. L'éclairage est chaud. La photo source originale se trouve dans le coin supérieur droit. La vidéo de rendu est disponible plus bas

    Dans ce cas, la création d'un deepfake avec Movie Gen semble aussi simple que de fournir une seule image d'entrée d'une personne, accompagnée d'un texte décrivant ce que vous voulez qu'elle fasse ou l'endroit où vous voulez qu'elle se trouve dans la vidéo résultante. Le système génère ensuite une vidéo mettant en scène cette personne, en s'efforçant de préserver son identité et ses mouvements tout en incorporant les détails de l'invite.

    Cette technologie pourrait être utilisée de multiples façons, notamment pour créer des vidéos humiliantes, mettre des personnes dans de fausses situations compromettantes, fabriquer un contexte historique ou générer de la pornographie vidéo truquée. Elle nous rapproche d'une singularité culturelle où la vérité et la fiction dans les médias sont impossibles à distinguer sans un contexte plus approfondi, grâce à la synthèse fluide et éventuellement en temps réel des médias par l'IA.

    En avril, Microsoft a présenté un modèle appelé VASA-1 capable de créer une vidéo photoréaliste d'une personne parlant à partir d'une seule photo et d'une seule piste audio, mais Movie Gen va plus loin en plaçant une personne simulée dans une scène vidéo, générée par l'IA ou autre. Movie Gen ne semble toutefois pas encore pouvoir générer ou synchroniser la parole.


    Montage et synthèse sonore

    Meta a également présenté un composant d'édition vidéo de Movie Gen, qui permet d'apporter des modifications précises à des vidéos existantes sur la base d'instructions textuelles. Il peut effectuer des modifications localisées telles que l'ajout ou la suppression d'éléments, ainsi que des changements globaux tels que la modification de l'arrière-plan ou du style général.

    Par ailleurs, Meta apporte la synthèse sonore à la vidéo IA grâce à un modèle de génération audio distinct capable de produire des sons ambiants, des effets sonores et une musique de fond instrumentale synchronisée avec le contenu vidéo à partir d'invites textuelles. L'entreprise affirme que ce modèle peut générer du son pour des vidéos de n'importe quelle longueur, en conservant un son cohérent tout au long de la vidéo.

    Conclusion

    Malgré ces avancées, Meta reconnaît que les modèles actuels ont des limites. L'entreprise prévoit d'accélérer le temps de génération des vidéos et d'améliorer la qualité globale en augmentant encore l'échelle des modèles. Vous pouvez en savoir plus sur le fonctionnement des modèles Movie Gen dans un document de recherche que Meta a également publié.

    Meta prévoit également de collaborer avec les cinéastes et les créateurs afin d'intégrer leurs commentaires dans les futures versions du modèle. Cependant, après les avertissements du syndicat d'acteurs SAG-AFTRA l'année dernière et les réactions divergentes de certains professionnels de l'industrie à l'égard de la synthèse vidéo, nous pouvons imaginer que ces réactions ne seront pas toutes positives.

    Sources : Meta (1, 2), Google, les dangers des Deepfake, l'IA menace de réécrire l'histoire, voici comment la protéger

    Et vous ?

    Comment pensez-vous que Movie Gen pourrait transformer l’industrie du cinéma et de la télévision ? Les deepfakes pourraient-ils remplacer les acteurs humains dans certains rôles ?
    Quelles mesures de réglementation devraient être mises en place pour encadrer l’utilisation des deepfakes ?
    Pensez-vous que les entreprises technologiques comme Meta ont une responsabilité particulière dans la prévention des abus de cette technologie ?
    Comment Movie Gen pourrait-il être utilisé de manière créative dans des domaines autres que le divertissement, comme l’éducation ou la publicité ?
    Voyez-vous des opportunités pour les artistes et les créateurs de contenu d’utiliser cette technologie pour repousser les limites de leur art ?
    Quels sont les risques potentiels pour la vie privée avec la prolifération des deepfakes ? Comment les utilisateurs peuvent-ils se protéger contre les deepfakes malveillants ?
    Comment pouvons-nous développer des outils pour vérifier l’authenticité des vidéos à l’ère des deepfakes ? Pensez-vous que la confiance du public dans les médias visuels pourrait être affectée par cette technologie ?

    Voir aussi :

    Meta confirme qu'il entraîne son IA sur les images et vidéos analysées par l'IA de vos lunettes intelligentes Ray-Ban en plus de vos données privées sur Instagram et Facebook.
    Contribuez au club : Corrections, suggestions, critiques, ... : Contactez le service news et Rédigez des actualités

Discussions similaires

  1. Réponses: 0
    Dernier message: 03/07/2024, 14h33
  2. Créer une classe capable de gérer des nombres rationnels
    Par xmika60x dans le forum Débuter avec Java
    Réponses: 7
    Dernier message: 24/01/2013, 18h52
  3. retrouver le type d'une meta donnee lors d'une reflexion
    Par pcouas dans le forum API standards et tierces
    Réponses: 3
    Dernier message: 18/11/2008, 10h36
  4. Changer les META d'une image
    Par Malabouffe dans le forum C#
    Réponses: 6
    Dernier message: 25/08/2007, 09h08
  5. Réponses: 1
    Dernier message: 05/06/2007, 13h04

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo