Les vidéos générées par le nouveau modèle d'IA VASA-1 de Microsoft suscitent de vives réactions sur la toile

**Jade Emy** · 19/04/2024, 18h05

VASA-1, le nouvel animateur IA de Microsoft, peut simuler une personne avec une photo et une piste audio, il peut faire dire n'importe quoi à n'importe qui, mais n'est pas disponible, car trop dangereux.

Microsoft vient de présenter un nouveau modèle d'IA VASA 1, un cadre conçu pour générer des visages parlants réalistes pour des personnages virtuels. Avec une simple image statique et un clip audio, l'entreprise affirme que son modèle VASA-1 peut créer de courtes vidéos réalistes. Le modèle offre également plusieurs options pour apporter des modifications à la vidéo.

Microsoft a révélé son nouveau modèle d'IA capable de synchroniser les mouvements des lèvres avec l'audio et de capturer un large éventail de nuances faciales et de mouvements naturels de la tête. Le modèle VASA 1 serait capable de fournir un contenu de haute qualité vidéo avec des dynamiques faciales et de tête réalistes. Le modèle prend en charge la génération en ligne de vidéos de 512 x 512 à une vitesse maximale de 40 images par seconde, avec une latence initiale négligeable.

Il est capable de créer des vidéos d'une durée maximale d'une minute. Le modèle d'IA offre un contrôle granulaire aux utilisateurs pour leur permettre d'ajuster différents aspects de la vidéo, tels que la direction du regard principal, la distance de la tête, les décalages d'émotion, etc. Ces contrôles sur l'apparence démêlée, la pose de la tête en 3D et la dynamique faciale permettent à chacun de modifier le résultat d'une meilleure manière.

Le nouveau modèle d'IA de Microsoft est également capable de traiter des photos et des données audio qui ne font pas partie de la distribution d'entraînement. Par exemple, il peut traiter des photos artistiques, des audios chantés et des discours non anglophones. Ces types de données n'étaient pas présents dans l'ensemble de formation.

Cependant, Microsoft a annoncé que VASA-1 ne serait pas accessible au public, soulignant son intention d'utiliser la technologie pour créer des personnages virtuels réalistes plutôt que de la diffuser en tant que produit autonome ou API. Cette décision découle de l'engagement de Microsoft en faveur de pratiques éthiques en matière d'IA.

Répondant aux inquiétudes concernant une éventuelle utilisation abusive, Microsoft a clarifié sa position : "Notre recherche se concentre sur les applications positives de la génération de compétences visuelles affectives pour les avatars virtuels de l'IA. Nous nous opposons à toute utilisation de cette technologie pour tromper ou induire en erreur. Bien que notre méthode puisse potentiellement être utilisée à des fins d'usurpation d'identité, nous nous efforçons d'améliorer les techniques de détection des falsifications afin d'atténuer ces risques."

Jusqu'à ce que Microsoft soit certain que la technologie sera utilisée de manière responsable et en conformité avec les réglementations, il n'est pas prévu de publier une démo en ligne, une API ou des détails supplémentaires sur la mise en œuvre de VASA.

Voici la présentation de Microsoft :

VASA-1 : Des visages parlants réalistes grâce à l'audio, générés en temps réel

Nous présentons VASA, un cadre permettant de générer des visages parlants réalistes de personnages virtuels dotés de compétences visuelles et affectives (VAS) attrayantes, à partir d'une seule image statique et d'un clip audio de parole. Notre premier modèle, VASA-1, est capable non seulement de produire des mouvements labiaux parfaitement synchronisés avec l'audio, mais aussi de capturer un large spectre de nuances faciales et de mouvements naturels de la tête qui contribuent à la perception de l'authenticité et de la vivacité. Les principales innovations comprennent un modèle holistique de dynamique faciale et de génération de mouvements de tête qui fonctionne dans un espace latent de visage, et le développement d'un tel espace latent de visage expressif et démêlé à l'aide de vidéos. Grâce à des expériences approfondies, y compris l'évaluation d'un ensemble de nouvelles mesures, nous montrons que notre méthode est nettement plus performante que les méthodes précédentes dans diverses dimensions. Notre méthode offre non seulement une qualité vidéo élevée avec une dynamique réaliste du visage et de la tête, mais prend également en charge la génération en ligne de vidéos 512x512 jusqu'à 40 FPS avec une latence de départ négligeable. Elle ouvre la voie à des engagements en temps réel avec des avatars réalistes qui émulent les comportements conversationnels humains.

Nom : 1.jpg
Affichages : 9076
Taille : 106,6 Ko

Réalisme et vivacité

Notre méthode est capable non seulement de produire une synchronisation lèvres-audio précieuse, mais aussi de générer un large spectre de nuances faciales expressives et de mouvements naturels de la tête. Elle peut prendre en charge des données audio de longueur arbitraire et produire de manière stable des vidéos de visages parlants homogènes.

Contrôle de la génération

Notre modèle de diffusion accepte des signaux optionnels comme condition, tels que la direction du regard principal et la distance de la tête, ainsi que les décalages d'émotion.

Nom : 3.jpg
Affichages : 2166
Taille : 65,5 Ko

Généralisation hors distribution

Notre méthode est capable de traiter des entrées photo et audio qui ne sont pas dans la distribution d'apprentissage. Par exemple, elle peut traiter des photos artistiques, des audios chantés et des discours non anglophones. Ces types de données n'étaient pas présents dans l'ensemble de formation.

Nom : 4.jpg
Affichages : 2165
Taille : 72,3 Ko

La puissance du démêlage

Notre représentation latente démêle l'apparence, la pose de la tête en 3D et la dynamique du visage, ce qui permet de contrôler et d'éditer séparément les attributs du contenu généré.

Efficacité en temps réel

Notre méthode génère des images vidéo de 512x512 à 45 images par seconde en mode de traitement par lots hors ligne, et peut prendre en charge jusqu'à 40 images par seconde en mode de streaming en ligne avec une latence précédente de seulement 170 ms, évaluée sur un PC de bureau avec un seul GPU NVIDIA RTX 4090.

Risques et considérations sur l'IA responsable

Notre recherche se concentre sur la génération de compétences visuelles affectives pour les avatars virtuels de l'IA, en vue d'applications positives. Elle ne vise pas à créer un contenu utilisé pour tromper ou induire en erreur. Toutefois, à l'instar d'autres techniques de génération de contenu, elle pourrait être utilisée à mauvais escient pour usurper l'identité d'un être humain. Nous sommes opposés à tout comportement visant à créer des contenus trompeurs ou nuisibles de personnes réelles, et nous sommes intéressés par l'application de notre technique pour faire progresser la détection des falsifications. Actuellement, les vidéos générées par cette méthode contiennent encore des artefacts identifiables, et l'analyse numérique montre qu'il y a encore du chemin à faire pour atteindre l'authenticité des vraies vidéos.

Tout en reconnaissant la possibilité d'une utilisation abusive, il est impératif de reconnaître le potentiel positif substantiel de notre technique. Les avantages - tels que le renforcement de l'équité en matière d'éducation, l'amélioration de l'accessibilité pour les personnes ayant des difficultés de communication, l'offre d'une compagnie ou d'un soutien thérapeutique à ceux qui en ont besoin, entre autres - soulignent l'importance de notre recherche et d'autres explorations connexes. Nous sommes déterminés à développer l'IA de manière responsable, dans le but de faire progresser le bien-être humain.

Dans ce contexte, nous n'avons pas l'intention de publier une démo en ligne, une API, un produit, des détails supplémentaires sur la mise en œuvre ou toute autre offre connexe tant que nous ne sommes pas certains que la technologie sera utilisée de manière responsable et conformément aux réglementations en vigueur.

Source : Microsoft

Et vous ?

Quel est votre avis sur le sujet ?

Pensez-vous que l'initiative de Microsoft est crédible ou pertinente ?

Voir aussi :

Le président de Microsoft Brad Smith annonce un ensemble de principes visant à favoriser l'innovation et la concurrence dans le domaine de l'IA. Pour tenter de dissiper les inquiétudes ?

Sora : OpenAI lance un modèle d'IA qui serait capable de créer une vidéo avec des scènes réalistes et imaginatives à partir d'instructions textuelles, mais la durée est limitée à 60 secondes

Stability.ai présente Stable Video 3D, un outil d'IA générative pour le rendu de vidéos en 3D, qui permet aux utilisateurs de générer une courte vidéo à partir d'une image ou d'un texte

**_toma_** · 20/04/2024, 18h16

La taille, la forme et le nombre de dents ne sont pas cohérents dans les démos.

Si vous voulez pas vous faire arnaquer, regardez votre banquier dans les dents la prochaine fois que vous l'aurez en visio

.

**Mathis Lucas** · 22/04/2024, 20h33

Une vidéo générée par le modèle d'IA VASA-1 de Microsoft montrant la Joconde en train de rapper suscite de vives réactions de la part des téléspectateurs
qui craignent une utilisation abusive

Microsoft a récemment publié une démo de son modèle d'IA VASA-1 montrant la Joconde du célèbre peintre Léonard de Vinci en train de rapper. Le clip a suscité de vives réactions en ligne allant de l'humour à l'horreur. Microsoft a déclaré que la technologie pourrait être utilisée à des fins éducatives ou pour "améliorer l'accessibilité des personnes ayant des difficultés de communication", ou encore pour créer des compagnons virtuels pour les humains. Mais il est également facile de voir comment l'outil pourrait être détourné et utilisé pour usurper l'identité de personnes réelles. Pour l'instant, l'entreprise garde l'outil en interne en raison des risques qu'il présente.

Des chercheurs de Microsoft ont présenté la semaine dernière un nouveau modèle d'IA permettant de créer automatiquement une vidéo réaliste d'une personne en train de parler à partir d'une image fixe d'un visage et d'un clip audio avec la voix de la personne. Les vidéos, qui peuvent être réalisées à partir de visages photoréalistes, de dessins animés ou d'œuvres d'art, sont dotées d'une synchronisation labiale convaincante et de mouvement naturels du visage et de la tête. Dans une vidéo de démonstration, l'équipe a montré comment elle a animé la Joconde pour qu'elle chante un rap comique de l'actrice Anne Hathaway.

Microsoft just dropped VASA-1.

This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba

10 wild examples:

1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD
— Min Choi (@minchoi) April 18, 2024

Dans un autre clip de Microsoft, un avatar chante, et dans d'autres, générés à partir de photos réelles, des personnes parlent de sujets courants. Les vidéos ont rapidement gagné en popularité en ligne, suscitant des réactions mitigées. Certains internautes ont apprécié les clips. D'autres se sont montrés plus méfiants, voire dérangés. « C'est à la fois sauvage, bizarre et effrayant », a écrit l'un d'entre eux. « Un autre jour, une autre vidéo terrifiante sur l'IA », se lamente un autre. « Pourquoi cela doit-il exister ? Je ne vois pas ce qu'il y a de positif », a écrit un critique. Selon les critiques, l'outil comporte de nombreux risques.

« C'est vraiment flippant. Je n'ai même pas voulu finir de le regarder. C'est la partie la plus profonde de la vallée de l'étrange dont j'ai été témoin jusqu'à présent dans ma vie », lit-on dans les commentaires. Les chercheurs de Microsoft sont conscients des nombreux risques liés à leur nouveau modèle d'IA. Lors de l'annonce de VASA-1 la semaine dernière, les chercheurs avaient abordé les risques et avaient déclaré qu'ils n'avaient pas l'intention de publier le produit en ligne tant que "l'équipe n'est pas certaine que la technologie sera utilisée de manière responsable et conformément aux réglementations en vigueur".

« L'objectif n'est pas de créer un contenu destiné à induire en erreur ou à tromper. Toutefois, à l'instar d'autres techniques de génération de contenu, elle pourrait être utilisée à mauvais escient pour usurper l'identité d'un être humain. Nous sommes opposés à tout comportement visant à créer des contenus trompeurs ou nuisibles de personnes réelles, et nous sommes intéressés par l'application de notre technique pour faire progresser la détection des falsifications. Tout en reconnaissant la possibilité d'une utilisation abusive, il est impératif de reconnaître le potentiel positif substantiel de notre technique », explique l'équipe.

« Les avantages (comme l'amélioration de l'équité en matière d'éducation, l'amélioration de l'accessibilité pour les personnes ayant des difficultés de communication, l'offre d'une compagnie ou d'un soutien thérapeutique aux personnes dans le besoin, parmi beaucoup d'autres) soulignent l'importance de notre recherche et d'autres explorations connexes. Nous sommes déterminés à développer l'IA de manière responsable, dans le but de faire progresser le bien-être humain », ont écrit les chercheurs. Les inquiétudes des scientifiques de Microsoft sont également partagées par d'autres chercheurs de la communauté de l'IA.

À mesure que les outils permettant de créer des images, des vidéos et des sons convaincants générés par l'IA se multiplient, les experts craignent que leur utilisation abusive ne conduise à de nouvelles formes de désinformation. Certains craignent également que la technologie ne perturbe davantage les industries créatives, du cinéma à la publicité. Le refus de Microsoft de publier le modèle d'IA VASA-1 rappelle la manière dont OpenAI gère les inquiétudes suscitées par son modèle d'IA de génération de vidéo Sora. Jusque-là, l'entreprise n'a pas mis Sora à la disposition du grand public, évoquant des raisons de sécurité.

Le nouveau modèle d'IA de Microsoft a été entraîné sur de nombreuses vidéos de visages de personnes en train de parler, et il est conçu pour reconnaître les mouvements naturels du visage et de la tête, y compris "le mouvement des lèvres, l'expression (non labiale), le regard et le clignement des yeux, entre autres". Le résultat est une vidéo plus réaliste lorsque VASA-1 anime une photo fixe. D'autres cas d'utilisation sont également possibles. Ainsi, il est également possible de demander à l'outil d'IA de produire une vidéo dans laquelle le sujet regarde dans une certaine direction ou exprime une émotion spécifique.

En y regardant de plus près, on trouve encore des signes indiquant que les vidéos ont été générées par une machine, comme des clignements d'yeux peu fréquents et des mouvements de sourcils exagérés. Toutefois, Microsoft estime que son modèle surpasse de manière significative d'autres outils similaires et ouvre la voie à des engagements en temps réel avec des avatars réalistes qui émulent les comportements conversationnels humains. (L'outil s'est montré suffisamment convaincant pour déclencher un tollé sur la toile.)

Ce dernier développement de l'IA intervient alors que les gouvernements du monde entier s'efforcent de réglementer la technologie et de légiférer contre son utilisation abusive à des fins criminelles. Un exemple en est le deepfake à caractère pornographique, qui consiste à superposer le visage d'une personne sur une photo ou une vidéo explicite sans son consentement, un problème qui a même touché Taylor Swift au début de l'année. Les auteurs des deepfakes de Taylor Swift avaient utilisé le générateur d'image de Microsoft.

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous du nouvel outil d'IA VASA-1 de Microsoft ? A-t-il une utilité ?

Quels sont les préoccupations qu'il pose ? Doit-il être publié ?

Voir aussi

VASA-1, la nouvelle IA de Microsoft, peut créer un deepfake juste à partir d'une photo et d'une piste audio, et peut faire dire n'importe quoi à n'importe qui, mais n'est pas disponible, car trop dangereux

Sora : OpenAI lance un modèle d'IA qui serait capable de créer une vidéo avec des scènes réalistes et imaginatives à partir d'instructions textuelles, mais la durée est limitée à 60 secondes

Stability.ai présente Stable Video 3D, un outil d'IA générative pour le rendu de vidéos en 3D qui permet aux utilisateurs de générer une courte vidéo à partir d'une image ou d'un texte

**KEKE93** · 23/04/2024, 09h44

Cette oeuvre générée par IA va dans la continuité du mouvement Dada avec notamment l'oeuvre de Marcel Duchamp de 1919 où on voit la Joconde affublée d'une moustache avec le titre L.H.O.O.Q. ( Elle a chaud au cul ) .

https://fr.wikipedia.org/wiki/L.H.O.O.Q.

Les vidéos générées par le nouveau modèle d'IA VASA-1 de Microsoft suscitent de vives réactions sur la toile

Intelligence artificielle

Discussions similaires

Partager

Partager