Dans une vidéo générée par Veo l'IA de Google, Will Smith semble « croquer » des spaghettis cuits

**Jade Emy** · 15/05/2024, 10h40

Google présente Veo, son modèle d'IA pour générer des vidéos haute définition, et Imagen 3, son modèle texte-image de haute qualité, ainsi que des enregistrements de démonstration créés avec Music AI Sandbox.

Google présente Veo, son modèle le plus performant pour générer des vidéos haute définition, et Imagen 3, son modèle texte-image de la plus haute qualité. Il partage également de nouveaux enregistrements de démonstration créés avec Music AI Sandbox. Selon Google, ces nouveaux modèles et outils de médias génératifs sont conçus avec et pour les créateurs.

Au cours de l'année écoulée, Google a réalisé des progrès dans l'amélioration de la qualité de ses technologies de médias génératifs. Ils ont travaillé en étroite collaboration avec la communauté créative pour étudier comment l'IA générative peut soutenir au mieux le processus créatif, et pour assurer que les outils d'IA sont aussi utiles que possible à chaque étape.

Google présente Veo, un modèle de génération vidéo récent et avancé, et Imagen 3, un modèle de conversion texte-image de la plus haute qualité. Ils présentent également quelques-unes de leurs récentes collaborations avec le cinéaste Donald Glover et son studio de création, Gilga, ainsi que les nouvelles démos des artistes Wyclef Jean, Marc Rebillet et de l'auteur-compositeur Justin Tranter, réalisées avec l'aide de Music AI Sandbox.

Nom : 1.jpg
Affichages : 5869
Taille : 61,1 Ko

Veo : un modèle de génération vidéo performant

Veo génère des vidéos de haute qualité d'une résolution de 1080p dans un large éventail de styles cinématographiques et visuels pouvant aller au-delà d'une minute. Grâce à une compréhension avancée du langage naturel et de la sémantique visuelle, il génère des vidéos qui représentent fidèlement la vision créative de l'utilisateur - en capturant avec précision le ton d'une invite et en restituant les détails dans les invites plus longues.

Le modèle offre un niveau de contrôle créatif et comprend des termes cinématographiques tels que "timelapse" ou "plans aériens d'un paysage". Veo crée des séquences homogènes et cohérentes, de sorte que les personnes, les animaux et les objets se déplacent de manière réaliste tout au long des prises de vue.

Google:

Pour découvrir comment Veo peut soutenir au mieux le processus créatif du conteur, nous invitons une série de cinéastes et de créateurs à expérimenter le modèle. Ces collaborations nous aident également à améliorer la façon dont nous concevons, construisons et déployons nos technologies afin de nous assurer que les créateurs ont leur mot à dire sur la façon dont elles sont développées.

Veo s'appuie sur des années de travail sur les modèles vidéo génératifs, notamment Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet et Lumiere, en combinant l'architecture, les lois de mise à l'échelle et d'autres techniques novatrices pour améliorer la qualité et la résolution de sortie.

Avec Veo, Google annonce avoir amélioré les techniques permettant au modèle d'apprendre à comprendre le contenu d'une vidéo, de rendre des images haute définition, de simuler la physique de monde réel et bien plus encore. Ces enseignements alimenteront les progrès de notre recherche sur l'IA et nous permettront de créer des produits encore plus utiles qui aideront les gens à interagir et à communiquer d'une nouvelle manière.

Veo est disponible pour certains créateurs en avant-première privée dans VideoFX en s'inscrivant sur la liste d'attente. À l'avenir, ils intégreront également certaines des fonctionnalités de Veo à YouTube Shorts et à d'autres produits. Google présente aussi un aperçu de son travail avec le cinéaste Donald Glover et son studio de création, Gilga, qui ont expérimenté Veo dans le cadre d'un projet cinématographique.

Imagen 3 : un modèle texte-image de haute qualité

Au cours de l'année écoulée, Google annonce avoir réalisé d'incroyables progrès en améliorant la qualité et la fidélité de ses modèles et outils de génération d'images. Imagen 3 est son modèle texte-image de la plus haute qualité. Selon Google, il génère un niveau de détail incroyable, produisant des images photoréalistes et réalistes, avec beaucoup moins d'artefacts visuels gênants que les modèles précédents.

Google:

Imagen 3 comprend mieux le langage naturel, l'intention derrière votre message et incorpore les petits détails des messages plus longs. La compréhension avancée du modèle l'aide à maîtriser un large éventail de styles. Il s'agit également de notre meilleur modèle à ce jour pour le rendu du texte, ce qui a constitué un défi pour les modèles de génération d'images. Cette capacité ouvre des perspectives pour la génération de messages d'anniversaire personnalisés, de diapositives de titre dans les présentations, etc.

Nom : 2.jpg
Affichages : 1033
Taille : 61,1 Ko

Nom : 3.jpg
Affichages : 990
Taille : 67,8 Ko

Imagen 3 est disponible pour certains créateurs en aperçu privé dans ImageFX, et en s'inscrivant sur la liste d'attente. Imagen 3 sera bientôt disponible pour Vertex AI.

Les collaborations de Google avec la communauté musicale

Dans le cadre de son exploration continue du rôle que l'IA peut jouer dans la création artistique et musicale, Google collabore, en partenariat avec YouTube, avec des musiciens, des auteurs-compositeurs et des producteurs extraordinaires. Ces collaborations contribuent également au développement des technologies musicales génératives, notamment Lyria, un modèle avancé de génération de musique par l'IA.

Google:

Dans le cadre de ce travail, nous avons développé une suite d'outils d'IA musicale appelée Music AI Sandbox. Ces outils sont conçus pour ouvrir un nouveau terrain de jeu à la créativité, en permettant de créer de nouvelles sections instrumentales à partir de zéro, de transformer le son de manière inédite et bien plus encore. Nous travaillons en partenariat avec des musiciens, des auteurs-compositeurs et des producteurs pour étudier le rôle passionnant que peut jouer l'intelligence artificielle dans le processus de création musicale.

Aujourd'hui, nous poursuivons cette expérimentation dans le domaine de la musique avec Wyclef Jean, musicien lauréat d'un Grammy, Justin Tranter, auteur-compositeur nommé pour un Grammy, et Marc Rebillet, musicien électronique, qui publient sur leurs chaînes YouTube de nouvelles démos créées avec l'aide de nos outils d'intelligence artificielle musicale.

Responsables de la conception au déploiement

Google déclare être soucieux non seulement de faire progresser l'état de l'art, mais aussi de le faire de manière responsable. Ils prennent des mesures pour relever les défis posés par les technologies génératives et aider les personnes et les organisations à travailler de manière responsable avec le contenu généré par l'IA.

Google :

Pour chacune de ces technologies, nous avons travaillé avec la communauté créative et d'autres parties prenantes externes, en recueillant des informations et en écoutant les commentaires pour nous aider à améliorer et à déployer nos technologies de manière sûre et responsable.

Nous avons effectué des tests de sécurité, appliqué des filtres, établi des garde-fous et placé nos équipes de sécurité au centre du développement. Nos équipes sont également à l'origine d'outils tels que SynthID, qui permet d'intégrer des filigranes numériques imperceptibles dans des images, du son, du texte et des vidéos générés par l'IA. À partir d'aujourd'hui, toutes les vidéos générées par Veo sur VideoFX seront filigranées par SynthID.

Le potentiel créatif de l'IA générative est immense et nous sommes impatients de voir comment les gens du monde entier donneront vie à leurs idées grâce à nos nouveaux modèles et outils.

Source : Google

Et vous ?

Quel est votre avis sur cette annonce ?

Voir aussi :

Google veut déployer "l'IA la plus avancée, la plus sûre et la plus responsable au monde" en 2024, mais le chemin à parcourir est encore long et pourrait comporter des défis majeurs

Google lance Gemini 1.5, une semaine après Gemini Ultra 1.0. « Gemini 1.5 Pro atteint une qualité comparable à 1.0 Ultra, tout en utilisant moins de calcul », explique le PDG Sundar Pichai

Le filigrane invisible SynthID de Google permettra désormais d'identifier les textes et les vidéos générés par l'IA, mais il est moins détectable lorsque le texte a été entièrement réécrit ou traduit

**Stéphane le calme** · 27/05/2025, 15h55

Veo 3 de Google est une avancée majeure dans la synthèse vidéo par l'IA, mais les effets sonores ont besoin d'amélioration :
dans une vidéo générée, Will Smith semble « croquer » des spaghettis cuits

L'épopée numérique de « Will Smith mangeant des spaghettis » incarne l'évolution fulgurante de l'intelligence artificielle dans la génération de vidéos. Ce mème, initialement perçu comme une curiosité grotesque, est devenu un symbole des avancées technologiques et des débats entourant l'IA.

Contexte

En mars 2023, un utilisateur de Reddit nommé "chaindrop" a partagé une vidéo générée par l'outil ModelScope, montrant une version déformée de Will Smith mangeant des spaghettis. Cette création, composée de segments de deux secondes assemblés, présentait des mouvements saccadés et des visuels dérangeants, suscitant à la fois fascination et malaise. Le clip est rapidement devenu viral, illustrant les limites de l'IA en matière de génération vidéo à l'époque.

Will Smith a souvent été remarqué pour son succès tout au long de sa carrière musicale, ainsi que son travail en tant qu'acteur à la télévision et au cinéma. Il a reçu de nombreuses récompenses et ses films ont rapporté plus de 9,5 milliards de dollars dans le monde, ce qui fait de lui l'une des stars les plus rentables d'Hollywood. Donc il n'est pas attendu dans ce genre de rubrique.

Pourtant, cette vidéo est devenue une sorte de mème ainsi qu'un benchmark : Il s'agit de voir si un nouveau générateur de vidéos peut représenter de manière réaliste l'acteur Will Smith en train d'engloutir un bol de nouilles.

Deux ans plus tard, lors de la conférence Google I/O 2025, la démonstration de Veo 3 a marqué un tournant. En recréant la scène de Will Smith mangeant des spaghettis avec un réalisme saisissant, intégrant dialogues et effets sonores, Google a montré les progrès réalisés depuis les débuts balbutiants de ModelScope. Cette évolution souligne la rapidité avec laquelle l'IA peut passer de résultats imparfaits à des rendus quasi indiscernables de la réalité

L'évolution technologique : de la caricature au réalisme

Google a lancé Veo 3, un nouveau modèle de synthèse vidéo par l'IA capable de faire ce qu'aucun grand générateur de vidéos par l'IA n'a pu faire jusqu'à présent : créer une piste audio synchronisée.

Comme Veo 2, cet outil d'IA est en concurrence avec le générateur vidéo Sora d'OpenAI, mais sa capacité à incorporer du son dans la vidéo qu'il crée constitue une distinction essentielle. L'entreprise précise que Veo 3 peut incorporer de l'audio, notamment des dialogues entre les personnages ainsi que des sons d'animaux. Si, de 2022 à 2024, nous avons assisté aux premières étapes de la génération de vidéos par l'IA, chaque vidéo était silencieuse et généralement de très courte durée. Désormais, vous pouvez entendre des voix, des dialogues et des effets sonores dans des clips vidéo haute définition de huit secondes.

Envoyé par Google

Veo génère des vidéos de haute qualité à une résolution de 1080p qui peuvent dépasser une minute, dans une grande variété de styles cinématographiques et visuels. Grâce à une compréhension avancée du langage naturel et de la sémantique visuelle, il peut générer des vidéos qui représentent fidèlement la vision créative de l'utilisateur, en captant avec précision le ton d'une invite et en restituant les détails dans les invites plus longues.

Le modèle comprend également les termes cinématographiques tels que "timelapse" ou "plans aériens d'un paysage", offrant un niveau de contrôle créatif sans précédent. Et il crée des séquences cohérentes et homogènes, de sorte que les personnes, les animaux et les objets se déplacent de manière réaliste tout au long des plans.

« Veo 3 excelle dans les domaines du texte et de l'image, de la physique du monde réel et de la synchronisation labiale précise », a déclaré Eli Collins, vice-président produit de Google DeepMind. L'outil d'IA vidéo-audio est déjà disponible pour les abonnés américains à la nouvelle formule d'abonnement Ultra de Google, d'un montant de 249,99 dollars par mois, qui s'adresse aux passionnés d'IA. Veo 3 sera également disponible pour les utilisateurs de la plateforme d'entreprise Vertex AI de Google.

Le benchmark « Will Smith mangeant des spaghettis »

Peu après le lancement de la nouvelle version, les gens ont commencé à poser la question la plus évidente de l'analyse comparative : Quelle est la capacité de Veo 3 à faire croire que l'acteur oscarisé Will Smith mange des spaghettis ?

Les gens oublient qu'à l'époque, l'exemple de Smith n'était pas le meilleur générateur de vidéos d'IA existant ; un modèle de synthèse vidéo appelé Gen-2 de Runway avait déjà obtenu des résultats supérieurs (même s'il n'était pas encore accessible au public). Mais le résultat de ModelScope était suffisamment drôle et étrange pour rester dans les mémoires comme un premier exemple médiocre de synthèse vidéo, utile pour les comparaisons futures au fur et à mesure que les modèles d'IA progressent.

Javi Lopez, développeur d'applications d'IA, est venu à la rescousse des amateurs de spaghettis avec Veo 3, en effectuant le test de Smith et en publiant les résultats sur X. Mais comme vous le remarquerez ci-dessous en regardant, la bande sonore a une qualité curieuse : Le faux Smith semble croquer les spaghettis.

Just got access to Veo 3 and the first thing I did was try the Will Smith spaghetti test. SOUND ON pic.twitter.com/y0CiZwNxgM
— Javi Lopez ⛩️ (@javilopen) May 22, 2025

Il s'agit d'une faille dans la capacité expérimentale de Veo 3 à appliquer des effets sonores aux vidéos, probablement parce que les données d'entraînement utilisées pour créer les modèles d'IA de Google contenaient de nombreux exemples de bouches qui mâchent avec des effets sonores de craquement. Les modèles d'IA générative sont des machines de prédiction par appariement de motifs, et il faut leur montrer suffisamment d'exemples de différents types de médias pour qu'ils génèrent de nouveaux résultats convaincants. Si un concept est surreprésenté ou sous-représenté dans les données d'apprentissage, vous obtiendrez des résultats de génération inhabituels.

Une explosion de contenus générés par IA

Veo 3 est remarquable dans sa capacité à générer des dialogues et de la musique cohérents, et il a déjà donné lieu à de nombreux exemples intéressants que vous pouvez trouver sur X. Certains sont extrêmement réalistes.

Depuis son lancement, Veo 3 a été utilisé pour créer une multitude de vidéos virales sur YouTube et X, allant de sketchs humoristiques à des simulations de jeux vidéo. Par exemple, une vidéo générée par Veo 3 montre un faux unboxing d'iPhone, si réaliste qu'il est difficile de distinguer la fiction de la réalité. D'autres clips présentent des interviews de rue fictives ou des sessions de jeu "Fortnite" entièrement simulées. Ces contenus, bien que divertissants, soulèvent des préoccupations quant à la frontière entre réalité et fiction sur les plateformes numériques.

Ci-dessous par exemple, nous avons une vidéo générée par Veo 3 d'un standup

NO WAY. It did it. And, was that, actually funny?

Prompt:
> a man doing stand up comedy in a small venue tells a joke (include the joke in the dialogue) https://t.co/GFvPAssEHx pic.twitter.com/LrCiVAp1Bl
— fofr (@fofrAI) May 20, 2025

Celle-ci d'une sitcom qui n'a jamais existé

Good lord, Veo-3. I keep alternating between being stunned and laughing my ass off. pic.twitter.com/sdmEHoJlBh
— Theoretically Media (@TheoMediaAI) May 21, 2025

Une séquence d'un film qui n'existe pas

Created with Google Flow.

Visuals, Sound Design, and Voice were prompted using Veo 3 text-to-video.

Welcome to a new era of filmmaking. pic.twitter.com/E3NSA1WsXe
— Dave Clark (@Diesol) May 21, 2025

Ou d'une conférence technologique qui n'a jamais eu lieu

Before you ask: yes, everything is AI here. The video and sound both coming from a single text prompt using #Veo3 by @GoogleDeepMind .Whoever is cooking the model, let him cook! Congrats @Totemko and the team for the Google I/O live stream and the new Veo site! pic.twitter.com/sxZuvFU49s
— László Gaál (@laszlogaal_) May 21, 2025

Google Veo 3 permet de créer des vidéos de chant et de musique à partir d'une simple invite.

Google Veo 3 can create singing and music videos from a single prompt.

It's just insane how coherent it is to the video.

🔈Sound On! pic.twitter.com/RMwc1sSOmX
— Jerrod Lew (@jerrod_lew) May 20, 2025

Réflexions sur l'impact de l'IA dans la création vidéo

L'affaire des spaghettis met en lumière des questions plus larges sur l'utilisation de l'IA dans la création de contenu. Si les avancées technologiques permettent des rendus de plus en plus réalistes, elles soulèvent également des préoccupations :

Authenticité : Comment distinguer le réel du synthétique ?
Consentement : Les figures publiques peuvent-elles contrôler l'utilisation de leur image par des IA ?
Créativité : L'IA complète-t-elle ou remplace-t-elle la créativité humaine ?

Ces interrogations rappellent l'importance d'un encadrement juridique de l'utilisation de l'IA dans les médias.

Conclusion

Le parcours de « Will Smith mangeant des spaghettis » illustre à la fois les prouesses et les défis de l'intelligence artificielle dans la création vidéo. Ce mème, né d'une expérimentation technique, est devenu un point de départ pour des discussions profondes sur l'avenir de la création numérique. Alors que l'IA continue de progresser, il est essentiel de réfléchir à la manière dont nous l'intégrons dans notre société et notre culture.

Source : vidéos

Et vous ?

L’humour ou la parodie justifie-t-il tout, même lorsqu’un deepfake devient viral ?

Devrait-on exiger le consentement explicite des personnes dont l’image est exploitée, même à des fins artistiques ou humoristiques ?

L’IA est-elle en train de devenir un nouvel outil pour les artistes ou une menace pour la créativité humaine ?

Peut-on encore parler de « création » lorsqu’une vidéo est entièrement générée par une machine ?

Jusqu’où peut-on attribuer la responsabilité (et la propriété) d’une œuvre créée par l’IA : au développeur, à l’utilisateur ou à la machine ?

Dans une vidéo générée par Veo l'IA de Google, Will Smith semble « croquer » des spaghettis cuits

Intelligence artificielle

Discussions similaires

Partager

Partager