Sora : OpenAI lance un modèle d'IA qui serait capable de créer une vidéo avec des scènes réalistes et imaginatives à partir d'instructions textuelles
mais la durée est limitée à 60 secondes
OpenAI a dévoilé jeudi un nouveau grand modèle de langage capable de générer des vidéos à partir de textes. Le nouvel outil d'IA, appelé Sora d'après mot japonais signifiant "ciel", est capable de générer des séquences réalistes d'une durée maximale de 60 secondes qui respectent les instructions de l'utilisateur en ce qui concerne le sujet et le style. OpenAI a ajouté que le modèle est capable de créer une vidéo à partir d'une image fixe ou d'ajouter de nouveaux éléments à des séquences existantes. Sora se place comme un nouveau rival du modèle d'IA Lumiere de Google qui est également capable de créer un contenu vidéo à partir de textes ou d'images.
Après la génération de texte et d'images, OpenAI se lance sur le marché de la génération de vidéo avec Sora. Selon le laboratoire d'IA de San Francisco, il s'agit d'une étape importante, car cela permet à l'IA de comprendre et de simuler le monde physique en mouvement. « Nous apprenons à l'IA à comprendre et à simuler le monde physique en mouvement, dans le but de former des modèles qui aident les gens à résoudre des problèmes nécessitant une interaction avec le monde réel », affirme OpenAI dans un billet de blogue. Sora intervient plus d'un an après le lancement canon de son chatbot d'IA ChatGPT (GPT-3.5).
Selon le billet de blogue d'OpenAI, Sora génère des vidéos avec un réalisme inédit et des détails précis. « Sora est capable de créer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques et des détails précis sur le sujet et l'arrière-plan. Le modèle peut comprendre comment les objets existent dans le monde physique, ainsi qu'interpréter avec précision les accessoires et générer des personnages convaincants qui expriment des émotions vibrantes », indique le billet de blogue. OpenAI a déclaré que pour l'instant, Sora ne peut générer que des séquences vidéo qui durent au plus une minute.
Une vidéo parmi plusieurs exemples présentés par OpenAI est basée sur l'invite : « une bande-annonce de film présentant les aventures d'un homme de l'espace de 30 ans portant un casque de moto en laine tricotée rouge, ciel bleu, désert de sel, style cinématographique, filmé sur pellicule 35 mm, couleurs vives ». Sora peut aussi générer une vidéo à partir d'une image fixe, ainsi que remplir les images manquantes d'une vidéo existante ou l'étendre. Les autres démonstrations d'OpenAI comprennent une scène aérienne de la Californie pendant la ruée vers l'or, une vidéo qui met en scène une chute de neige à Tokyo, etc.Introducing Sora, our text-to-video model.
— OpenAI (@OpenAI) February 15, 2024
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
Nombre d'entre elles présentent des signes révélateurs de l'IA - comme un sol qui bouge de manière suspecte dans une vidéo d'un musée - et OpenAI indique que "le modèle peut avoir du mal à simuler avec précision la physique d'une scène complexe". Cela dit, les résultats sont dans l'ensemble assez impressionnants. « Pour moi, il semble évident qu'OpenAI est en avance sur tout le monde dans tous les modèles d'IA existants : image, texte, vidéo, audio, etc. Ils n'ont tout simplement pas encore publié leurs meilleurs produits. Ils n'ont tout simplement pas encore publié leurs meilleurs produits », affirme un critique.
Selon les critiques, Sora peut révolutionner des domaines comme l'animation 3D, le cinéma, et plus encore. « La capture de mouvements fonctionne bien parce qu'il s'agit de mouvements réels, mais chaque fois que l'on essaie d'animer des humains et des animaux, même dans des films en images de synthèse à gros budget, c'est toujours manifestement faux au bout du compte. Il y a tellement de choses subtiles qui se produisent en matière d'accélération et de décélération de toutes les différentes parties d'un organisme, qu'aucun animateur n'y parvient jamais à 100 % », a fait remarquer un critique. Ce dernier ajoute :
« Aucun algorithme d'animation ne parvient à rendre les choses vraiment crédibles, mais seulement à les rendre moins mauvaises. Mais les vidéos générés par Sora semblent rendre les choses tout à fait crédibles, tant pour les humains que pour les animaux. C'est incroyable. Et bien entendu, il ne faut pas oublier qu'il s'agit d'espaces 3D tout à fait crédibles, avec une permanence de l'objet apparemment totale. Contrairement à d'autres efforts que j'ai vus et qui consistent essentiellement à animer brièvement une scène en 2D pour lui donner une vague apparence de 3D ». D'autres attendent les améliorations futures.
Sora n'est actuellement accessible qu'aux "red teamers" qui évaluent le modèle en fonction des dommages et des dangers potentiels. Les experts vont "tester" le produit, c'est-à-dire vérifier s'il est susceptible de contourner les garde-fous d'OpenAI, qui interdisent "la violence extrême, le contenu sexuel, l'imagerie haineuse, l'image d'une célébrité ou la propriété intellectuelle d'autrui". OpenAI offre également un accès à certains artistes visuels, concepteurs et cinéastes afin de recueillir leurs commentaires. L'entreprise reconnaît que le modèle d'IA actuel peut ne pas simuler correctement la physique d'une scène complexe.
Il pourrait également ne pas interpréter correctement certains cas de cause à effet. Les vidéos portent un filigrane indiquant qu'elles ont été réalisées par l'IA. Cette approche vise à empêcher les abus potentiels, comme la création de deepfakes visant à tromper les internautes ou un public cible. Au début du mois, OpenAI a ajouté des filigranes à son outil de conversion de texte en image DALL-E 3, mais précise qu'ils peuvent être facilement supprimés. À l'instar de ses autres produits d'IA, OpenAI devrait faire face aux conséquences des fausses vidéos photoréalistes créées par l'IA qui seront prises pour des vraies.https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
— Sam Altman (@sama) February 15, 2024
Il y a quelques années, les générateurs d'images tels que Midjourney étaient à la pointe de la capacité des modèles à transformer les mots en images. Mais récemment, la vidéo a commencé à s'améliorer à un rythme remarquable : des entreprises comme Runway et Pika ont présenté leurs propres modèles de génération de vidéo, et le modèle Lumiere de Google semble être l'un des principaux concurrents d'OpenAI dans ce domaine également. Similaire à Sora, le modèle Lumiere offre aux utilisateurs des outils de conversion de texte en vidéo et leur permet également de créer des vidéos à partir d'une simple image fixe.
OpenAI n'a pas révélé la quantité d'images utilisées pour entraîner Sora ni l'origine des vidéos d'entraînement, se contentant d'indiquer que le corpus contenait des vidéos à la fois accessibles au public et sous licence de détenteurs de droits d'auteur. L'entreprise a été poursuivie à plusieurs reprises pour violation présumée des droits d'auteur lors de l'entraînement de ses outils d'IA générative, qui digèrent des quantités gargantuesques de matériel récupéré sur Internet et imitent les images ou le texte contenus dans ces ensembles de données.
Par ailleurs, OpenAI se prépare à lancer GPT-5, la prochaine génération de son grand modèle de langage GPT (Generative Pre-trained Transformer). Selon le PDG Sam Altman, GPT-5 sera plus intelligent, plus rapide, plus polyvalent et meilleur dans toutes les tâches que GPT-4. Il a déclaré que GPT-5 sera un modèle d'IA multimodal beaucoup plus avancé qui sera doté d'une capacité de raisonnement qui lui permettra de réaliser des tâches plus complexes.
Source : OpenAI
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous du modèle d'IA de génération de vidéo Sora d'OpenAI ?
Quelle est votre appréciation des exemples de vidéos générées par le modèle Sora ?
Quels pourraient être les impacts de Sora et de ses rivaux sur l'industrie du cinéma et de l'animation ?
Quels pourraient être leurs impacts sur les travailleurs de cette industrie ? Vont-ils être massivement remplacés par l'IA ?
Voir aussi
Meta annonce Make-A-Video, qui génère de la vidéo à partir de texte, via une description textuelle ou d'une image existante, Make-A-Video peut rendre une vidéo à la demande
DALL-E 3 est maintenant disponible dans ChatGPT Plus et Enterprise, permettant aux abonnés payants de ChatGPT d'utiliser le générateur d'images
« GPT-5 sera plus intelligent, plus rapide, plus polyvalent et meilleur dans toutes les tâches que GPT-4 », affirme Sam Altman qui appelle une nouvelle fois à une réglementation mondiale sur l'IA
Partager