Créez bientôt votre propre Holodeck : Google Deepmind dévoile Genie, un modèle d'IA créant des mondes virtuels jouables à partir d'une seule image

Genie, l'IA de Google Deepmind, redessine le paysage de la conception de jeux, démocratise le processus de création et offre un aperçu d'un avenir où l'IA génère du contenu de manière autonome. De la transformation de croquis en univers virtuels aux applications potentielles en robotique, Genie ouvre la voie à une nouvelle ère de créativité.

Imaginez un monde où la barrière entre l'imagination et la réalité virtuelle s'estompe, où un simple croquis ou une ligne de texte peut se transformer en un environnement complexe et interactif. Ce n'est pas la prémisse d'un roman de science-fiction, mais la réalité d'un modèle d'IA révolutionnaire mis au point par des chercheurs de Google. Baptisée Genie, cette merveille de l'IA est sur le point de révolutionner le paysage de la conception de jeux en transformant des messages rudimentaires en mondes complexes et jouables de plates-formes en 2D. C'est comme si on assistait à la libération littérale d'un génie numérique, capable d'exaucer les souhaits les plus créatifs sur simple commande.

Les mécanismes qui sous-tendent Genie sont aussi fascinants que ses capacités. Formée à partir de plus de 200 000 heures de jeu et d'autres vidéos provenant d'Internet, cette IA ne se contente pas de reproduire des jeux existants, elle les réimagine. Le développement traditionnel de jeux nécessite souvent des compétences approfondies en matière de codage et de conception, mais Genie cherche à démocratiser ce processus, en rendant la création de jeux accessible aux personnes disposant d'un bagage technique minimal.

Genie se distingue de toutes les technologies existantes par son apprentissage non supervisé et sa capacité à comprendre les mouvements et le contrôle des personnages. Cette IA ne se contente pas de créer ; elle apprend, évolue et comprend la physique de ses créations, laissant entrevoir un avenir où l'IA pourra générer du contenu de manière autonome avec peu ou pas d'intervention humaine.

Nom : 1.png
Affichages : 6198
Taille : 215,3 Ko

L'un des aspects les plus convaincants de Genie est sa capacité à traduire n'importe quelle image en un monde jouable. Cette capacité laisse entrevoir une myriade d'applications, de la conception de jeux aux outils éducatifs et au-delà. Imaginez des étudiants esquissant leurs interprétations d'événements historiques et les voyant prendre vie dans une plateforme interactive en 2D. Ou encore des développeurs de jeux qui prototypent rapidement des niveaux et des scénarios directement à partir de leurs gribouillis.

Les implications de la technologie de Genie vont encore plus loin, laissant entrevoir des utilisations potentielles en robotique pour la navigation et l'accomplissement de tâches, car la compréhension et la simulation de la physique du monde réel pourraient s'avérer inestimables pour former l'IA à des applications réelles.

À l'heure actuelle, Genie est un avant-goût de la recherche sans date de sortie prévue, qui incarne la promesse et le potentiel de l'IA dans les industries créatives. La technologie qui sous-tend Genie, en particulier son approche de l'apprentissage non supervisé et de la compression vidéo, marque une étape importante dans notre compréhension et notre utilisation de l'IA.

Cependant, un grand pouvoir s'accompagne d'une grande responsabilité. À mesure qu'on se rapproche de l'effacement de la frontière entre la créativité humaine et la génération de contenu assistée par l'IA, les questions relatives à l'originalité, aux droits d'auteur et aux implications éthiques de l'IA dans le domaine des arts et au-delà se posent avec acuité. Néanmoins, le projet Genie témoigne des capacités sans cesse croissantes de l'intelligence artificielle et nous invite à rêver d'un avenir où nos visions créatives pourront prendre vie avec la simplicité d'un souhait.

Découvrez les dessous du projet Genie !

Genie: Generative Interactive Environments

Google :

Nous présentons Genie, le premier environnement interactif génératif formé de manière non supervisée à partir de vidéos Internet non étiquetées. Le modèle peut être invité à générer une variété infinie de mondes virtuels contrôlables par l'action, décrits par du texte, des images synthétiques, des photographies et même des croquis. Avec des paramètres de 11B, Genie peut être considéré comme un modèle de monde de base. Il est composé d'un tokenizer vidéo spatio-temporel, d'un modèle dynamique autorégressif et d'un modèle d'action latent simple et évolutif.

Genie permet aux utilisateurs d'agir dans les environnements générés image par image malgré l'entraînement sans étiquette d'action de vérité au sol ou autres exigences spécifiques au domaine que l'on trouve généralement dans la littérature sur les modèles du monde. En outre, l'espace d'action latente appris qui en résulte facilite l'entraînement des agents à imiter des comportements à partir de vidéos inédites, ce qui ouvre la voie à l'entraînement des agents généralistes du futur.
Ces dernières années ont vu l'émergence de l'IA générative, avec des modèles capables de générer des contenus nouveaux et créatifs. Grâce à des percées dans des architectures telles que les transformateurs, à des avancées dans le domaine du matériel et à une attention récente portée à la mise à l'échelle des modèles et des ensembles de données, on peut désormais générer un langage cohérent et conversationnel, ainsi que des images nettes et esthétiquement agréables à partir d'une invite textuelle. Les premiers signes indiquent que la génération de vidéos sera une autre frontière, avec des résultats récents suggérant que de tels modèles peuvent également bénéficier de l'échelle. Pourtant, il reste un fossé entre le niveau d'interaction et d'engagement des modèles vidéo génératifs et les outils linguistiques tels que ChatGPT, sans parler des expériences plus immersives.

Et si, à partir d'un large corpus de vidéos provenant d'Internet, on pouvait non seulement former des modèles capables de générer de nouvelles images ou vidéos, mais aussi des expériences interactives entières ? Google propose des environnements interactifs génératifs, un nouveau paradigme pour l'IA générative dans lequel des environnements interactifs peuvent être générés à partir d'un simple texte ou d'une image. Son approche, Genie, est entraînée à partir d'un vaste ensemble de données de plus de 200 000 heures de vidéos de jeux sur Internet accessibles au public et, malgré un entraînement sans annotations d'action ou de texte, elle est contrôlable image par image grâce à un espace d'action latent appris. Avec les paramètres 11B, Genie présente des propriétés typiques des modèles de fondation : il peut prendre une image inédite comme invite, ce qui permet de créer et de jouer à des mondes virtuels entièrement imaginés.

Nom : 2.png
Affichages : 1479
Taille : 445,1 Ko
Exemple de trajectoires diverses

Genie s'appuie sur des idées issues de modèles de génération vidéo de pointe, avec un choix de conception central : les transformateurs spatiotemporels (ST), qui sont utilisés dans toutes les composantes des modèles Google. Genie utilise un nouveau tokenizer vidéo et extrait les actions latentes par le biais d'un modèle d'action causal. Les jetons vidéo et les actions latentes sont transmis à un modèle dynamique qui prédit de manière autorégressive l'image suivante à l'aide de MaskGIT.

Google :

Nous fournissons une analyse rigoureuse de la mise à l'échelle de notre architecture en ce qui concerne la taille du lot et du modèle, que nous faisons varier de 40M à 2,7B paramètres. Les résultats montrent que notre architecture s'adapte gracieusement à des ressources informatiques supplémentaires, ce qui permet d'obtenir un modèle final de 11 milliards de paramètres. Nous entraînons Genie sur un ensemble filtré de 30 000 heures de vidéos de jeux sur Internet provenant de centaines de jeux de plateforme en 2D, produisant ainsi un modèle de monde de base pour ce contexte.
Pour démontrer la généralité de cette approche, Google entraîne également un modèle séparé sur des vidéos de robots sans action provenant de l'ensemble de données RT1 , en apprenant un environnement génératif avec des actions latentes cohérentes. Enfin, Google montre que les actions latentes apprises à partir de vidéos Internet peuvent être utilisées pour inférer des politiques à partir de vidéos sans action inédites d'environnements d'apprentissage par renforcement (RL) simulés, indiquant que Genie peut détenir la clé pour déverrouiller des données illimitées pour la formation de la prochaine génération d'agents généralistes.

Nom : 3.PNG
Affichages : 1468
Taille : 138,2 Ko
Entraînement du modèle Genie

Conclusion et travaux futurs

Google a proposé Genie, une nouvelle forme d'IA générative qui permet à tout le monde, même aux enfants, de rêver, de créer et de pénétrer dans des mondes générés comme on peut le faire avec des environnements simulés conçus par des humains. Genie peut être amené à générer un ensemble varié d'environnements interactifs et contrôlables malgré un entraînement à partir de données vidéo uniquement.

Nom : 4.PNG
Affichages : 1472
Taille : 5,6 Ko
Une nouvelle classe de modèles génératifs : Genie ne nécessite que des données vidéo pour la formation

Des améliorations évidentes peuvent être apportées au modèle. Genie hérite de certaines des faiblesses d'autres modèles de transformateurs autorégressifs et peut halluciner des futurs irréalistes. Et bien que Google ai progressé dans les représentations spatio-temporelles, ils sont toujours limités à 16 images de mémoire, ce qui rend difficile l'obtention d'environnements cohérents sur de longs horizons. Enfin, Genie fonctionne actuellement autour de 1FPS et nécessite des avancées futures pour atteindre une fréquence d'images efficace pour l'interaction.

Google :

Nous pensons néanmoins que Genie offre un vaste potentiel pour la recherche future. Compte tenu de sa généralité, le modèle pourrait être entraîné à partir d'une proportion encore plus importante de vidéos Internet afin de simuler des environnements divers, réalistes et imaginaires. En outre, nous n'avons fait qu'effleurer les possibilités d'utilisation de Genie pour la formation d'agents, mais étant donné que le manque d'environnements riches et diversifiés est l'une des principales limites du RL, nous pourrions ouvrir de nouvelles voies pour la création d'agents plus généralement capables.
Impact plus large

  • Impact sociétal : Genie pourrait permettre à un grand nombre de personnes de générer leurs propres expériences de jeu. Cela pourrait être positif pour ceux qui souhaitent exprimer leur créativité d'une nouvelle manière, par exemple les enfants qui pourraient concevoir et pénétrer dans leurs propres mondes imaginaires. Google reconnait qu'avec des avancées significatives, il sera essentiel d'explorer les possibilités d'utiliser cette technologie pour amplifier la génération de jeux et la créativité humaine existantes, et de donner aux industries concernées les moyens d'utiliser Genie pour permettre leur prochaine génération de développement de mondes jouables.

  • Données d'entraînement et poids : Google a choisi de ne pas publier les points de contrôle du modèle entraîné, l'ensemble de données d'entraînement du modèle ou des exemples tirés de ces données. Ils aimeraient avoir l'occasion de s'engager plus avant avec la communauté des chercheurs (et des joueurs de jeux vidéo) et de s'assurer que toute diffusion future de ce type soit respectueuse, sûre et responsable.

  • Reproductibilité : Google déclare comprendre qu'il peut être difficile pour les chercheurs disposant de peu de moyens de calcul de reproduire ses principaux résultats. Afin d'atténuer ce problème, ils ont décrit un exemple à plus petite échelle, entièrement reproductible, qui peut être exécuté sur une seule TPU (ou GPU) de milieu de gamme. Étant donné que de nombreux choix de conception se transposent entre les deux environnements, Google pense que cela permettra à la communauté élargie d'étudier les améliorations architecturales futures ainsi que les orientations de recherche supplémentaires résultant de son travail.


Source : Google Deepmind

Et vous ?

Pensez-vous que ce modèle "Genie" de Google Deepmind soit crédible ou pertinent ?
Quel est votre avis sur le sujet ?

Voir aussi :

Gemini Pro 1.5 : l'une des utilisations du modèle d'IA de Google est de générer du code à partir de vidéos, avec un contexte d'1 million de jetons, dépassant Claude 2.1 et gpt-4-turb

Google donne plus de détails sur Gemma, une famille de modèles d'IA ouverts qui a servi à créer Gemini, avec une nouvelle boîte à outils d'IA générative pour l'adapter à vos besoins

L'IA perturbera-t-elle l'industrie du jeu vidéo ? L'entreprise de capital-risque Andreessen Horowitz répond par l'affirmative et entrevoit des changements majeurs à plusieurs niveaux