IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)
Navigation

Inscrivez-vous gratuitement
pour pouvoir participer, suivre les réponses en temps réel, voter pour les messages, poser vos propres questions et recevoir la newsletter

Intelligence artificielle Discussion :

Créez bientôt votre propre Holodeck : Google Deepmind dévoile Genie


Sujet :

Intelligence artificielle

  1. #1
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    2 230
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 2 230
    Par défaut Créez bientôt votre propre Holodeck : Google Deepmind dévoile Genie
    Créez bientôt votre propre Holodeck : Google Deepmind dévoile Genie, un modèle d'IA créant des mondes virtuels jouables à partir d'une seule image

    Genie, l'IA de Google Deepmind, redessine le paysage de la conception de jeux, démocratise le processus de création et offre un aperçu d'un avenir où l'IA génère du contenu de manière autonome. De la transformation de croquis en univers virtuels aux applications potentielles en robotique, Genie ouvre la voie à une nouvelle ère de créativité.

    Imaginez un monde où la barrière entre l'imagination et la réalité virtuelle s'estompe, où un simple croquis ou une ligne de texte peut se transformer en un environnement complexe et interactif. Ce n'est pas la prémisse d'un roman de science-fiction, mais la réalité d'un modèle d'IA révolutionnaire mis au point par des chercheurs de Google. Baptisée Genie, cette merveille de l'IA est sur le point de révolutionner le paysage de la conception de jeux en transformant des messages rudimentaires en mondes complexes et jouables de plates-formes en 2D. C'est comme si on assistait à la libération littérale d'un génie numérique, capable d'exaucer les souhaits les plus créatifs sur simple commande.

    Les mécanismes qui sous-tendent Genie sont aussi fascinants que ses capacités. Formée à partir de plus de 200 000 heures de jeu et d'autres vidéos provenant d'Internet, cette IA ne se contente pas de reproduire des jeux existants, elle les réimagine. Le développement traditionnel de jeux nécessite souvent des compétences approfondies en matière de codage et de conception, mais Genie cherche à démocratiser ce processus, en rendant la création de jeux accessible aux personnes disposant d'un bagage technique minimal.

    Genie se distingue de toutes les technologies existantes par son apprentissage non supervisé et sa capacité à comprendre les mouvements et le contrôle des personnages. Cette IA ne se contente pas de créer ; elle apprend, évolue et comprend la physique de ses créations, laissant entrevoir un avenir où l'IA pourra générer du contenu de manière autonome avec peu ou pas d'intervention humaine.

    Nom : 1.png
Affichages : 8851
Taille : 215,3 Ko

    L'un des aspects les plus convaincants de Genie est sa capacité à traduire n'importe quelle image en un monde jouable. Cette capacité laisse entrevoir une myriade d'applications, de la conception de jeux aux outils éducatifs et au-delà. Imaginez des étudiants esquissant leurs interprétations d'événements historiques et les voyant prendre vie dans une plateforme interactive en 2D. Ou encore des développeurs de jeux qui prototypent rapidement des niveaux et des scénarios directement à partir de leurs gribouillis.

    Les implications de la technologie de Genie vont encore plus loin, laissant entrevoir des utilisations potentielles en robotique pour la navigation et l'accomplissement de tâches, car la compréhension et la simulation de la physique du monde réel pourraient s'avérer inestimables pour former l'IA à des applications réelles.

    À l'heure actuelle, Genie est un avant-goût de la recherche sans date de sortie prévue, qui incarne la promesse et le potentiel de l'IA dans les industries créatives. La technologie qui sous-tend Genie, en particulier son approche de l'apprentissage non supervisé et de la compression vidéo, marque une étape importante dans notre compréhension et notre utilisation de l'IA.

    Cependant, un grand pouvoir s'accompagne d'une grande responsabilité. À mesure qu'on se rapproche de l'effacement de la frontière entre la créativité humaine et la génération de contenu assistée par l'IA, les questions relatives à l'originalité, aux droits d'auteur et aux implications éthiques de l'IA dans le domaine des arts et au-delà se posent avec acuité. Néanmoins, le projet Genie témoigne des capacités sans cesse croissantes de l'intelligence artificielle et nous invite à rêver d'un avenir où nos visions créatives pourront prendre vie avec la simplicité d'un souhait.

    Découvrez les dessous du projet Genie !

    Genie: Generative Interactive Environments

    Google :

    Nous présentons Genie, le premier environnement interactif génératif formé de manière non supervisée à partir de vidéos Internet non étiquetées. Le modèle peut être invité à générer une variété infinie de mondes virtuels contrôlables par l'action, décrits par du texte, des images synthétiques, des photographies et même des croquis. Avec des paramètres de 11B, Genie peut être considéré comme un modèle de monde de base. Il est composé d'un tokenizer vidéo spatio-temporel, d'un modèle dynamique autorégressif et d'un modèle d'action latent simple et évolutif.

    Genie permet aux utilisateurs d'agir dans les environnements générés image par image malgré l'entraînement sans étiquette d'action de vérité au sol ou autres exigences spécifiques au domaine que l'on trouve généralement dans la littérature sur les modèles du monde. En outre, l'espace d'action latente appris qui en résulte facilite l'entraînement des agents à imiter des comportements à partir de vidéos inédites, ce qui ouvre la voie à l'entraînement des agents généralistes du futur.
    Ces dernières années ont vu l'émergence de l'IA générative, avec des modèles capables de générer des contenus nouveaux et créatifs. Grâce à des percées dans des architectures telles que les transformateurs, à des avancées dans le domaine du matériel et à une attention récente portée à la mise à l'échelle des modèles et des ensembles de données, on peut désormais générer un langage cohérent et conversationnel, ainsi que des images nettes et esthétiquement agréables à partir d'une invite textuelle. Les premiers signes indiquent que la génération de vidéos sera une autre frontière, avec des résultats récents suggérant que de tels modèles peuvent également bénéficier de l'échelle. Pourtant, il reste un fossé entre le niveau d'interaction et d'engagement des modèles vidéo génératifs et les outils linguistiques tels que ChatGPT, sans parler des expériences plus immersives.

    Et si, à partir d'un large corpus de vidéos provenant d'Internet, on pouvait non seulement former des modèles capables de générer de nouvelles images ou vidéos, mais aussi des expériences interactives entières ? Google propose des environnements interactifs génératifs, un nouveau paradigme pour l'IA générative dans lequel des environnements interactifs peuvent être générés à partir d'un simple texte ou d'une image. Son approche, Genie, est entraînée à partir d'un vaste ensemble de données de plus de 200 000 heures de vidéos de jeux sur Internet accessibles au public et, malgré un entraînement sans annotations d'action ou de texte, elle est contrôlable image par image grâce à un espace d'action latent appris. Avec les paramètres 11B, Genie présente des propriétés typiques des modèles de fondation : il peut prendre une image inédite comme invite, ce qui permet de créer et de jouer à des mondes virtuels entièrement imaginés.

    Nom : 2.png
Affichages : 2277
Taille : 445,1 Ko
    Exemple de trajectoires diverses

    Genie s'appuie sur des idées issues de modèles de génération vidéo de pointe, avec un choix de conception central : les transformateurs spatiotemporels (ST), qui sont utilisés dans toutes les composantes des modèles Google. Genie utilise un nouveau tokenizer vidéo et extrait les actions latentes par le biais d'un modèle d'action causal. Les jetons vidéo et les actions latentes sont transmis à un modèle dynamique qui prédit de manière autorégressive l'image suivante à l'aide de MaskGIT.

    Google :

    Nous fournissons une analyse rigoureuse de la mise à l'échelle de notre architecture en ce qui concerne la taille du lot et du modèle, que nous faisons varier de 40M à 2,7B paramètres. Les résultats montrent que notre architecture s'adapte gracieusement à des ressources informatiques supplémentaires, ce qui permet d'obtenir un modèle final de 11 milliards de paramètres. Nous entraînons Genie sur un ensemble filtré de 30 000 heures de vidéos de jeux sur Internet provenant de centaines de jeux de plateforme en 2D, produisant ainsi un modèle de monde de base pour ce contexte.
    Pour démontrer la généralité de cette approche, Google entraîne également un modèle séparé sur des vidéos de robots sans action provenant de l'ensemble de données RT1 , en apprenant un environnement génératif avec des actions latentes cohérentes. Enfin, Google montre que les actions latentes apprises à partir de vidéos Internet peuvent être utilisées pour inférer des politiques à partir de vidéos sans action inédites d'environnements d'apprentissage par renforcement (RL) simulés, indiquant que Genie peut détenir la clé pour déverrouiller des données illimitées pour la formation de la prochaine génération d'agents généralistes.

    Nom : 3.PNG
Affichages : 2265
Taille : 138,2 Ko
    Entraînement du modèle Genie

    Conclusion et travaux futurs

    Google a proposé Genie, une nouvelle forme d'IA générative qui permet à tout le monde, même aux enfants, de rêver, de créer et de pénétrer dans des mondes générés comme on peut le faire avec des environnements simulés conçus par des humains. Genie peut être amené à générer un ensemble varié d'environnements interactifs et contrôlables malgré un entraînement à partir de données vidéo uniquement.

    Nom : 4.PNG
Affichages : 2269
Taille : 5,6 Ko
    Une nouvelle classe de modèles génératifs : Genie ne nécessite que des données vidéo pour la formation

    Des améliorations évidentes peuvent être apportées au modèle. Genie hérite de certaines des faiblesses d'autres modèles de transformateurs autorégressifs et peut halluciner des futurs irréalistes. Et bien que Google ai progressé dans les représentations spatio-temporelles, ils sont toujours limités à 16 images de mémoire, ce qui rend difficile l'obtention d'environnements cohérents sur de longs horizons. Enfin, Genie fonctionne actuellement autour de 1FPS et nécessite des avancées futures pour atteindre une fréquence d'images efficace pour l'interaction.

    Google :

    Nous pensons néanmoins que Genie offre un vaste potentiel pour la recherche future. Compte tenu de sa généralité, le modèle pourrait être entraîné à partir d'une proportion encore plus importante de vidéos Internet afin de simuler des environnements divers, réalistes et imaginaires. En outre, nous n'avons fait qu'effleurer les possibilités d'utilisation de Genie pour la formation d'agents, mais étant donné que le manque d'environnements riches et diversifiés est l'une des principales limites du RL, nous pourrions ouvrir de nouvelles voies pour la création d'agents plus généralement capables.
    Impact plus large

    • Impact sociétal : Genie pourrait permettre à un grand nombre de personnes de générer leurs propres expériences de jeu. Cela pourrait être positif pour ceux qui souhaitent exprimer leur créativité d'une nouvelle manière, par exemple les enfants qui pourraient concevoir et pénétrer dans leurs propres mondes imaginaires. Google reconnait qu'avec des avancées significatives, il sera essentiel d'explorer les possibilités d'utiliser cette technologie pour amplifier la génération de jeux et la créativité humaine existantes, et de donner aux industries concernées les moyens d'utiliser Genie pour permettre leur prochaine génération de développement de mondes jouables.

    • Données d'entraînement et poids : Google a choisi de ne pas publier les points de contrôle du modèle entraîné, l'ensemble de données d'entraînement du modèle ou des exemples tirés de ces données. Ils aimeraient avoir l'occasion de s'engager plus avant avec la communauté des chercheurs (et des joueurs de jeux vidéo) et de s'assurer que toute diffusion future de ce type soit respectueuse, sûre et responsable.

    • Reproductibilité : Google déclare comprendre qu'il peut être difficile pour les chercheurs disposant de peu de moyens de calcul de reproduire ses principaux résultats. Afin d'atténuer ce problème, ils ont décrit un exemple à plus petite échelle, entièrement reproductible, qui peut être exécuté sur une seule TPU (ou GPU) de milieu de gamme. Étant donné que de nombreux choix de conception se transposent entre les deux environnements, Google pense que cela permettra à la communauté élargie d'étudier les améliorations architecturales futures ainsi que les orientations de recherche supplémentaires résultant de son travail.


    Source : Google Deepmind

    Et vous ?

    Pensez-vous que ce modèle "Genie" de Google Deepmind soit crédible ou pertinent ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    Gemini Pro 1.5 : l'une des utilisations du modèle d'IA de Google est de générer du code à partir de vidéos, avec un contexte d'1 million de jetons, dépassant Claude 2.1 et gpt-4-turb

    Google donne plus de détails sur Gemma, une famille de modèles d'IA ouverts qui a servi à créer Gemini, avec une nouvelle boîte à outils d'IA générative pour l'adapter à vos besoins

    L'IA perturbera-t-elle l'industrie du jeu vidéo ? L'entreprise de capital-risque Andreessen Horowitz répond par l'affirmative et entrevoit des changements majeurs à plusieurs niveaux
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

  2. #2
    Communiqués de presse

    Femme Profil pro
    Traductrice Technique
    Inscrit en
    Juin 2023
    Messages
    2 230
    Détails du profil
    Informations personnelles :
    Sexe : Femme
    Localisation : France

    Informations professionnelles :
    Activité : Traductrice Technique

    Informations forums :
    Inscription : Juin 2023
    Messages : 2 230
    Par défaut DeepMind annonce Genie 2, son modèle de base de monde à grande échelle
    DeepMind annonce Genie 2, son modèle de base de monde à grande échelle : l'IA de Google crée des mondes 3D jouables à partir d'une simple invite.

    Google DeepMind dévoile Genie 2, un modèle d'IA capable de créer des mondes 3D jouables à partir d'une simple invite. Genie 2 serait une avancée significative en termes d'échelle. De plus, Genie 2 pourrait créer des environnements riches et variés pour les agents d'intelligence artificielle (IA), et leur permettre d'y agir. Deepmind pense que Genie 2 est la voie à suivre pour résoudre un problème structurel de formation d'agents incarnés en toute sécurité, tout en atteignant l'ampleur et la généralité requises pour progresser vers l'AGI.

    Un nouveau jour, une nouvelle annonce de développement de modèle d'intelligence artificielle (IA). Alors que différentes entreprises ne cessent de lancer des produits et des fonctionnalités d'IA, Google présente un nouveau modèle d'IA. Baptisé Genie 2, ce modèle serait capable de générer des mondes interactifs en 3D à partir d'une simple invite. Ce modèle est la version de Genie, un modèle d'IA que Google Deepmind a dévoilé en février 2024.

    Genie, l'IA de Google Deepmind, redessine le paysage de la conception de jeux, démocratise le processus de création et offre un aperçu d'un avenir où l'IA génère du contenu de manière autonome. De la transformation de croquis en univers virtuels aux applications potentielles en robotique, Deepmind souhaite ouvrir la voie à une nouvelle ère de créativité avec Genie.

    Avec Genie 2, vous pourrez générer une scène interactive en temps réel à partir d'une simple image et d'une description textuelle. Comme son nom l'indique, "Genie" se veut être un véritable génie qui exauce vos souhaits. DeepMind affirme que Genie 2 peut générer une "grande diversité de mondes 3D riches", y compris des mondes dans lesquels vous pouvez agir. Du saut à la natation, tout peut se faire à l'aide d'une souris ou d'un clavier. Le modèle d'IA est entraîné sur des vidéos et a la capacité d'améliorer les animations, les interactions entre les objets, l'éclairage, les reflets, la physique et le comportement des "PNJ".


    Outre ces fonctionnalités, DeepMind affirme que Genie 2 peut également générer des mondes cohérents avec différentes perspectives. Il montrera deux "mondes 3D" différents pendant une minute, la plupart durant 10 à 20 secondes. Certains analystes suggèrent que les simulations de Genie 2 peuvent ressembler à des jeux vidéo AAA. Le nouvel outil d'IA peut créer des scénarios de jeux et des environnements en 3D.

    Cependant, les critiques ont soulevé des questions sur la cohérence, l'artifice et les problèmes liés aux hallucinations. Certains ont même demandé si Genie 2 n'était pas en train de créer des copies non autorisées des jeux vidéo qu'il venait de voir ou sur lesquels il s'entraînait. En réponse à ces questions, l'équipe de DeepMind a déclaré que Genie 2 ne pouvait se souvenir que de certaines parties d'une scène simulée. Cela signifie qu'il ne copiera pas et ne sauvegardera pas les données de jeux aléatoires. L'entreprise a expliqué que cela le met à l'abri des problèmes de violation des droits d'auteur.

    Citation Envoyé par Google Deepmind
    Nous présentons aujourd'hui Genie 2, un modèle de base de monde capable de générer une variété infinie d'environnements 3D jouables et contrôlables par l'action pour la formation et l'évaluation d'agents incarnés. Basé sur une image unique, il peut être joué par un agent humain ou IA à l'aide d'un clavier et d'une souris.

    Les jeux jouent un rôle clé dans le monde de la recherche sur l'intelligence artificielle (IA). Leur nature attrayante, leur combinaison unique de défis et leurs progrès mesurables en font des environnements idéaux pour tester et faire progresser les capacités de l'IA en toute sécurité.

    En effet, les jeux sont importants pour Google DeepMind depuis sa création. Depuis nos premiers travaux avec les jeux Atari, les percées telles qu'AlphaGo et AlphaStar, jusqu'à nos recherches sur les agents généralistes en collaboration avec les développeurs de jeux, les jeux ont été au cœur de nos recherches. Cependant, la formation d'agents incarnés plus généraux a toujours été entravée par la disponibilité d'environnements de formation suffisamment riches et diversifiés.

    Comme nous le montrons, Genie 2 pourrait permettre aux futurs agents d'être formés et évalués dans un nombre illimité de mondes nouveaux. Notre recherche ouvre également la voie à de nouveaux flux de travail créatifs pour le prototypage d'expériences interactives.

    Voici les caractéristiques de Genie 2 selon Google Deepmind :

    Capacités émergentes d'un modèle de base de monde

    Jusqu'à présent, les modèles de monde ont été largement limités à la modélisation de domaines étroits. Dans Genie 1, Deepmind a présenté une approche permettant de générer un large éventail de mondes en 2D. Genie 2 représente une avancée significative en termes d'échelle. Genie 2 peut générer une grande diversité de mondes 3D.

    Genie 2 est un modèle de monde, ce qui signifie qu'il peut simuler des mondes virtuels, y compris les conséquences de toute action (par exemple, sauter, nager, etc.). Il a été entraîné sur un ensemble de données vidéo à grande échelle et, comme d'autres modèles génératifs, il démontre diverses capacités émergentes à grande échelle, telles que les interactions entre objets, l'animation de personnages complexes, la physique et la capacité de modéliser et donc de prédire le comportement d'autres agents.

    Nom : 1.jpg
Affichages : 12418
Taille : 64,8 Ko

    Genie 2 permet un prototypage rapide

    Genie 2 facilite le prototypage rapide de diverses expériences interactives, ce qui permet aux chercheurs d'expérimenter rapidement de nouveaux environnements pour former et tester des agents d'IA incarnés.

    Grâce aux capacités de généralisation hors distribution de Genie 2, les concepts et les dessins peuvent être transformés en environnements interactifs. Les artistes et les concepteurs peuvent ainsi créer rapidement des prototypes, ce qui permet d'amorcer le processus créatif de la conception d'environnements et d'accélérer la recherche.

    Agents d'IA agissant à l'intérieur du modèle de monde

    En utilisant Genie 2 pour créer rapidement des environnements riches et variés pour les agents d'intelligence artificielle (IA), les chercheurs peuvent également générer des tâches d'évaluation que les agents n'ont pas vues pendant leur formation. L'agent SIMA est conçu pour accomplir des tâches dans une série de jeux en 3D en suivant des instructions en langage naturel. L'agent SIMA a également été utilisé pour évaluer les capacités de Genie 2.

    Bien que cette recherche en soit encore à ses débuts et qu'il y ait encore beaucoup à faire pour améliorer les capacités de génération d'agents et d'environnements, Deepmind pense que Genie 2 est la voie à suivre pour résoudre un problème structurel de formation d'agents incarnés en toute sécurité, tout en atteignant l'ampleur et la généralité requises pour progresser vers l'AGI.

    Modèle de diffusion de monde

    Genie 2 est un modèle de diffusion latent auto-régressif, entraîné sur un vaste ensemble de données vidéo. Après avoir traversé un auto-encodeur, les images latentes de la vidéo sont transmises à un grand modèle de dynamique de transformation, entraîné avec un masque causal similaire à celui utilisé par les grands modèles de langage.

    Au moment de l'inférence, Genie 2 peut être échantillonné de manière auto-régressive, en prenant en compte les actions individuelles et les images latentes passées, image par image. Deepmind a utilisé un guidage sans classificateur pour améliorer la contrôlabilité des actions.

    Nom : 2.jpg
Affichages : 3099
Taille : 44,2 Ko

    Développer Genie 2 de manière responsable

    Genie 2 montre le potentiel des modèles de base de monde pour créer divers environnements 3D et accélérer la recherche sur les agents. Cette direction de recherche n'en est qu'à ses débuts et nous sommes impatients de continuer à améliorer les capacités de génération de monde de Genie en termes de généralité et de cohérence.

    Comme pour la LMSI, les recherches de Deepmind visent à mettre au point des systèmes et des agents d'IA plus généraux, capables de comprendre et d'exécuter en toute sécurité un large éventail de tâches d'une manière qui soit utile aux personnes en ligne et dans le monde réel.

    Source : Présentation de Genie 2

    Et vous ?

    Pensez-vous que ce nouveau modèle de Deepmind est crédible ou pertinent ?
    Quel est votre avis sur le sujet ?

    Voir aussi :

    La nouvelle IA de Google pour les jeux vidéo vise à dépasser le stade de l'"adversaire surhumain" et à devenir un "partenaire obéissant" qui interprète et exécute des instructions en langage naturel

    Oasis, le premier jeu vidéo entièrement généré par IA : une avancée majeure ou une réplique de Minecraft, avec des questions juridiques en toile de fond ?

    L'IA prend déjà des emplois dans l'industrie du jeu vidéo : des acteurs majeurs comme Activision Blizzard, qui a récemment licencié, utilisent la GenAI pour le développement de jeux, selon une enquête
    Publication de communiqués de presse en informatique. Contribuez au club : corrections, suggestions, critiques, ... Contactez le service news et Rédigez des actualités

Discussions similaires

  1. Pourquoi vous devriez utiliser votre propre Makefile
    Par mamelouk dans le forum Eclipse C & C++
    Réponses: 3
    Dernier message: 28/10/2010, 09h48
  2. Creez votre propre Wolfenstein 3d
    Par Mat.M dans le forum Jeux
    Réponses: 0
    Dernier message: 05/08/2008, 02h15

Partager

Partager
  • Envoyer la discussion sur Viadeo
  • Envoyer la discussion sur Twitter
  • Envoyer la discussion sur Google
  • Envoyer la discussion sur Facebook
  • Envoyer la discussion sur Digg
  • Envoyer la discussion sur Delicious
  • Envoyer la discussion sur MySpace
  • Envoyer la discussion sur Yahoo