Des chercheurs dévoilent 3D-GPT, une IA capable de générer des mondes en 3D à partir de simples commandes textuelles, le système offre un moyen plus efficace et plus intuitif de créer des actifs 3D

Des chercheurs de l'université nationale australienne, de l'université d'Oxford et de l'académie d'intelligence artificielle de Pékin ont mis au point un nouveau système d'IA appelé "3D-GPT" qui peut générer des modèles 3D simplement à partir de descriptions textuelles fournies par un utilisateur.

Le système, décrit dans un article publié sur arXiv, offre un moyen plus efficace et plus intuitif de créer des actifs 3D par rapport aux flux de travail traditionnels de modélisation 3D.

3D-GPT est capable de "disséquer les tâches de modélisation 3D procédurale en segments accessibles et de désigner l'agent approprié pour chaque tâche", selon l'article. Il utilise plusieurs agents d'intelligence artificielle qui se concentrent chacun sur une partie différente de la compréhension du texte et de l'exécution des fonctions de modélisation.

Dans la quête d'une création de contenu automatisée et efficace, la génération de procédures, qui s'appuie sur des paramètres modifiables et des systèmes basés sur des règles, apparaît comme une approche prometteuse. Néanmoins, il peut s'agir d'une entreprise exigeante, étant donné sa nature complexe qui nécessite une compréhension approfondie des règles, des algorithmes et des paramètres. Pour réduire la charge de travail, 3D-GPT est un cadre qui utilise de grands modèles de langage (LLM) pour la modélisation 3D basée sur des instructions.

3D-GPT positionne les LLM comme des résolveurs de problèmes compétents, disséquant les tâches de modélisation 3D procédurales en segments accessibles et désignant l'agent approprié pour chaque tâche. 3D-GPT intègre trois agents principaux : l'agent de répartition des tâches, l'agent de conceptualisation et l'agent de modélisation. Ces agents collaborent pour atteindre deux objectifs.

Premièrement, il améliore les descriptions initiales concises de la scène, les faisant évoluer vers des formes détaillées tout en adaptant dynamiquement le texte en fonction des instructions ultérieures. Deuxièmement, il intègre la génération de procédures, en extrayant les valeurs des paramètres du texte enrichi afin d'interfacer sans effort avec les logiciels 3D pour la création d'actifs. Les études empiriques confirment que 3D-GPT non seulement interprète et exécute les instructions, produisant des résultats fiables, mais collabore aussi efficacement avec les concepteurs humains. De plus, il s'intègre parfaitement à Blender, ce qui permet d'élargir les possibilités de manipulation.

Les travaux mettent en évidence le potentiel des LLM dans la modélisation 3D et offrent un cadre de base pour les progrès futurs en matière de génération de scènes et d'animation.

Les auteurs ont présenté 3D-GPT, un nouveau cadre sans formation pour la modélisation 3D guidée par les instructions et intégrée de manière transparente à la génération de procédures. En s'appuyant sur les capacités des LLM, 3DGPT vise à améliorer la communication entre l'homme et l'intelligence artificielle dans le contexte de la conception 3D. Cette approche implique les efforts de collaboration de trois agents fonctionnant comme une équipe de modélisation 3D cohésive, produisant en fin de compte un fichier de modélisation 3D, par opposition aux représentations neuronales 3D conventionnelles.

Nom : 3D.png
Affichages : 1855
Taille : 150,4 Ko
Figure 1 : Vue d'ensemble de 3D-GPT. 3D-GPT utilise des LLM en tant que système multi-agents avec trois agents collaboratifs pour la génération procédurale de 3D. Ces agents consultent les documents du générateur procédural, déduisent les paramètres des fonctions et produisent du code Python. Le script de code généré s'interface avec l'API de Blender pour la création et le rendu de contenu 3D.

En outre, cette méthode produit systématiquement des résultats de haute qualité, s'adapte à des scènes étendues, garantit la cohérence 3D, offre des capacités de modélisation et d'édition des matériaux et facilite le traçage réel des rayons afin d'obtenir des visualisations plus vraies que nature. Les expériences empiriques montrent le potentiel des LLM pour le raisonnement, la planification et l'utilisation d'outils dans la modélisation 3D procédurale. Limites et orientations potentielles. Bien que le cadre mis au point ait donné des résultats prometteurs en matière de modélisation 3D, étroitement alignés sur les instructions de l'utilisateur, il est essentiel de reconnaître plusieurs limites :

1) Contrôle des courbes et conception des ombres limités :

Actuellement, le cadre ne dispose pas de capacités avancées pour le contrôle précis des courbes et la conception d'ombrages complexes. Les tâches impliquant la manipulation de branches d'arbres ou le mélange de couleurs pour les textures de feuilles restent difficiles.


2) Dépendance à l'égard des algorithmes de génération de procédures :

L'efficacité de ce cadre dépend de la qualité et de la disponibilité des algorithmes de génération de procédures. Cette dépendance peut limiter les résultats dans des catégories spécifiques, telles que les cheveux et la fourrure.

3) Traitement des instructions multimodales :

Le traitement des instructions multimodales, y compris les entrées audio et les images, pose des problèmes et peut entraîner une perte d'informations. Ces limites offrent des indications précieuses pour la recherche et le développement futurs dans ce domaine. L'accent est mis sur trois directions convaincantes pour les recherches futures : LLM 3D Fine-Tuning : Il est prometteur d'affiner les LLM pour améliorer leurs capacités en matière de contrôle de la géométrie, de conception des ombres et de modélisation des textures fines. Ce raffinement rendra les LLM plus aptes à gérer des tâches de modélisation 3D complexes et à accorder un plus grand contrôle créatif sur les scènes 3D qui en résultent.

Découverte autonome de règles : En s'appuyant sur les capacités démontrées des LLM en matière de fabrication d'outils, on peut envisager de développer un système de modélisation 3D autonome qui réduise l'intervention humaine. Cela pourrait permettre aux LLM de découvrir de manière autonome des règles de génération pour de nouvelles classes d'objets et de scènes, élargissant ainsi le potentiel créatif.

Source : Article des chercheurs de l'université nationale australienne

Et vous ?

Quel est votre avis sur ces recherches ?
Que pensez-vous de 3D-GPT ?

Voir aussi :

98 % des deepfakes sont utilisés dans des contenus pornographiques, selon une étude de Home Security Heroes

DALL-E 3 est maintenant disponible dans ChatGPT Plus et Enterprise, permettant aux abonnés payants de ChatGPT d'utiliser le générateur d'images