NVIDIA introduit l’IA dans le monde physique à la CVPR, avec NVIDIA Omniverse Cloud Sensor RTX, un nouvel ensemble de microservices, et JeDi qui simplifie la génération d'images personnalisées

NVIDIA Research présente plus de 50 articles à la conférence Computer Vision and Pattern Recognition (CVPR), introduisant des logiciels d'IA avec des applications potentielles dans les industries créatives, le développement de véhicules autonomes, les soins de santé et la robotique.

Lors de la prestigieuse conférence Computer Vision and Pattern Recognition (CVPR), NVIDIA a dévoilé NVIDIA Omniverse Cloud Sensor RTX, un nouvel ensemble de microservices qui permettent une simulation de capteurs physiquement précise pour accélérer le développement de machines entièrement autonomes de toutes sortes. NVIDIA célèbre également sa victoire à l'Autonomous Grand Challenge for End-to-End Driving at Scale, ainsi que la création du plus grand ensemble de données synthétiques intérieures de NVIDIA, créé à l'aide d'Omniverse, pour l'AI City Challenge de CVPR.

Les 57 articles de NVIDIA présentés au salon ouvrent également la voie dans le domaine en pleine évolution de l'IA générative visuelle, en développant de nouvelles techniques pour créer et interpréter des images, des vidéos et des environnements 3D. L'un de ces articles, JeDi, propose une nouvelle technique qui permet aux utilisateurs de personnaliser facilement le résultat d'un modèle de diffusion en quelques secondes à l'aide d'images de référence, surpassant ainsi les méthodes existantes.

Dans l'ensemble, ces annonces illustrent l'engagement de NVIDIA à utiliser l'IA générative comme nouvelle stratégie pour créer des applications pour des cas d'utilisation dans les déploiements d'IA physique, non seulement pour le développement d'AV, mais aussi pour les environnements industriels, la santé, la robotique et plus encore.

Nom : 1.jpg
Affichages : 2812
Taille : 72,9 Ko

Voici ce que Nvidia écrit sur sa présence à la conférence Computer Vision and Pattern Recognition (CVPR) :

Les chercheurs de NVIDIA sont à l'avant-garde du domaine de l'IA générative visuelle qui progresse rapidement, en développant de nouvelles techniques pour créer et interpréter des images, des vidéos et des environnements 3D.

Plus de 50 de ces projets seront présentés à la conférence Computer Vision and Pattern Recognition (CVPR), qui se tiendra du 17 au 21 juin à Seattle. Deux des articles - l'un sur la dynamique d'apprentissage des modèles de diffusion et l'autre sur les cartes haute définition pour les véhicules autonomes - sont finalistes pour le prix du meilleur article de la CVPR.

NVIDIA est également le vainqueur de l'Autonomous Grand Challenge de la CVPR dans la catégorie " End-to-End Driving at Scale " (conduite de bout en bout à grande échelle), une étape importante qui démontre l'utilisation par la société de l'IA générative pour des modèles complets d'auto-conduite. La proposition gagnante, qui a surpassé plus de 450 candidatures dans le monde, a également reçu le prix de l'innovation du CVPR.

La recherche de NVIDIA à CVPR comprend un modèle texte-image qui peut être facilement personnalisé pour représenter un objet ou un personnage spécifique, un nouveau modèle pour l'estimation de la pose d'un objet, une technique pour éditer les champs de radiance neuronale (NeRF) et un modèle de langage visuel qui peut comprendre les mèmes. D'autres articles présentent des innovations spécifiques à des domaines tels que l'automobile, les soins de santé et la robotique.

Collectivement, ces travaux présentent de puissants modèles d'IA qui pourraient permettre aux créateurs de donner plus rapidement vie à leurs visions artistiques, d'accélérer la formation de robots autonomes pour la fabrication et de soutenir les professionnels de la santé en les aidant à traiter les rapports de radiologie.

"L'intelligence artificielle, et l'IA générative en particulier, représente une avancée technologique cruciale ", a déclaré Jan Kautz, vice-président de la recherche sur l'apprentissage et la perception chez NVIDIA. "À la CVPR, NVIDIA Research partage la façon dont nous repoussons les limites du possible - des puissants modèles de génération d'images qui pourraient booster les créateurs professionnels aux logiciels de conduite autonome qui pourraient aider à créer la prochaine génération de voitures autopilotées ".

Au CVPR, NVIDIA a également annoncé NVIDIA Omniverse Cloud Sensor RTX, un ensemble de microservices qui permettent de simuler des capteurs physiquement précis afin d'accélérer le développement de machines entièrement autonomes de toutes sortes.
Nom : 2.jpg
Affichages : 365
Taille : 78,2 Ko

JeDi simplifie la génération d'images personnalisées

Les créateurs qui exploitent les modèles de diffusion, la méthode la plus répandue pour générer des images à partir d'invites textuelles, ont souvent un personnage ou un objet spécifique à l'esprit - ils peuvent, par exemple, développer un storyboard autour d'une souris animée ou réfléchir à une campagne publicitaire pour un jouet spécifique.

Des recherches antérieures ont permis à ces créateurs de personnaliser le résultat des modèles de diffusion pour se concentrer sur un sujet spécifique en utilisant le réglage fin - où un utilisateur entraîne le modèle sur un ensemble de données personnalisé - mais le processus peut prendre du temps et être inaccessible pour les utilisateurs généraux.

JeDi, un article rédigé par des chercheurs de l'université Johns Hopkins, du Toyota Technological Institute de Chicago et de NVIDIA, propose une nouvelle technique qui permet aux utilisateurs de personnaliser facilement le résultat d'un modèle de diffusion en quelques secondes à l'aide d'images de référence. L'équipe a constaté que le modèle atteint une qualité de pointe, surpassant de manière significative les méthodes existantes basées sur le réglage fin et celles sans réglage fin.

JeDi peut également être associé à la génération augmentée par récupération (RAG) pour générer des visuels spécifiques à une base de données, comme le catalogue de produits d'une marque.

Nom : 3.jpg
Affichages : 360
Taille : 68,6 Ko

Un nouveau modèle de fondation perfectionne la pose

Les chercheurs de NVIDIA présentent également FoundationPose, un modèle de base pour l'estimation et le suivi de la pose d'un objet qui peut être appliqué instantanément à de nouveaux objets au cours de l'inférence, sans nécessiter d'ajustement.

Le modèle, qui a établi un nouveau record sur un benchmark populaire pour l'estimation de la pose des objets, utilise soit un petit ensemble d'images de référence, soit une représentation 3D d'un objet pour comprendre sa forme. Il peut ensuite identifier et suivre la façon dont l'objet se déplace et tourne en 3D dans une vidéo, même dans des conditions de faible éclairage ou dans des scènes complexes avec des obstructions visuelles.

FoundationPose pourrait être utilisé dans des applications industrielles pour aider les robots autonomes à identifier et à suivre les objets avec lesquels ils interagissent. Il pourrait également être utilisé dans des applications de réalité augmentée où un modèle d'IA est utilisé pour superposer des éléments visuels sur une scène en direct.


NeRFDeformer transforme les scènes en 3D en un seul cliché

Un NeRF est un modèle d'IA capable de restituer une scène en 3D à partir d'une série d'images en 2D prises à différents endroits de l'environnement. Dans des domaines tels que la robotique, les NeRF peuvent être utilisés pour générer des rendus 3D immersifs de scènes complexes du monde réel, telles qu'une pièce encombrée ou un chantier de construction. Toutefois, pour apporter des modifications, les développeurs doivent définir manuellement la façon dont la scène s'est transformée, ou refaire entièrement le NeRF.

Des chercheurs de l'Université de l'Illinois Urbana-Champaign et de NVIDIA ont simplifié le processus avec NeRFDeformer. Cette méthode, présentée à la CVPR, permet de transformer avec succès un NeRF existant à l'aide d'une seule image RVB-D, qui est une combinaison d'une photo normale et d'une carte de profondeur qui saisit la distance qui sépare chaque objet d'une scène de l'appareil photo.

Nom : 4.jpg
Affichages : 365
Taille : 58,1 Ko

Le modèle de langage visuel VILA prend la mesure de la situation

Une collaboration de recherche CVPR entre NVIDIA et le Massachusetts Institute of Technology fait progresser l'état de l'art en matière de modèles de langage visuel, qui sont des modèles d'IA génératifs capables de traiter des vidéos, des images et du texte.

Le groupe a développé VILA, une famille de modèles de langage visuel open-source qui surpasse les réseaux neuronaux antérieurs sur des benchmarks clés qui testent la capacité des modèles d'IA à répondre à des questions sur les images. Le processus unique de pré-entraînement de VILA a débloqué de nouvelles capacités du modèle, notamment une meilleure connaissance du monde, un apprentissage en contexte plus fort et la capacité de raisonner sur plusieurs images.

La famille de modèles VILA peut être optimisée pour l'inférence à l'aide de la bibliothèque open-source NVIDIA TensorRT-LLM et peut être déployée sur les GPU NVIDIA dans les centres de données, les stations de travail et même les appareils périphériques.

Nom : 5.jpg
Affichages : 344
Taille : 61,3 Ko

L'IA générative alimente la conduite autonome et la recherche sur les villes intelligentes

Une douzaine d'articles de la CVPR rédigés par NVIDIA sont consacrés à la recherche sur les véhicules autonomes (VA). Parmi les autres points forts liés à la VA, citons :

  • La recherche appliquée de NVIDIA dans le domaine de la VA, qui a remporté l'Autonomous Grand Challenge de la CVPR.
  • Sanja Fidler, vice-présidente de la recherche en IA chez NVIDIA, fait une présentation sur les modèles de langage de vision lors de l'atelier sur la conduite autonome.
  • Producing and Leveraging Online Map Uncertainty in Trajectory Prediction, un article rédigé par des chercheurs de l'Université de Toronto et de NVIDIA, a été sélectionné comme l'un des 24 finalistes pour le prix du meilleur article de la CVPR.


Toujours à la CVPR, NVIDIA a fourni le plus grand ensemble de données synthétiques intérieures au AI City Challenge, aidant les chercheurs et les développeurs à faire avancer le développement de solutions pour les villes intelligentes et l'automatisation industrielle. Les ensembles de données du défi ont été générés à l'aide de NVIDIA Omniverse, une plate-forme d'API, de SDK et de services qui permettent aux développeurs de créer des applications et des flux de travail basés sur l'Universal Scene Description (OpenUSD).

NVIDIA Research compte des centaines de scientifiques et d'ingénieurs dans le monde entier, avec des équipes qui se concentrent sur des sujets tels que l'IA, l'infographie, la vision par ordinateur, les voitures autonomes et la robotique.

Source : Nvidia

Et vous ?

Quel est votre avis sur ces annonces ?

Voir aussi :

Nvidia lance la simulation de monde virtuel omniverse pour le développement de nouveaux robots, NVIDIA Omniverse permet de minimiser l'écart entre la simulation et la réalité

C'est la "prochaine vague" de l'IA, selon Jensen Huang, PDG de Nvidia : Les robots et l'IA qui comprennent les lois de la physique sont la prochaine vague et toutes les usines seront robotisées

Jensen Huang, PDG de Nvidia, révèle une stratégie secrète en matière d'IA : « Nous avons investi dans l'IA en toute discrétion », annonce-t-il lors d'une conférence