NVIDIA a développé une approche pour transformer presque instantanément des photos 2D en scènes 3D

**Stéphane le calme** · 26/03/2022, 20h40

L'IA NeRF de NVIDIA permet de reconstruire presque instantanément une scène 3D à partir d'une poignée d'images 2D,
Instant NeRF n'a besoin que de quelques secondes pour s'entraîner et produire des résultats

Les chercheurs de NVIDIA ont développé une approche pour reconstruire une scène 3D à partir d'une poignée d'images 2D « presque instantanément ». Pour ce faire, ils exploitent une nouvelle technologie populaire appelée Neural Radiance Fields (NeRF), qui est parfois accélérée jusqu'à 1 000 fois par rapport aux implémentations concurrentes, selon les dires de l'entreprise. NeRF est capable d’entraîner « un petit réseau neuronal » en l’espace de quelques secondes à partir d’une flopée de photos, à condition toutefois de bien connaître les angles de prises de vue. Le modèle résultant permet ensuite de générer toutes les données nécessaires pour créer l’environnement 3D de la scène en question. Un calcul qui, selon NVIDIA, ne nécessite que quelques « dizaines de microsecondes ».

Une nouvelle technologie appelée Neural Radiance Field ou NeRF implique la formation d'algorithmes d'IA pour permettre la création d'objets 3D à partir de photos en deux dimensions. NeRF a la capacité de remplir les blancs, pour ainsi dire, en interpolant ce que les photos 2D n'ont pas capturé. C'est une astuce qui pourrait mener à des avancées dans divers domaines, tels que les jeux vidéo et la conduite autonome. Maintenant, NVIDIA a développé une nouvelle technique NeRF - la plus rapide à ce jour, selon la société - qui ne nécessite que quelques secondes pour s'entraîner et générer une scène 3D.

Il ne faut que quelques secondes pour former le modèle, appelé Instant NeRF, en utilisant des dizaines de photos fixes et les angles de caméra à partir desquels elles ont été prises. Après cela, il est capable de générer une scène 3D en seulement des « dizaines de millisecondes ». Comme les autres techniques NeRF, elle nécessite des images prises à partir de plusieurs positions. Et pour les photos avec plusieurs sujets, les photos prises sans trop de mouvement sont privilégiées, sinon le résultat serait flou.

Fournissant un contexte à sa démo, NVIDIA explique que les techniques NeRF précédentes pouvaient prendre des heures pour s'entraîner pour une scène, puis quelques minutes pour rendre les scènes cibles. Bien que les résultats des précédentes implémentations plus lentes aient été bons, les chercheurs de NVIDIA tirant parti de la technologie AI ont appuyé sur l'accélérateur dans les performances.

« Lorsque la première photo instantanée a été prise il y a 75 ans avec un appareil photo Polaroid, il était révolutionnaire de capturer rapidement le monde 3D dans une image 2D réaliste. Aujourd'hui, les chercheurs en intelligence artificielle travaillent à l'opposé : transformer une collection d'images fixes en une scène numérique 3D en quelques secondes.

« Connu sous le nom de rendu inverse, le processus utilise l'IA pour approximer le comportement de la lumière dans le monde réel, permettant aux chercheurs de reconstruire une scène 3D à partir d'une poignée d'images 2D prises sous différents angles. L'équipe NVIDIA Research a développé une approche qui accomplit cette tâche presque instantanément, ce qui en fait l'un des premiers modèles de ce type à combiner une formation de réseau neuronal ultra-rapide et un rendu rapide.

« NVIDIA a appliqué cette approche à une nouvelle technologie populaire appelée Neural Radiance Fields, ou NeRF. Le résultat, baptisé Instant NeRF, est la technique NeRF la plus rapide à ce jour, réalisant plus de 1 000 accélérations dans certains cas. Le modèle ne nécessite que quelques secondes pour s'entraîner sur quelques dizaines de photos fixes - plus des données sur les angles de caméra à partir desquels elles ont été prises - et peut ensuite restituer la scène 3D résultante en quelques dizaines de millisecondes ».

« Si les représentations 3D traditionnelles comme les maillages polygonaux s'apparentent à des images vectorielles, les NeRF sont comme des images bitmap : elles capturent de manière dense la façon dont la lumière rayonne à partir d'un objet ou à l'intérieur d'une scène », explique David Luebke, vice-président de la recherche graphique chez NVIDIA. « En ce sens, Instant NeRF pourrait être aussi important pour la 3D que les appareils photo numériques et la compression JPEG l'ont été pour la photographie 2D, augmentant considérablement la vitesse, la facilité et la portée de la capture et du partage 3D ».

Présenté lors d'une session au NVIDIA GTC cette semaine, Instant NeRF pourrait être utilisé pour créer des avatars ou des scènes pour des mondes virtuels, pour capturer les participants à une vidéoconférence et leurs environnements en 3D, ou pour reconstruire des scènes pour des cartes numériques 3D. En hommage aux premiers jours des images Polaroid, NVIDIA Research a recréé une photo emblématique d'Andy Warhol prenant une photo instantanée, la transformant en une scène 3D à l'aide d'Instant NeRF.

Qu'est-ce que NeRF ?

NeRF utilisent des réseaux de neurones pour représenter et restituer des scènes 3D réalistes basées sur une collection d'entrées d'images 2D.

Collecter des données pour alimenter un NeRF, c'est un peu comme être un photographe de tapis rouge essayant de capturer la tenue d'une célébrité sous tous les angles - le réseau de neurones nécessite quelques dizaines d'images prises à partir de plusieurs positions autour de la scène, ainsi que la position de la caméra de chacun d'entre eux.

Dans une scène qui comprend des personnes ou d'autres éléments en mouvement, plus ces prises de vue sont rapides, mieux c'est. S'il y a trop de mouvement pendant le processus de capture d'image 2D, la scène 3D générée par l'IA sera floue.

À partir de là, un NeRF remplit essentiellement les blancs, entraînant un petit réseau de neurones pour reconstruire la scène en prédisant la couleur de la lumière rayonnant dans n'importe quelle direction, à partir de n'importe quel point de l'espace 3D. La technique peut même contourner les occlusions - lorsque des objets vus dans certaines images sont bloqués par des obstacles tels que des piliers dans d'autres images.

Nom : nvidia.png
Affichages : 30638
Taille : 146,6 Ko

Accélération 1 000x avec Instant NeRF

Bien qu'estimer la profondeur et l'apparence d'un objet sur la base d'une vue partielle soit une compétence naturelle pour les humains, c'est une tâche exigeante pour l'IA.

La création d'une scène 3D avec des méthodes traditionnelles prend des heures ou plus, selon la complexité et la résolution de la visualisation. L'introduction de l'IA dans l'image accélère les choses. Les premiers modèles NeRF rendaient des scènes nettes sans artefacts en quelques minutes, mais prenaient encore des heures à s'entraîner.

Instant NeRF, cependant, réduit le temps de rendu de plusieurs ordres de grandeur. Il s'appuie sur une technique développée par NVIDIA appelée codage de grille de hachage multi-résolution, qui est optimisée pour fonctionner efficacement sur les GPU NVIDIA. En utilisant une nouvelle méthode de codage des entrées, les chercheurs peuvent obtenir des résultats de haute qualité en utilisant un minuscule réseau de neurones qui fonctionne rapidement.

Le modèle a été développé à l'aide de la boîte à outils NVIDIA CUDA et de la bibliothèque Tiny CUDA Neural Networks. Puisqu'il s'agit d'un réseau de neurones léger, il peut être formé et exécuté sur un seul GPU NVIDIA - fonctionnant plus rapidement sur des cartes avec NVIDIA Tensor Cores.

La technologie pourrait être utilisée pour entraîner des robots et des voitures autonomes à comprendre la taille et la forme d'objets du monde réel en capturant des images 2D ou des séquences vidéo d'eux. Elle pourrait également être utilisée dans l'architecture et le divertissement pour générer rapidement des représentations numériques d'environnements réels que les créateurs peuvent modifier et développer.

Au-delà des NeRF, les chercheurs de NVIDIA explorent comment cette technique d'encodage d'entrée pourrait être utilisée pour accélérer plusieurs défis d'IA, notamment l'apprentissage par renforcement, la traduction de langue et les algorithmes d'apprentissage en profondeur à usage général.

Source : NVIDIA

Et vous ?

Aviez-vous déjà entendu parler de NeRF ? Qu'en pensez-vous ?

Que pensez-vous de la prouesse technologique de NVIDIA ?

Quelles applications possibles voyez-vous ?

Voir aussi :

Facebook passe derrière NVIDIA en matière de capitalisation boursière et est désormais la huitième entreprise américaine la plus valorisée, sa valeur est tombée en dessous de 600 Mds $

NVIDIA bloque le minage de cryptomonnaies sur les cartes RTX 3080 et 3070, afin de les rendre plus accessibles aux joueurs sur PC

**archqt** · 26/03/2022, 23h30

Impressionnant

**calvaire** · 27/03/2022, 10h02

impressionnant mais j'aimerais bien voir le résultat avec une plante ou un arbre.
Ils ont choisir volontairement un entrepôt avec des parpaing en béton.

**Aiekick** · 27/03/2022, 13h23

ouais impressionnat ce qui m'a surprits c'est que leur resultat a meme generé la transparance des verre de lunette.. avec le reflet et tout.

j'aurias bien voulu qu'ils nous montre le mesh.

**23JFK** · 27/03/2022, 13h38

La vidéo, c'est du marketing qui n'utilise pas la techno présentée, mais une artiste spécialiste dans l'art de l'immobilité autour de laquelle une caméra normale tourne.

**archqt** · 28/03/2022, 09h25

La vidéo, c'est du marketing qui n'utilise pas la techno présentée, mais une artiste spécialiste dans l'art de l'immobilité autour de laquelle une caméra normale tourne.

Vous voulez dire que la vidéo est un "fake" et que le résultat présenté n'est pas celui réellement généré ?

**onilink_** · 28/03/2022, 10h40

Envoyé par Aiekick

ouais impressionnat ce qui m'a surprits c'est que leur resultat a meme generé la transparance des verre de lunette.. avec le reflet et tout.

j'aurias bien voulu qu'ils nous montre le mesh.

Justement, si j'ai bien compris, ça ressort uniquement des images. C'est en gros un super système d'interpolation entre plusieurs prises de vue dans un espace 3d.
Je crois pas qu'y ai moyen d'obtenir un mesh ensuite, en dehors des techniques usuelles de photogrammétrie.

Envoyé par calvaire

impressionnant mais j'aimerais bien voir le résultat avec une plante ou un arbre.
Ils ont choisir volontairement un entrepôt avec des parpaing en béton.

Ça a l'air de fonctionner même avec des trucs bien plus compliqués.

Je vous invite a aller voir la vidéo de Two Minutes Papers sur le sujet.
Et encore la c'est la vieille version de Nerf:

**L33tige** · 28/03/2022, 12h17

Affectivement (moi inclus) je pense que beaucoup ont confondus ça avec la photogrammétrie.

**23JFK** · 28/03/2022, 15h58

Envoyé par archqt

Vous voulez dire que la vidéo est un "fake" et que le résultat présenté n'est pas celui réellement généré ?

Oui. Il n'y a aucun artefact signant une reconstruction de données par extrapolation sur la vidéo, la couleur noir (et ses nuances) du pullover étant particulièrement difficile à être "vue" par une IA ainsi que les fines pointes de cheveux. Les reflets d'objets hors champ présent sur les angles de vues des photos supposées avoir produit cette reconstruction sont ... inexplicables par la science. La techno est peut-être géniale, mais cette vidéo n'est pas une démo technique, juste un idéal marketing, du fake.

**L33tige** · 29/03/2022, 12h15

Envoyé par 23JFK

Oui. Il n'y a aucun artefact signant une reconstruction de données par extrapolation sur la vidéo, la couleur noir (et ses nuances) du pullover étant particulièrement difficile à être "vue" par une IA ainsi que les fines pointes de cheveux. Les reflets d'objets hors champ présent sur les angles de vues des photos supposées avoir produit cette reconstruction sont ... inexplicables par la science. La techno est peut-être géniale, mais cette vidéo n'est pas une démo technique, juste un idéal marketing, du fake.

En vérité si on exporte pas un mesh mais une série d'images, c'est parfaitement possible, dans le cas d'un mesh en effet les textures appliquées ne changeront pas dynamiquement ( moins de faire une surface vitrée qui reflète un hdri mais ça c'est tricher) En revanche, si cette IA utilise en temps réel les données de plusieurs photos sous différents angles, il est parfaitement possible d'envoyer la bonne image au moment ou la personne la regarde sous le même angle que la caméra qui l'à prise.

C'est un peu une version interactive des configurateurs qui permettent de voir sa voiture à 360 degrés en mettant 16 photos sur un carrousel, tu confonds avec la photogrammétrie.

**shenron666** · 04/04/2022, 11h26

Envoyé par L33tige

Affectivement (moi inclus) je pense que beaucoup ont confondus ça avec la photogrammétrie.

c'est de la photogrammétrie "augmentée" par l'IA

**tontonCD** · 05/04/2022, 17h48

- non je crois pas que ce soit un fake ; d'abord "l'artiste est immobile", encore heureux, la reconstruction aurait été difficile sinon. Mais on aurait pu utiliser 4 appareils photos synchronisés.
- ensuite, pour parler des cheveux, un système de reconstruction est capable de récupérer la photo originale et de l'appliquer de la manière adéquate par "texture mapping", c'est à dire que même si le mesh était un cylindre, ce qu'on verrait en positionnant la caméra de la scène 3d au même endroit que l'appareil de prise de vue, on verrait carrément la photo. Puisque le rendu final tourne autour, on peut en déduire que le mesh n'est pas mauvais.

NVIDIA a développé une approche pour transformer presque instantanément des photos 2D en scènes 3D

Discussions similaires

Partager

Partager