Nvidia GANverse3D è l'IA che rende 3D i modelli 2D

Il programma della Graphics Technology Conference 2021 di Nvidia è particolarmente fitto e variegato e, oltre al consueto keynote dalla cucina di Jensen Huang e alla caccia al tesoro per una GeForce RTX 3090 che ha accompagnato l'inizio della kermesse, prevede numerosi panel per addetti ai lavori e creator. Questa caccia è stata contraddistinta da un simbolo nuovo, un neurone dorato i cui dendriti sono rappresentati da lampadine. Il richiamo alla genialità e alla creatività è stato ulteriormente evidenziato nel corso del keynote, riassunto in un post sul blog Nvidia con l'eloquente titolo: "Il CEO Nvidia introduce i software, i processori e i supercomputer per i 'da Vinci' del nostro tempo".

I panel della GTC 2021 includevano, quindi, numerosi contenuti dedicati non solo agli sviluppatori di videogiochi, ma anche a creator, designer e architetti. Nvidia punta a una differenziazione dei propri prodotti, come dimostrato dall'annuncio della CPU Grace, la prima CPU dell'azienda dedicata ai datacenter. Questo rinnovato dinamismo si concretizza nel porre al centro Nvidia Omniverse, piattaforma multi-GPU di simulazione e collaborazione in tempo reale dedicata a creator, sviluppatori e professionisti. Abbiamo avuto modo di testare le capacità di Nvidia Omniverse già da settembre 2020 con l'uscita della serie GeForce RTX 30xx, grazie all'early access delle funzioni Machinima, Reflex e Broadcast.

Abbiamo avuto l'invito e il piacere di seguire uno di questi, intitolato "NVIDIA Graphics/AI Research". Richard Kerris, general manager di Nvidia Omniverse, e Sanja Fidler, direttrice del Nvidia AI Research Lab di Toronto, ci hanno presentato una nuova, sorprendente applicazione della IA: un nuovo motore di deep learning che crea modelli 3D a partire da semplici immagini 2D all'interno di Nvidia Omniverse. L'applicazione è stata ribattezzata GANverse3D: i modelli possono essere poi ulteriormente trasformati in ambienti virtuali. Come funziona questa nuova tecnologia? I ricercatori e le ricercatrici del Nvidia AI Research Lab - un team composto da più di 200 scienziati specializzato in IA, computer vision, auto a guida autonoma, robotica e grafica - hanno dedicato un ampio paper di ricerca per rispondere a questa domanda. Realizzato in collaborazione con le Università di Toronto, Stanford e Waterloo, il Vector Institute e il Computer Science and Artificial Intelligence Laboratory del MIT e posto in peer review lo scorso 18 ottobre 2020, il documento enuncia nel dettaglio il funzionamento di GANverse3D.

Il presupposto del funzionamento di GANverse3D per Nvidia Omniverse è che si ricorra al "rendering differenziabile" per addestrare le reti a eseguire compiti di "grafica inversa", come prevedere le geometrie tridimensionali a partire da immagini 2D. Per addestrare i software, finora, era necessario ricorrere a immagini da differenti punti di vista dell'oggetto - nell'industria dell'automotive, per esempio, un fotografo doveva camminare intorno a un veicolo parcheggiato e scattare foto da diverse angolazioni. Le Generative Generative Adversarial Networks (GAN), un'applicazione recente delle IA, sembrano poter acquisire l'idea di tridimensionalità durante l'addestramento: un piccolo miglioramento rispetto al passato, ma che comunque richiedeva fonti di immagini dettagliate.

L'approccio del Nvidia AI Research Lab si è realizzato in due passaggi. Il primo: sfruttare le GAN come un generatore di dati con molteplici punti di vista, per addestrare una rete grafica inversa utilizzando un renderer differenziabile, non necessariamente tridimensionali e basati su set di dati esistenti. A questo punto la rete grafica inversa "addestrata" diviene un insegnante per la GAN che poi dovrà trasformare un'immagine bidimensionale in un render 3D. La GAN diviene così un "renderer neurale" 3D controllabile, complementare ai tradizionali renderer grafici. Il documento si conclude con un'importante annotazione dei ricercatori, che affermano come: "il nostro approccio ottenga risultati di ricostruzione 3D di qualità significativamente superiore, pur richiedendo 10.000 nodi in meno rispetto ai set di dati standard [...]".

Senza ricorrere ad alcuna risorsa tridimensionale, "abbiamo trasformato un modello GAN in un generatore di dati molto efficiente, in modo da poter creare oggetti 3D da qualsiasi immagine 2D sul Web - ha dichiarato Wenzheng Chen, ricercatore tra gli autori del documento. "Poiché abbiamo addestrato la GAN su immagini reali, invece che su immagini di repertorio basate su dati sintetici, l'IA elabora con maggior precisione i modelli 3D e li trae dal mondo reale", ha dichiarato il ricercatore NVIDIA Jun Gao, un autore del progetto. La ricerca alla base di GANverse3D sarà presentata in due prossime conferenze: a maggio, durante la International Conference on Learning Representations, e a giugno, in occasione della Conference on Computer Vision and Pattern Recognition.

Dopo l'addestramento, GANverse3D necessita di una sola immagine 2D per prevedere un modello 3D. In qualità di estensione della piattaforma Nvidia Omniverse, se eseguito su GPU Nvidia RTX, qualsiasi immagine bidimensionale potrà essere trasformata in un render tridimensionale totalmente controllabile dagli sviluppatori, che possono modificarlo ulteriormente. Non solo: grazie agli Omniverse Connectors, gli sviluppatori possono usare le loro applicazioni 3D preferite in Omniverse per simulare complessi mondi virtuali anche con ray-tracing in tempo reale. L'insieme di queste feature e in particolare GANverse3D potrebbero aiutare architetti, creator, sviluppatori di giochi e designer ad aggiungere facilmente nuovi oggetti ai loro mockup, senza bisogno di competenze specifiche nella modellazione 3D oppure con un minor investimento del proprio budget nella realizzazione dei render.

Sul blog di Nvidia è possibile apprezzare una prima applicazione di GANverse 3D, che abbiamo avuto la fortuna di vedere in diretta durante la conferenza: la realizzazione di un modello tridimensionale di KITT, l'automobile supertecnologica comparsa al fianco di David Hasselhoff in Supercar e Knight Rider. Per ricreare KITT i ricercatori hanno usato un'immagine presa dal web e lasciato che GANverse3D realizzasse una corrispondente mesh 3D testurizzata, includendo diversi particolari del veicolo come le ruote e i fari. Successivamente sono intervenuti con gli strumenti NVIDIA Omniverse Kit e NVIDIA PhysX per convertire la texture di base in materiali di alta qualità e dare a KITT un aspetto più realistico. Infine l'hanna inserita in una sequenza di guida dinamica insieme ad altre auto. Il tutto in poco più di 40 minuti di presentazione, streammando l'intero processo in diretta.

"Omniverse permette ai ricercatori di offrire strumenti interessanti e all'avanguardia direttamente ai creatori e agli utenti - ha dichiarato Jean-Francois Lafleche, ingegnere di deep learning presso NVIDIA - Proporre GANverse3D come estensione di Nvidia Omniverse sarà un aiuto per gli artisti nel creare mondi virtuali più ricchi per lo sviluppo di videogiochi, la pianificazione urbanistica o anche l'addestramento di ulteriori, nuovi modelli di apprendimento automatico". Nelle ultime ore della GTC potremmo avere, come anticipato da Jensen Huang nel suo keynote introduttivo, nuove informazioni sulle novità e sulle ricerche per i "Da Vinci di oggi" proposte da Nvidia.

Desideri diventare un creator oppure goderti le novità presentate durante la GTC? I prodotti di Nvidia sono disponibili su Amazon.