Google DeepMind ha presentato Genie 2, un innovativo modello di intelligenza artificiale capace di generare mondi 3D interattivi partendo da una singola immagine. L'annuncio è arrivato mercoledì, segnando un significativo avanzamento rispetto al predecessore limitato a scenari 2D.
Genie 2 utilizza un modello di diffusione per creare immagini in tempo reale mentre un giocatore o un agente AI si muove nell'ambiente simulato. Il sistema può inferire caratteristiche dell'ambiente come acqua, fumo ed effetti fisici, sebbene alcune interazioni possano risultare poco realistiche. Genie 2 supporta prospettive in prima e terza persona, oltre a visualizzazioni isometriche.
Una delle capacità più notevoli di Genie 2 è la sua memoria a lungo termine. Il modello può ricordare parti della scena anche quando non sono visibili e ricostruirle accuratamente quando tornano nel campo visivo. Questo rappresenta un miglioramento rispetto ad altri modelli come Oasis, che mostravano difficoltà nel ricordare il layout dei livelli generati.
Tuttavia, Genie 2 ha ancora dei limiti. DeepMind afferma che il modello può mantenere la coerenza del mondo per un massimo di 60 secondi, con la maggior parte degli esempi mostrati che durano tra i 10 e i 20 secondi. Inoltre, più a lungo il modello deve mantenere l'illusione di un mondo coerente, più si introducono artefatti e la qualità dell'immagine si degrada.
Al momento, DeepMind vede Genie 2 principalmente come uno strumento per addestrare e valutare altri agenti AI, incluso il suo algoritmo SIMA. Inoltre, potrebbe essere utilizzato da artisti e designer per prototipare e sperimentare idee rapidamente.
DeepMind suggerisce che modelli come Genie 2 potrebbero giocare un ruolo importante nel percorso verso l'intelligenza artificiale generale. "L'addestramento di agenti incorporati più generali è stato tradizionalmente limitato dalla disponibilità di ambienti di addestramento sufficientemente ricchi e diversificati. Come dimostriamo, Genie 2 potrebbe consentire ai futuri agenti di essere addestrati e valutati in un curriculum illimitato di nuovi mondi."
Nonostante le potenzialità, DeepMind non ha fornito dettagli specifici sul processo di addestramento di Genie 2, limitandosi a menzionare l'utilizzo di "un set di dati video su larga scala". L'azienda non ha inoltre annunciato piani per un rilascio pubblico del modello nel prossimo futuro.