OpenAI ha presentato il suo nuovo modello IA per generare video chiamato Sora, annunciando la sua straordinaria capacità di compiere gesta cinematografiche avanzate.
Tuttavia, un articolo tecnico recentemente pubblicato suggerisce che le capacità di Sora potrebbero essere ancora più ampie di quanto inizialmente dichiarato. Intitolato "I modelli di generazione video come simulatori del mondo" e co-firmato da diversi ricercatori di OpenAI, l'articolo fornisce dettagli chiave sull'architettura di Sora, rivelando che può generare video di qualsiasi risoluzione e rapporto di aspetto fino a 1080p.
Secondo l'articolo, Sora eccelle in una serie di compiti di editing di immagini e video, tra cui la creazione di video in loop, l'estensione temporale di video e la modifica dello sfondo in video esistenti.
Tuttavia, la caratteristica più intrigante è la sua capacità di simulare mondi digitali. In un esperimento, OpenAI ha fornito a Sora prompt contenenti la parola "Minecraft", e il modello ha generato in modo convincente un'interfaccia utente e un gioco simili a Minecraft, controllando simultaneamente il personaggio del giocatore e gestendo gli aspetti dinamici del gioco, come la fisica.
Cannot get X.com oEmbed
Secondo Jim Fan, un ricercatore senior di Nvidia, Sora agisce più come un "motore fisico basato sui dati" che come uno strumento creativo. In pratica, non si limita a generare singole immagini o video, ma determina la fisica di ogni oggetto nell'ambiente, rendendo le immagini o i video basandosi su questi calcoli.
Le capacità di Sora suggeriscono che la scalabilità dei modelli video potrebbe essere una strada promettente per lo sviluppo di simulatori avanzati del mondo fisico e digitale, inclusi oggetti, animali e persone.
Tuttavia, ci sono delle limitazioni nel campo dei videogiochi, poiché il modello fatica a modellare accuratamente la fisica delle interazioni di base e mostra delle importanti inconsistenze in alcune situazioni.
Nonostante queste limitazioni, Sora potrebbe aprire la strada a giochi generati proceduralmente più realistici, persino fotorealistici, basati solo su descrizioni di testo.
Questa prospettiva è affascinante ma anche preoccupante, soprattutto considerando le implicazioni legate ai deepfake e l'attuale situazione lavorativa del settore.
Al momento, OpenAI ha limitato l'accesso a Sora, presumibilmente per gestire le sfide e le questioni etiche correlate a un suo utilizzo potenzialmente errato. Si spera che ulteriori dettagli sulla portata e le potenzialità di Sora verranno rivelati presto.