ByteDance ha presentato OmniHuman-1, un nuovo framework di intelligenza artificiale in grado di trasformare una singola immagine in un video animato realistico. L'azienda ha rivelato la nuova IA in una ricerca, dimostrando le capacità dello strumento con diversi video demo, tuttavia lo strumento è ancora in fase di ricerca e non è stata annunciata una data di rilascio.
OmniHuman-1 ha dimostrato di riuscire a generare video più realistici rispetto ad altri modelli AI esistenti. Il sistema può creare movimenti umani e discorsi naturali partendo da input minimi: una singola immagine e un campione audio. Secondo i ricercatori di ByteDance, lo sviluppo ha richiesto l'addestramento dell'IA su 19.000 ore di filmati, elemento chiave che ha permesso di superare i metodi esistenti, che soffrono la mancanza di dati in alta qualità.
Il framework combina immagini, audio, pose del corpo e descrizioni testuali per garantire risultati accurati in vari scenari. Il team di ricerca ha condiviso numerosi video generati con lo strumento (tutti decisamente realistici), tra cui personaggi animati, speaker TED e persino un filmato in bianco e nero di Albert Einstein che tiene una lezione davanti a una lavagna.
L'approccio di OmniHuman-1 sembra risolvere problemi comuni in altri video generati dall'IA, come i movimenti della bocca, le espressioni facciali e i gesti del corpo, che risultano più precisi e naturali.