Gemini può ora creare video, guardate che roba!

Google introduce oggi una significativa evoluzione nel campo dell'intelligenza artificiale generativa, abilitando la creazione di video direttamente da descrizioni testuali all'interno di Gemini Advanced e l'animazione di immagini statiche tramite l'esperimento Whisk Animate di Google Labs (ancora non disponibile in Italia). Al centro di queste nuove funzionalità si trova Veo 2, il modello video all'avanguardia dell'azienda, progettato per portare un nuovo livello di realismo e dettaglio nella generazione di contenuti video tramite AI.

"A partire da oggi, gli utenti di Gemini Advanced possono generare e condividere video utilizzando il nostro modello video all'avanguardia, Veo 2. In Gemini, è ora possibile tradurre i suggerimenti basati sul testo in video dinamici", scrive l'azienda sul suo blog.

Veo 2 rappresenta, secondo Google, un "salto di qualità" nella tecnologia di generazione video. Il modello è stato sviluppato con l'obiettivo di produrre video ricchi di dettagli e caratterizzati da un notevole realismo cinematografico. Una delle sue forze risiede in una migliore comprensione della fisica del mondo reale e del movimento umano, traducendosi in movimenti dei personaggi più fluidi, scene dall'aspetto più autentico e una resa più fine dei dettagli visivi attraverso una vasta gamma di soggetti e stili.

Angela Sun, Director of Multimodal Platforms per l'app Gemini, e Olivia Sturman, Product Manager presso Google Labs, hanno sottolineato come questa tecnologia apra nuove frontiere creative per gli utenti.

Come creare video con Gemini Advanced

Il processo di creazione video all'interno di Gemini Advanced è stato progettato per essere intuitivo. Gli utenti abbonati devono semplicemente selezionare "Veo 2" dal menu a tendina dei modelli disponibili all'interno dell'interfaccia di Gemini. Successivamente, possono inserire un prompt testuale descrivendo la scena che desiderano visualizzare. Che si tratti di una breve narrazione, un concetto visivo astratto o una scena specifica, Gemini tenterà di tradurre l'idea in un video.

Google sottolinea che la ricchezza dei dettagli nel prompt è fondamentale: descrizioni più elaborate forniscono un maggiore controllo sul risultato finale. Questo incoraggia gli utenti a sperimentare, combinando elementi "irreali", esplorando stili visivi diversi – dal fotorealismo al fantasy – o semplicemente prototipando rapidamente idee visive.

I video generati avranno una durata fissa di otto secondi, una risoluzione di 720p e saranno forniti come file MP4 in formato 16:9 (orizzontale). È previsto un limite mensile al numero di video che un utente può creare; il sistema avviserà l'utente all'avvicinarsi di tale soglia.

Un aspetto chiave evidenziato da Google è la facilità di condivisione. I video creati possono essere facilmente condivisi su piattaforme social, in particolare quelle orientate ai video brevi come TikTok e YouTube Shorts, direttamente dall'interfaccia mobile di Gemini tramite il pulsante di condivisione.

La funzionalità di generazione video è in fase di rollout globale a partire da oggi per tutti gli abbonati a Gemini Advanced, sia su piattaforma web che mobile, ad esempio sui nuovi Pixel 9, e supporterà tutte le lingue in cui Gemini è attualmente disponibile.

Sicurezza e responsabilità

Consapevole delle implicazioni legate alla generazione di contenuti tramite AI, Google afferma di aver adottato "misure importanti" per garantire un'esperienza sicura. Ciò include attività estensive di "red teaming" (simulazione di attacchi o usi impropri per identificare vulnerabilità) e valutazioni mirate a prevenire la creazione di contenuti che violino le policy aziendali.

Fondamentalmente, tutti i video generati con Veo 2 saranno contrassegnati con SynthID, una tecnologia di watermarking digitale sviluppata da Google DeepMind. Questa filigrana, incorporata direttamente nei pixel di ogni fotogramma, è progettata per essere invisibile all'occhio umano ma rilevabile da algoritmi specifici, indicando in modo persistente che il contenuto è stato generato artificialmente.

Google riconosce che, come per ogni strumento di AI generativa, gli output dipendono fortemente dai prompt degli utenti e potrebbero esserci casi in cui vengono generati contenuti discutibili. L'azienda incoraggia gli utenti a fornire feedback tramite i pulsanti "mi piace" e "non mi piace" per contribuire al miglioramento continuo del modello e dei suoi sistemi di sicurezza.

Questo lancio rappresenta un passo significativo nell'integrazione di funzionalità multimodali avanzate negli strumenti AI di Google, offrendo agli utenti nuove modalità per esprimere la propria creatività, pur mantenendo un focus dichiarato sulla sicurezza e l'identificazione dei contenuti generati artificialmente.