Nel corso del Google I/O 2024, l'azienda ha introdotto due nuovi modelli per la generazione di immagini e video, chiamati rispettivamente Imagen 3 e Veo. Imagen 3, sviluppato da Google DeepMind, rappresenta la nuova frontiera nella generazione di immagini a partire da testi: è capace di creare dettagli fotorealistici, dare alle immagini un'illuminazione realistica e ridurre al minimo la presenza di artefatti.
Il nuovo modello di generazione immagini gestisce anche in maniera migliore il testo, interpretando meglio i prompt, specialmente quelli più lunghi e dettagliati.
Durante l'evento, Google ha dichiarato: "Con Imagen 3, abbiamo raggiunto un nuovo livello di realismo, comprensione del linguaggio umano e precisione nel rendering delle immagini richieste." Imagen 3 è capace di creare immagini che sfiorano la perfezione visiva, dando parecchio filo da torcere a modelli concorrenti come Dall-E 3.
Parallelamente, Google ha lanciato Veo, un innovativo modello di generazione video, anch'esso elaborato da Google DeepMind. Veo consente di creare e modificare video di alta qualità, lunghi anche più di 1 minuto e con risoluzione 1080p, usando semplicemente dei prompt testuali, immagini o video preesistenti come input. Veo mette a disposizione diverse opzioni stilistiche tra cui scegliere, ampliando notevolmente le possibilità creative degli utenti; ad esempio, permette di creare video timelapse.
"Veo rappresenta un salto qualitativo nella produzione video generativa, erogando contenuti dinamici e visivamente accattivanti basati su una vasta gamma di input," ha commentato Google. Attualmente, Veo è disponibile all'interno di VideoFX, ma Google prevede di integrarlo in YouTube Shorts e in altri prodotti.