Gemini Omni: il modello multimodale per trasformare i video

Durante l’ultimo Google I/O al quale ho partecipato (vedi mio reportage), l’azienda di Mountain View ha ridefinito i confini della creatività digitale presentando la famiglia di modelli Gemini Omni. Questa tecnologia non si limita a interpretare testi o immagini, ma si propone come un sistema multimodale capace di gestire input e output di diversa natura, offrendo ai creatori di contenuti nuove possibilità per la rielaborazione e la generazione di filmati.

Il potenziale di Gemini Omni nella rielaborazione video

A differenza dei modelli tradizionali focalizzati esclusivamente sulla creazione di clip da zero, Gemini Omni esprime il suo massimo valore nella modifica e nella trasformazione di contenuti esistenti. Nella sua versione attuale, denominata Omni Flash, il sistema può generare solo video, consentendo di applicare variazioni stilistiche e modifiche selettive a elementi specifici definiti dall’utente.

Gemini Omni si può già usare dentro l’applicazione Gemini, dove si può partire da modelli preimpostati o da descrizioni libere per rielaborare il video caricato (i limiti di filmati generati dipendono dal tipo di abbonamento che si ha).
Sebbene la generazione pura mostri ancora margini di miglioramento, la capacità di manipolare i dettagli di una clip esistente apre scenari interessanti per l’ottimizzazione dei flussi di lavoro creativi.

Google Flow: la regia assistita e la gestione dei personaggi

Per i professionisti che necessitano di un controllo più avanzato, la piattaforma ideale nella quale usare Gemini Omni è Google Flow, un ambiente progettato per offrire funzionalità granulari e strumenti di livello superiore. Uno degli aggiornamenti più significativi di questo strumento è l’introduzione della modalità assistente (denominata Agent Mode), un vero e proprio regista virtuale con cui interagire attraverso una chat. L’assistente è in grado di comprendere briefing creativi complessi, proporre direzioni artistiche e strutturare storyboard dettagliati prima di procedere alla produzione vera e propria.

Inoltre, Google Flow introduce la gestione coerente dei personaggi, una funzione che permette di definire figure umane specifiche assegnando loro tratti distintivi, descrizioni caratteriali e persino voci dedicate. Il sistema genera una griglia di storyboard che fa da guida per lo sviluppo di scene sequenziali, garantendo la continuità visiva del protagonista all’interno del progetto, un elemento fondamentale per la realizzazione di video promozionali o narrazioni complesse.

La rivoluzione del Vibe Coding applicato al video

La vera svolta tecnologica di Google Flow risiede nella sezione dedicata agli strumenti dove troviamo la possibilità di sviluppare software personalizzati sul momento attraverso il concetto di vibe coding. Oltre a disporre di una vasta gamma di filtri, effetti grafici e correzioni cromatiche sviluppati sia da Google sia dalla community, la piattaforma permette ai creatori di descrivere in linguaggio naturale un’esigenza tecnica specifica.

Un assistente di programmazione integrato traduce queste istruzioni in codice funzionante, generando istantaneamente un nuovo applicativo pronto all’uso, come un modulo per applicare effetti cinematografici d’epoca personalizzati. Questa flessibilità sposta il ruolo del videomaker da semplice utilizzatore di software a vero e proprio sviluppatore del proprio flusso di lavoro, consentendo una personalizzazione totale della post-produzione in pochissimi minuti. Nel video seguente, il mio test.

Il potenziale di Gemini Omni nella rielaborazione video

Google Flow: la regia assistita e la gestione dei personaggi

La rivoluzione del Vibe Coding applicato al video

✨ Vuoi approfondire i temi dell’Intelligenza Artificiale Generativa? Scopri i miei corsi di formazione!