Guida a Runway GEN-1: l'intelligenza artificiale per i video

In questi mesi abbiamo preso confidenza che molte app di intelligenza artificiale generativa, in particolare quelle che ricadono sotto le categorie di text-to-text (come ChatGPT e Bard), text-to-code (come Github Copilot) e text-to-image (come Dall-E, Stable Diffusion e Midjourney). Ora stanno uscendo dai laboratori le prime applicazioni che sfruttano l’IA per manipolare video.

L’azienda più all’avanguardia in questo campo è Runway AI nota per l’omonimo tool di editing video “Runway“. Questo strumento ha già alcune funzioni avanzate che permettono la rimozione dello sfondo da un video o di oggetti/soggetti (inpainting).
A questi è stata aggiunta un’interessante serie di feature racchiuse sotto l’etichetta “GEN-1” e definite “video to video”.

Parametri di GEN-1

Dopo la registrazione e la scelta della funzione “GEN-1” ci viene richiesto di caricare un nostro video. A questo punto abbiamo 3 possibilità per modificarlo:

usare un’immagine come riferimento
usare un preset, quindi un’impostazione predefinita dal sistema
usare un prompt quindi scrivere una descrizione testuale

Ma non è finita qui perché per ognuna di queste opzioni si possono modificare alcuni parametri:

Structural Consistency: un valore basso tende a mantenere i contorni della figura, mentre un valore alto tende a non rispettarli. Si raccomandano valori tra 0 e 5.
Weight: indica il peso dell’immagine o del prompt dato come riferimento. Valori alti daranno una maggiore aderenza all’immagine di riferimento. Si raccomandano valori tra 7.5 e 12.5
Seed: è un valore che contiene delle informazioni di stile quindi una volta che individui un risultato soddisfacente, si può utilizzare quel numero di seed per riprodurlo
Frame Consistency: è un parametro che serve a dare consistenza e coerenza tra i frame del video. Un valore sotto 1 va a diminuire la coerenza tra i frame, mentre sopra 1 l’aumenta quindi i fotogrammi saranno simili stilisticamente. Si consiglia un valore tra 1 e 1.25
Upscale: serve a trasformare i video dalle dimensioni di 768×448 a 1536×896. Conviene attivare la funzione solo quando si è soddisfatti del risultato perché incide sul tempo di lavoro della macchina e dunque sul consumo dei crediti.
Remove Watermark: serve a rimuovere il logo di Gen-1 dall’angolo in basso a destra del video
Affect foreground only: serve ad applicare l’immagine di riferimento solo al soggetto in primo piano
Affect background only: serve ad applicare l’immagine di riferimento solo allo sfondo
Compare wipe: serve a produrre un video che confronta il video originale con quello modificato

Dopo la messa a punto, si può generare una preview e poi procedere alla creazione del video completo (la versione gratuita si ferma a 4 secondi di video, mentre quella a pagamento arriva a 15 secondi).

GEN-2

Siamo ancora in una fase embrionale, ma Runway AI sta anche lavorando a GEN-2 un tool che permetterà di generare video da zero semplicemente scrivendo una descrizione testuale, senza dover caricare un video di base. Io sono riuscito a mettere le mani sulla versione alpha e ve la racconto in questo video.