Creare immagini da un testo con l'Intelligenza Artificiale

Due anni fa rimasi a bocca aperta nel vedere come un software, GPT-3, riusciva a generare testi di senso compiuto, indistinguibili da quelli di un umano, partendo da un minimo input iniziale. Oggi, siamo di fronte ad un nuovo salto tecnologico perché è diventato possibile far creare immagini ad una macchina, semplicemente fornendole delle minime indicazioni testuali. Il passaggio da testo ad immagine è ancora più strabiliante perché rende più evidente la “magia” della creazione e ci interroga sull’origine della creatività, sul significato di arte e di autore.
Temi estremamente stimolanti che lascio ad una prossima trattazione. Per ora mi interessa presentarvi questi nuovi software, senza entrare in dettagli tecnici, ma dandovi dei riferimenti per poterli provare autonomamente.
Possiamo dividerli in due categorie: quelli meno sofisticati, ma facilmente accessibili (Dream, StarryAI, Craiyon) e quelli più sofisticati, ma ad accesso limitato (DALL-E 2, Imagen, Parti, Midjourney).

Come funzionano i generatori di immagini

I generatori di immagini sono basati su reti generative avversarie o GAN (Generative Adversarial Networks). Si tratta di architetture nelle quali due reti neurali si sfidano in una sorta di gioco a somma zero. La rete detta Generatore, partendo da numeri casuali, ha il compito di elaborare immagini realistiche, provando ad ingannare il Discriminatore. La rete Discriminatore viene addestrata a riconoscere immagini preesistenti, attraverso l’analisi di milioni di esempi etichettati appropriatamente, con l’obiettivo di capire se quelle prodotte dal Generatore sono reali o artificiali. Pian piano, di tentativo in tentativo, il Generatore impara a produrre immagini sintetiche che sembrano create da un umano.

I sistemi più evoluti di “text to image”, come quelli di OpenAI e Imagen di Google, usano dei “diffusion model”. Entrambi partono da un modello in grado di comprendere delle frasi complesse, non semplici parole chiave.
Nel sistema di OpenAI queste frasi vengono passate a dei calcolatori che usano un modello, detto “prior”, che ha il compito di generare “CLIP image embeddings” ossia di “farsi un’idea” di quelle parole (come succede a noi umani quando ci chiedono di disegnare una una spiaggia con degli ombrelloni e delle barche all’orizzonte). Poi queste “CLIP image embeddings” vengono passate ad un altra rete che sulla base di un “Decoder Diffusion model” (unCLIP) inizia a disegnare quell’idea per passi successivi (vedi video in basso).
Anche Imagen di Google usa un “diffusion model”, mentre il nuovo Parti usa un “autoregressive model” per trasformare le parole in immagini con un codificatore di testo che attinge a 20 miliardi di parametri (dettagli tecnici).

Le app per trasformare un testo in immagine

In un precedente post avevo scritto di come gli algoritmi di Intelligenza Artificiale siano ormai incorporati in molti software per la creatività al fine di permettere all’utente di ottenere risultati prima irraggiungibili. Ora, invece, vi accompagno nell’esplorazione di quei servizi progettati col solo obiettivo di trasformare un testo, vago o dettagliato, in un’immagine.

Dream

La prima applicazione ad essere arrivata sul mercato è stata Dream di Wombo. Andando sul sito o scaricando l’app è possibile generare gratuitamente immagini da un imput testuale, in pochi secondi. Basta inserire delle parole chiave, non frasi complesse, e scegliere uno stile pittorico da una lista di oltre venti modelli. Il software restituisce un’immagine che si può scaricare, acquistare come poster o “coniare” come NFT.
Negli ultimi mesi è stata aggiunta la possibilità di dare come input un’immagine da caricare, che la macchina reinterpreterà secondo lo stile scelto.
Dream è una soluzione semplice, gratuita, ma non avanzata. Un grande limite riguarda l’aspetto esclusivamente verticale dell’output.

Starryai

Starryai è molto simile a Dream. Si può usare dall’app o dal sito web, con un modello freemium. Per iniziare bisogna scegliere tra due modalità di creazione: una più astratta (Altair che usa un modello VQGAN-CLIP) e una più realistica (detta Orion, che usa un modello CLIP-Guided Diffusion). Dopo di che si accede al pannello dove immettere il testo di input e scegliere lo stile di riproduzione tra una lista predefinita. Anche qui si può partire da un’immagine preesistente e scegliere anche tra alcune dimensioni predefinite per l’output finale.
Il servizio è gratuito ma per un numero limitato di creazioni. Si hanno 5 crediti che non corrispondono a 5 output, perché i compiti più complessi valgono più di un credito.

Craiyon

Craiyon è un progetto nato da qualche mese da due sviluppatori che inizialmente lo avevano denominato DALL-E Mini. Usa un modello VQGAN. Si può usare gratuitamente, ma solo via web, attraverso un’interfaccia spartana che permette di inserire il testo desiderato. L’output consiste in nove immagini scaricabili, ma di bassa risoluzione.
Funziona abbastanza bene con testi semplici, ma se provate a creare immagini che prevedono l’interazione tra più oggetti/soggetti, il risultato risulterà pasticciato.

DALL-E

DALL-E, un gioco di parole tra Salvador Dalí e il personaggio della Pixar WALL-E, è un progetto di ricerca di OpenAI. La prima versione è del gennaio 2021 ma era limitata alla creazione di immagini di piccola dimensione (256×256 pixel). DALL-E 2, rilasciato in beta privata ad Aprile del 2022, oltre a poter generare immagini più grandi (1.024×1.024 pixel) ha anche funzioni più avanzate.

Innanzitutto è in grado di comprendere la relazione tra gli oggetti per cui da un input del tipo “un cane shiba inu che indossa un berretto ed un girocollo nero” riesce a riprodurre perfettamente la scena. Ciò, ovviamente, apre le porte a creazioni di fantasia che possono risultare molto realistiche (questo è uno dei motivi per i quali il software non è stato reso disponibile a tutti).
Inoltre, questa nuova versione usa una tecnica chiamata “inpainting” che permette all’utente di rimpiazzare uno specifico elemento di un’immagine precedentemente generata. Infine, è anche molto efficace nella creazione di varianti alternative di una immagine.

Non ho avuto ancora modo di mettere le mani su DALL-E 2 (c’è una waiting list), ma da quanto vedo riesce a produrre immagini molto più fotografiche di altri strumenti.

Imagen e Parti

Imagen e Parti sono due progetti di ricerca del Brain Team di Google Research che corrispondono a due diversi modelli di generazione di immagini da un testo iniziale. Non sono ancora aperti al pubblico, ma da quello che si legge sul sito Imagen sarebbe più preciso di DALL-E nella creazione di immagini verosimili.
Due problemi riscontrati in questi modelli riguardano il fatto che non riescono a riprodurre un numero specifico di oggetti, es. dieci mele, né sanno collocarli correttamente nello spazio (es. una mela a destra e una pera a sinistra).

Imagen & Parti — Confronto tra Imagen e Parti sulla base dello stesso input di testo

Midjourney

Midjourney ora è pubblicamente disponibile ~~è ancora in fase di beta privata, accessibile solo su invito (se ne vuoi uno lascia un commento indicando il tuo account Discord e proverò ad aiutarti)~~. Per utilizzarlo bisogna avere un account su Discord perché la generazione degli output avviene attraverso un bot. Dopo l’iscrizione, infatti, si entra in una stanza del server di Midjourney e può iniziare ad usare il comando di base /imagine seguito dalla descrizione in inglese di quello che si vuole realizzare. Inoltre, si possono aggiungere anche dei parametri come le dimensioni (qui una video guida per iniziare).

Nel giro di pochi secondi il bot risponde con quattro immagini numerate (1 e 2 corrispondono a quelle in alto, 3 e 4 a quelle in basso). Ognuna di queste può essere portata ad una maggiore risoluzione (upscale) o modificata (variation), premendo, rispettivamente, i tasti U e V (es. se si vuole ottenere una variazione dell’immagine in alto a sinistra bisogna premere il tasto V1). Dopo il primo Upscale, che si ferma ad una risoluzione di 1024×1024, viene data la possibilità di un ulteriore miglioramento col tasto “Upscale to Max”.
Un vantaggio di Midjourney è proprio la risoluzione che può arrivare fino a 1792×1024 pixel. Un difetto è che non riesce ad utilizzare un’immagine come input (cosa che DALL-E può fare).

Dopo la fase di trial, il servizio si può acquistare spendendo 10$ o 30$ a seconda delle funzioni che si vogliono ottenere e dell’uso che se ne vuole fare.
Sto facendo parecchi esperimenti che raccoglierò in questo thread su Twitter e devo dire che spesso il software mi sorprende con le sue soluzioni inaspettate. Però per ottenere risultati eccelsi bisogna trovare le parole giuste e iterare più volte le operazioni di generazione.

Midjourney, lighthouse on mars by vincos — Midjourney: lighthouse on mars, painting

Stable Diffusion

Stable Diffusion è un altro modello diffusivo realizzato da Stability AI, CompVis LMU e Runway. La prima release pubblica è datata agosto 2022. Il suo codice è stato reso disponibile a tutti per cui può essere istallato sul proprio computer, un approccio diverso dagli altri servizi visti. Chi non vuole sobbarcarsi questo onere può usare un’interfaccia via browser chiamata DreamStudio. Al primo accesso si ottengono dei crediti per generare una serie di immagini gratuitamente, poi si deve pagare per averne di più.

Intelligenza Artificiale per potenziare la creatività

In questo momento i programmi di generazione di immagini più sofisticati sono in fase di sperimentazione. Prima di essere rilasciati a tutti ne vanno studiati i rischi di utilizzo come la produzione di contenuti violenti o falsi che possono mettere in cattiva luce determinate persone o categorie e la generazione di output che possono riflettere i pregiudizi e gli stereotipi contenuti nei modelli linguistici di grandi dimensioni.

Prima o poi questi software diventeranno di dominio pubblico, si moltiplicheranno ed evolveranno (probabilmente entro cinque anni li vedremo applicati ai video, qui una panoramica delle applicazioni possibili). Forse daranno un duro colpo al settore delle foto stock perché diventerà semplice generare immagini standardizzate, ma offriranno anche un grosso aiuto ad artisti, creativi e marketer.
Sì, perché questi programmi sono degli ottimi generatori di idee a basso prezzo che potrebbero aiutare a superare i blocchi creativi. I marketer e i creator ne potrebbero beneficiare anche per la produzione di contenuti per blog post, siti, pubblicità, presentazioni o anche per produrre mockup e suggestioni iniziali per un brief ad un’agenzia.

Insomma, questi strumenti basati sull’Intelligenza Artificiale non distruggeranno la creatività, ma spalancheranno le porte della percezione dei più creativi e amplificheranno le possibilità di creazione dei meno dotati.

Corso Midjourney per creativi e marketer

33 replies on “Creare immagini da un testo con l’Intelligenza Artificiale”

says: Antonio
Luglio 9, 2022 at 11:24 am
Vincenzo, anche io sto sperimentando un po’.
Segnalo anche Disco Distribution, non so se hai dato un’occhiata.
Ti invio il mio username Discord perche’ mi piacerebbe ottenere un accesso a Midjourney.
1. says: Suraya
  Settembre 29, 2022 at 8:08 pm
  Surycata#3010
says: Barabba Marlin
Luglio 9, 2022 at 5:07 pm
Ciao, piacerebbe anche a me ricevere un invito per MidJourney.
Barabba Marlin#3822
1. says: Suraya
  Settembre 29, 2022 at 8:09 pm
  Anch’io vorrei l’invito per Midjourney su discord
  Surycata#3010
  1. says: vincos
    Ottobre 1, 2022 at 7:52 am
    è libero ormai
says: angelo bermani
Luglio 11, 2022 at 11:39 am
ciao Vincenzo. se avanza un invito a Midjourney, butriga#7705
grazie mille!
says: Piero
Luglio 14, 2022 at 4:25 pm
pierofioretti#3367
says: L
Luglio 19, 2022 at 1:49 am
Ciao, mi piacerebbe provare… LNRD#5825
1. says: vincos
  Luglio 20, 2022 at 10:48 am
  ciao, hanno aperto a tutti quindi basta seguire il link
says: Fabrizio Mirone
Luglio 21, 2022 at 5:38 pm
Ciao Mi piacerebbe avere un invito per Midjourney, ma pur essendomi iscritto a Discord (nome utente: Fabrizio Mirone), non riesco ad ottenerlo. Puoi aiutarmi?
1. says: vincos
  Luglio 21, 2022 at 5:45 pm
  ciao Fabrizio,
  se vai su Midjourney.com puoi fare “join the beta” ed entrare liberamente. Hanno tolto le restrizioni.
  1. says: Fabrizio Mirone
    Luglio 22, 2022 at 2:58 pm
    Ciao, ti ringrazio per la risposta. L’ho fatto, mi sono iscritto passando da Join the beta ma una volta entrato nella mia dashboard personale non riesco comunque ad accedere al pannello che mi permette di generare immagini.
    1. says: vincos
      Luglio 22, 2022 at 3:38 pm
      in basso a sinistra c’è l’icona di Discord, se la premi troverai l’opzione “go to Discord” per accedere al pannello
says: Andrea
Agosto 6, 2022 at 1:01 am
Ciao
Il mio account discord è Mornar#1164
1. says: vincos
  Agosto 11, 2022 at 4:30 pm
  ciao, ora non c’è più bisogno di invito, basta registrarsi
says: Erica
Agosto 9, 2022 at 12:57 am
Ciao! Per favore se ti avanza un invito rp#3989
1. says: vincos
  Agosto 11, 2022 at 4:30 pm
  ciao, ora non c’è più bisogno di invito, basta registrarsi
says: Erica
Agosto 9, 2022 at 12:59 am
Ciao! Complimenti per l articolo chiaro e conciso. Per favore se ti avanza un invito rp#3989
Grazie mille
1. says: vincos
  Agosto 11, 2022 at 4:30 pm
  ciao, ora non c’è più bisogno di invito, basta registrarsi
says: Viscardo
Agosto 14, 2022 at 1:16 pm
Ciao, se possibile, ti chiederei di ricevere un aiutino per avere anche io l’invito per MidJourney.
FoxDrill#6630
1. says: vincos
  Agosto 19, 2022 at 11:48 am
  ciao, ora non c’è più bisogno di invito, basta registrarsi al sito
says: blackade
Agosto 25, 2022 at 11:02 am
ciao, vorrei sperimentare Midjourney. Mi manderesti l’invito, per favore?
Grazie mille.
Il mio nickname è giada.negri-gn82
1. says: vincos
  Agosto 25, 2022 at 3:34 pm
  non c’è più bisogno, basta andare sul sito e registrarsi
says: Alessio
Agosto 26, 2022 at 12:18 pm
Ciao, anche io sono molto curioso di provare Midjourney, potresti mandarmi un invito?
JabryHell#7046
Grazie mille
1. says: vincos
  Agosto 27, 2022 at 4:41 pm
  non c’è più bisogno, basta andare sul sito e registrarsi
says: Pas
Agosto 28, 2022 at 3:57 pm
Ciao, è sempre possibile ricevere un invito su midjourney? Grazie
pas#7504
1. says: vincos
  Agosto 29, 2022 at 9:44 am
  non c’è bisogno d’invito, ora è aperto a tutti
Pingback: Benvenuto Osservatorio Metaverso! Intervista a Vincenzo Cosenza - Francesco Pelliccia - Digital Strategist, Copywriter, Web designer, Consulente
says: vincenzo
Novembre 8, 2022 at 6:12 pm
Ciao! Bellissimo articolo, complimenti! Per favore potresti aiutarmi per il canale discord?
Ecco il mio discord:
Vincent234#8087
1. says: vincos
  Novembre 10, 2022 at 11:23 am
  Devi semplicemente andare qui https://www.midjourney.com/app/ e poi registrarti usando Discord (quindi devi prima avere un account discord)
says: Elena
Gennaio 29, 2023 at 2:35 pm
Ciao non è molto facile capire cosa devi fare ma è bello
1. says: vincos
  Febbraio 3, 2023 at 5:46 pm
  ciao Elena, sul mio canale YouTube trovi qualche tutorial https://www.youtube.com/@VincenzoCosenza
Pingback: .réseau synthétique | Pearltrees

Comments are closed.