Il settore dell’IA per la generazione delle immagini, già lo scorso anno, aveva raggiunto un buon grado di maturità. Si riuscivano già a creare immagini d’impatto e fotorealistiche, ma mancava un tassello: la possibilità di modificarle facilmente e granularmente, con un semplice prompt.
Ad aggiungere questo tassello ci ha pensato Google DeepMind con il suo nuovo modello Gemini 2.5 Flash Image, nome in codice “nano banana”, disponibile dentro Gemini e in AI Studio. Le sue funzioni:
- Creazione di immagini da testo (Text-to-Image)
- Modifica e trasformazione avanzata di Immagini in modo conversazionale. Include:
- il mantenimento della coerenza dei personaggi presenti nell’immagine anche al cambio di scena (si può chiedere una nuova immagine con lo stesso soggetto, ma in un altro ambiente)
- la modifica di elementi dell’immagine (cambiare lo sfondo, sostituire oggetti, restaurare parti sbiadite o alterare l’abbigliamento di una persona, ecc.).
- combinazione di più immagini: siccome Gemini è multimodale, accetta in input testi e immagini. Si possono caricare fino a tre immagini diverse per creare una composizione completamente nuova, fondendo oggetti, colori e stili.
- Input conversazionale: l’interazione con il modello è progettata per essere una conversazione continua. Invece di dover ricominciare da capo ad ogni richiesta, si può continuare a dialogare con Gemini per affinare e perfezionare l’immagine generata fino a raggiungere il risultato desiderato.
Siccome sono beta tester di Gemini, devo dire che questo modello è una continua fonte di sorprese e possibilità. Tra i limiti attuali c’è l’incapacità di cambiare l’aspect ratio di un’immagine e rispetto, al modello di ChatGPT, segue meno bene le indicazioni di stile. Per maggiori dettagli vi invito a guardare il mio video tutorial.





