Google ha reso disponibile Gemini 1.5 Pro, un nuovo modello di linguaggio di grandi dimensioni che ha due caratteristiche distintive rispetto a agli altri:
- È completamente “multimodale” cioè permette di gestire in input testo, immagini e, per la prima volta, i video;
- Ha una context window ossia la possibilità di gestire fino a un milione di token, che si traduce nella possibilità di lavorare con testi di oltre 700.000 parole, 11 ore di audio e 1 ora di video. Va ricordato che, al momento, ChatGPT versione web arriva a 8.000 , Gemini 1.0 Pro a 32.000, GPT-4 Turbo a 128.000 e Claude 2 a 200.000.
Per ora, questo modello si può utilizzare soltanto attraverso la console di Google AI Studio, un’ambiente di test dedicato agli sviluppatori.
Nella prova che ho registrato, vi mostro le sue capacità con dei test di ragionamento, di comprensione delle immagini e dei video e di elaborazione di un testo lungo come Dune di Herbert. In quest’ultimo caso ha superato brillantemente la prova dell’ago del pagliaio (individuazione di un’anomalia nel testo) ed se l’è cavata bene quando gli ho caricato un disegno e gli ho chiesto di capire a quale parte del testo facesse riferimento. Deludente, invece, sui test di ragionamento. Buona visione!