OpenAI ha rilasciato 01-preview, un nuovo large language model che è in grado di “ragionare” per risolvere problemi complessi. Ovviamente il verbo ragionare non corrisponde al processo che avviene in una mente umana, ma ad una simulazione dello stesso. In pratica, il sistema non fornisce una risposta immediata al nostro prompt, ma si prende del tempo per analizzare le possibili alternative, metterle a confronto e poi scegliere la più plausibile. Dà vita ad una “catena di pensieri” che rende più probabile la soluzione del nostro problema.
Come funziona o1-preview
Questo modo di procedere è indotto da un addestramento specifico del modello, attraverso la tecnica del “reinforcement learning“. In questo modo “o1 impara ad affinare la sua catena di pensiero e a perfezionare le strategie che utilizza. Impara a riconoscere e correggere i propri errori. Impara a scomporre i passaggi complicati in passaggi più semplici. Impara a tentare un approccio diverso quando quello intrapreso non funziona”. Il modello è ideale per la risoluzione di problemi scientifici, matematici e di programmazione, ma anche per quelli complessi che richiedono un approccio per fasi.
Nei test mostrati sul blog di OpenAI, o1 preview batte GPT-4o nella maggioranza delle attività complesse. Nonostante sia ancora una preview, quindi non il modello definitivo, o1 si posiziona all’89° percentile nelle domande di programmazione (Codeforces), si colloca tra i primi 500 studenti negli Stati Uniti in una fase di qualificazione per le Olimpiadi di Matematica degli Stati Uniti (AIME) e supera l’accuratezza umana a livello di dottorato di ricerca in un benchmark di problemi di fisica, biologia e chimica (GPQA).
Disponibilità e limiti di o1-preview e o1-mini
OpenAI ha rilasciato due versioni del modello: o1 preview e o1-mini, pensato per offrire una soluzione più efficiente per gli sviluppatori. Questo secondo modello è più veloce, più economico, ma anche un po’ meno capace.
I due modelli sono disponibili dentro ChatGPT per gli utenti con abbonamento Plus e Team. Ma con un limiti d’uso di 50 messaggi a settimana per o1-preview e 50 messaggi al giorno per o1-mini.
Attivando questi modelli non si avrà la possibilità di caricare file, navigare in rete, creare immagini o far “leggere” immagini (non ha capacità di visione). La loro knowledge base è ferma ad ottobre 2023. Il numero di token in uscita che sono in grado di scrivere è di 32.000 mentre GPT-4o arriva a 4.000.
Ho registrato un video per testare le funzioni di ragionamento logico, scrittura creativa e marketing. Buona visione.