Cosa sono gli Agenti di intelligenza artificiale e come crearli

In questi ultimi mesi, le aziende di intelligenza artificiale stanno orientando la propria offerta e la propria comunicazione verso il concetto di agente, dopo anni di promozione dei termini “chatbot”, “assistente”, “copilota”. L’evoluzione da chatbot ad agente è ineluttabile, ma siccome la terminologia è diventata molto malleabile, ho pensato di fare un po’ di chiarezza.

Le caratteristiche degli agenti

Di agenti software si parla dagli albori dell’informatica. Il termine è sempre stato usato per definire un programma in grado di agire per conto di un utente. Ma qual è l’ampiezza di questo agire? Finora è stata sempre limitata e predefinita, perché dipendente dalla procedura codificata dal programmatore.

Con la diffusione delle tecniche di intelligenza artificiale generativa, in particolare del successo dei modelli linguistici di grandi dimensioni (LLM), si è ricominciato a parlare di agenti come evoluzione dei chatbot.

Se i chatbot IA conversazionali sono software progettati per completare probabilisticamente una frase e rispondere alle nostre richieste, gli agenti dovrebbero essere in grado di portare a termine un compito assegnato, più complesso di una risposta.

Per far ciò non gli basterebbe un “cervello” (inteso come modello linguistico), ma avrebbe bisogno di altre due cose: una memoria e l’accesso a strumenti, utili a compiere un’azione.

La memoria è la capacità di ricordare conversazioni precedenti ed attingervi all’occorrenza.
Gli strumenti sono altri software con i quali interagire al di là del limitato perimetro che ha un modello linguistico. Ad esempio: software per scrivere codice, navigare sul web, attingere ad un database, ecc.

caratteristiche degli agenti di intelligenza artificiale

Come stanno evolvendo i modelli linguistici

Avendo questo quadro, diventa molto più chiara la traiettoria di sviluppo degli LLM. Inizialmente abbiamo avuto modelli in grado di completare frasi in maniera rapida. Poi sono arrivati i modelli di “reasoning” (come o1 di OpenAI) addestrati a svolgere “ragionamenti” più complessi e per più tempo (attraverso una “catena di pensieri” ossia vagliando diverse soluzioni ad un problema e provando a confutarle fino a scegliere quella che sembra probabilisticamente più corretta).

Parallelamente, a questi modelli è stata data la capacità di gestire input sempre più lunghi (la cosiddetta “context window” che in Gemini può arrivare fino a 2 milioni di token, qualcosa come 1,5 milioni di parole) ed è stata aggiunta una “memoria” ossia la capacità di ricordare le conversazioni precedenti (in qualche misura controllabile dall’utente).

Infine, ai modelli linguistici è stata data la possibilità di utilizzare strumenti di vario tipo. I primi sono stati quelli per scrivere codice, attingendo a console di sviluppo e librerie esterne, ad esempio “Code Interpreter” ovvero la capacità di ChatGPT di scrivere codice per rispondere ad una nostra richiesta (come creare grafici sulla base di un file di dati caricato in input dall’utente).

Ma la prima volta che le aziende IA hanno iniziato a comunicare il concetto di agente al grande pubblico è stata quando hanno presentato le funzioni di Deep Research introdotte da Google e poi adottate anche dagli altri. In effetti, Deep Research non è altro che un agente di ricerca ossia un LLM addestrato a preparare un piano di ricerca, navigare sul web, raccogliere informazioni per poi riassumerle e presentarle in un documento “ragionato”.Ovviamente a questo seguiranno altri agenti specializzati in compiti specifici. Per esempio, OpenAI ha presentato Codex, un agente ingegnere del software che può scrivere codice, correggere bug, proporre modifiche da sottoporre a review, autonomamente.

evoluzione dei modelli linguistici di grandi dimensioni (LLM)

Categorie di agenti IA

Oggi siamo in una fase fluida per cui non è facile definire i confini di ciò che può essere definito un agente. In questa categorie le aziende tech fanno rientrare diverse tipologie di prodotti:

Agenti come estensione di chatbot: rientrano in questa casistica tutte le funzioni agentive dei vari assistenti consumer che conosciamo come il Deep Research o anche funzioni come Operator di OpenAI, che è capace di portare a termine un compito attraverso l’utilizzo di un browser.

Software nativamente agentivi: sono software progettati con capacità agentive ossia per assistere l’utente in un certo task. I primi esperimenti sono iniziati con tool come BabyAGI o AgentGPT. Recentemente sono apparse sul mercato proposte più orientate alle masse come Manus oppure OpenManus e Suna, che sono alternative open, installabili in locale. Questi software possono essere generalisti o anche specializzati in un compito specifico.

Piattaforme per la creazione di agenti

Accanto ai software pronti all’uso, sono emerse framework e piattaforme per permettono alle persone di creare agenti adatti alle proprie esigenze.

Piattaforme Enterprise: sono ambienti di progettazione di agenti rivolti a sviluppatori esperti che hanno l’esigenza di creare agenti in grado di agire in un perimetro aziendale, quindi usando dati e strumenti a disposizione di un’azienda (un database, un CRM, ecc.) . Tutte le grandi aziende tech hanno un’offerta di questo tipo: Microsoft ha Copilot Studio, Google ha Agentspace, Salesforce ha Agentforce e così via.
Accanto a queste sono nate soluzioni più flessibili per sviluppatori esperti come LangChain, AutoGen e l’italiana Cheshire Cat AI.

Piattaforme Consumer: sono quelle nate per agevolare i non-sviluppatori a creare agenti. Tra le più note ci sono Lindy, Gumloop e n8n. Questi software detti “no-code” sono caratterizzati da un’interfaccia “drag and drop” che permette la creazione semplificata di un workflow. All’utente basta scegliere un “trigger”, un innesco che dà il via al lavoro dell’agente, un LLM da usare nel ragionamento e nell’azione, degli strumenti/servizi esterni da attivare. Ad esempio, ogni mattina alle 6 (trigger) attiva GPT-4o (LLM) per accedere al al mio calendario (strumento calendario), individuare le riunioni programmate e fai una ricerca web (strumento search) sulle persone che dovrò incontrare e poi riassumi ruoli/caratteristiche in una email che mi invierai (strumento email).
Per flussi di lavoro più complessi, tool come n8n, permettono di aggiungere all’LLM selezionato anche una “memoria” che gli permetta di ricordare le conversazioni e le azioni precedenti.

La categoria delle piattaforme consumer per la creazione di agenti tende a confondersi con quella delle piattaforme di “software automation” come Zapier, Make, IFTTT. Tipicamente, queste permettono di creare flussi di automazione tra più servizi, con logica booleana (quando accade qualcosa, usa il servizio X per fare una certa attività). La modalità è lineare e definita rigidamente, per cui eventuali eccezioni non possono essere gestite. Ora, però, anche queste piattaforme iniziano a prevedere la possibilità di richiamare un LLM nel flusso creato (vedi Zapier Agents).

In definitiva, la differenza tra un workflow tradizionale o un agente è che quest’ultimo è in grado di determinare la strategia di esecuzione ottimale, adattandosi alle nuove situazioni attraverso ragionamento, ricordo delle interazioni passate, comprensione del contesto.

Come prepararsi agli agenti IA

Oggi disponiamo di agenti di intelligenza artificiale con una autonomia ancora circoscritta, ma stiamo rapidamente avanzando verso soluzioni sempre più sofisticate. Nei prossimi mesi assisteremo alla diffusione di agenti capaci di orchestrare ecosistemi complessi di sub-agenti specializzati, che potrebbero rivoluzionare il nostro modo di lavorare.

Un cambio di paradigma che non implica necessariamente una marginalizzazione dell’uomo, ma sicuramente una trasformazione del suo ruolo: da esecutore di compiti anche noiosi, ad architetto di soluzioni creative e manager di agenti IA.
Un cambiamento non facile che richiede l’acquisizione di nuove capacità di progettazione, gestione e ottimizzazione di agenti autonomi come:

la definizione degli scopi
la costruzione della personalità e dei compiti da svolgere (prompt design)
l’analisi critica dei risultati
la creazione di framework di governance robusti per garantire trasparenza e controllo.

Per iniziare subito questo percorso bisognerebbe chiedersi:

Quali attività ripetitive del mio team possono essere immediatamente delegate agli agenti?
Come posso integrare efficacemente agenti autonomi nelle mie strategie aziendali (o più specificamente di marketing?)
Come dovrei preparare l’azienda? Quali competenze dovrei sviluppare?

Iniziare ad affrontare subito queste domande significa andare al di là della semplice adozione di assistenti in azienda, significa ripensare i processi aziendali per costruire un vantaggio competitivo significativo in un mercato sempre più popolato di “macchine intelligenti”, oltre che di persone.