Tutti i chatbot attualmente sul mercato, basati su LLM (Large Language Models), vanno incontro al problema delle “allucinazioni” ovvero la generazione di contenuti semanticamente plausibili, ma fattualmente errati. La frequenza di questi errori non è uniforme, ma varia drasticamente a seconda del modello utilizzato e, soprattutto, della modalità di utilizzo.
Quali IA inventano di più?
Se guardiamo ai compiti di riassunto grounded (dove l’AI lavora su un testo fornito), i tassi di errore sono crollati drasticamente: la Hallucination Leaderboard di Vectara (2025/2026) posiziona modelli come Gemini 2.5 Pro e GPT-4o con tassi di allucinazione inferiori all’1,5% (rispettivamente ~0,7% e ~1,5%), rendendoli estremamente affidabili quando hanno una fonte da consultare.
Il discorso cambia radicalmente per i compiti di Q&A factoid basati sulla sola memoria del modello (senza fonti esterne). Qui, il benchmark SimpleQA di OpenAI ha svelato una realtà meno rosea: anche i modelli di frontiera come GPT-4o e Claude 3.5 Sonnet faticano a superare il 40-50% di accuratezza su domande fattuali dirette, spesso preferendo inventare una risposta plausibile piuttosto che tacere.
Ancor più sorprendente è il paradosso dei nuovi modelli di ragionamento che, nel tentativo di “ragionare” di più, possono paradossalmente aumentare il tasso di allucinazioni in certi contesti, poiché il processo di Reinforcement Learning li incentiva a fornire una risposta completa a tutti i costi.
Il problema radice resta quindi di calibrazione: essendo dei “next token predictor”, i chatbot non sono progettati per dire “non lo so”, ma per massimizzare la probabilità statistica di una sequenza di parole, sacrificando la verità fattuale sull’altare della coerenza linguistica.
Metodi per ridurre le allucinazioni delle intelligenze artificiali
Ma esistono alcuni metodi per ridurre le allucinazioni che ho provato ad illustrare in un mio video:
- Metodo RAG ossia ancorando le richieste ad uno o più documenti. Si può fare:
- usando NotebookLM
- usando un chatbot e caricando un documento col seguente prompt: “
Individua i risultati principali di questa ricerca. Segui queste Istruzioni: rispondi solo usando quel documento. Se citi fatti, fornisci la fonte (link) e indica cosa nella fonte supporta il fatto. Se non sei sicuro, dillo esplicitamente e NON inventare. Evidenzia Assunzioni e Incognite.“
- Metodo “Secondo Parere”. Siccome gli LLM sono più bravi nelle valutazioni che nelle risposte si può procedere usando un chatbot per una domanda e poi usandone uno diverso per agire come valutatore con un prompt del tipo “
sei un valutatore indipendente di risposte generate dall’IA. Il tuo compito è di valutare la risposta ad una domanda che ti farò“ - Metodo “Comitato degli LLM”. Questo deriva dal concetto di LLM Council di Karpathy e consiste nel far valutare le risposte ad una serie di modelli.
Come si procede: prima fai una domanda a vari LLM singolarmente oppure usando uno strumento come BotScanner che lo fa contemporaneamente.
Poi apri un chatbot e gli incolli il documento che contiene tutte le risposte ricevute, chiedendo “Ho fatto una domanda a 4 LLM e ottenuto diverse risposte. Leggile, valutale attentamente e poi dimmi qual è la più accurata.“ - Metodo “Chain of Verification”. Qui si tratta di separare la generazione delle risposte dalla verifica. Si procede così:
- Fai una domanda su un tema , es. “Qual è l’impatto sulla produttività individuale e globale dell’uso dell’IA generativa?”
- Poi chiedi “
Rivedi la risposta che mi hai dato e verifica tutte le informazioni fattuali (date, statistiche, fatti, ecc…). Poi Trasforma ogni informazione fattuale in una domanda che può essere verificata“ - Ora apri una nuova chat e scrivi “
Ho una lista di domande che richiedono una verifica. Procedi in questo modo: 1. usa solo il tool “web search” per rispondere non i tuoi dati di addestramento 2. cita sempre la fonte 3. se non trovi la risposta evidenzialo 4. se trovi risposte in conflitto evidenzialo. Eccoti le domande (incolli le domande ottenute precedentemente).“ - Ora gli dici “
Usa solo le risposte verificate che mi hai dato per rispondere alla domanda Qual è l’impatto sulla produttività individuale e globale dell’uso dell’IA generativa?”
Per vedere praticamente come si possono applicare questi metodi ti consiglio di guardare il mio video. Mentre se vuoi approfondire, partendo dalle basi, dai un’occhiata ai miei corsi di formazione.





