Il problema del fact-checking con l'IA
Incolli una clausola contrattuale in ChatGPT. Conferma che tutto è corretto. Tono professionale. Risposta ben strutturata. Ti fidi.
Eccetto che la clausola era sbagliata. E l'IA anche.
Le allucinazioni dell'IA sono un problema noto — ma la difficoltà reale è più sottile: le IA non sbagliano segnalando incertezza. Sbagliano con esattamente lo stesso tono usato quando hanno ragione. Non c'è differenza visiva tra una risposta corretta e una inventata.
Abbiamo testato 6 modelli di IA con 20 domande reali di verifica dei fatti. I risultati sono stati sorprendenti.
I dati: cosa è successo con 20 domande reali
| Metrica | Risultato |
|---|---|
| Accordo medio tra i modelli | 59% |
| Domande con forte disaccordo (< 50%) | 40% |
| Domande con forte consenso (> 80%) | 20% |
| Accordo più basso registrato | 30% (domanda di diritto successorio) |
| Accordo più alto registrato | 95% (fatto medico non ambiguo) |
In 4 domande su 10, i 6 modelli si contraddicono sostanzialmente. Non una variazione di formulazione — posizioni fondamentalmente diverse, a volte direttamente opposte.
Quale IA è la migliore per verificare i fatti nel 2026?
La risposta breve: nessun modello singolo è "il migliore" per il fact-checking. Ogni modello ha punti di forza diversi, lacune diverse e punti ciechi diversi.
Ciò che funziona davvero è il punteggio di accordo tra più modelli:
| Punteggio di accordo | Significato | Cosa fare |
|---|---|---|
| 80–100% | Alta affidabilità | Agire con sicurezza |
| 60–79% | Affidabilità moderata | Verificare se la decisione è importante |
| 40–59% | Disaccordo significativo | Approfondire prima di agire |
| Sotto il 40% | Risposte contraddittorie | Non agire senza verifica umana |
Quale IA ha la maggiore precisione fattuale nel 2026?
Ogni modello ha un profilo diverso:
| Modello IA | Punto di forza | Modalità di fallimento tipica |
|---|---|---|
| Claude | Riconosce l'incertezza; buon ragionamento | Debole su eventi recenti |
| GPT | Versatile e completo | Inventa citazioni specifiche su nicchie |
| Gemini | Integrazione Google; attualità | Lacune in contesti legali non anglofoni |
| Mistral | Forte sui dati europei; diritto EU | Copertura globale più limitata |
| Perplexity | Fornisce citazioni web | La fonte citata non è sempre verificata |
| Grok | Accesso in tempo reale | Variabile sui fatti storici |
Come misurare la precisione fattuale di un'IA?
Il punteggio di accordo tra modelli (metodo Satcove):
- Funziona su qualsiasi domanda, in tempo reale, senza una risposta di riferimento
- Meccanismo: porre la stessa domanda a più modelli indipendenti. Alto accordo = alta fiducia nella risposta
- Limitazione: se tutti i modelli condividono lo stesso bias di addestramento, potrebbero concordare su un errore
Tre casi reali di fallimento osservati
Caso 1: diritto successorio — posizioni legali opposte
Domanda sulla trasmissibilità di un conto di risparmio a un erede dopo il decesso. Un modello ha detto sì, un altro ha detto no. Punteggio di accordo: 30%. Posizioni legali opposte, nessuna differenza nel tono di risposta.
Caso 2: storia aziendale inventata
Domanda sul cambio di insegna di un hotel parigino. Un modello ha fornito un resoconto completo e sicuro — entità proprietarie, date, affiliazioni di marca — tutto inventato. Un altro modello ha corretto l'intero resoconto. Punteggio di accordo: 56%.
Caso 3: fatto medico ben documentato — alta precisione
Domanda sulla frequenza normale delle evacuazioni intestinali. Tutti i modelli hanno concordato: tra 3 volte al giorno e 3 volte a settimana. Punteggio di accordo: 95%. Su fatti medici non ambigui, il metodo multi-modello funziona perfettamente.
Ci si può fidare dell'IA per domande mediche e legali?
La risposta onesta: dipende dal punteggio di accordo.
Domande mediche: Alta affidabilità su fatti generali (range normali, condizioni comuni). Bassa affidabilità su dosaggi e protocolli precisi — verificare sempre con un professionista sanitario.
Domande legali: Affidabilità moderata su principi generali. Bassa affidabilità su diritto specifico per giurisdizione (diritto italiano, PACS, eredità, urbanistica). Per qualsiasi decisione con conseguenze reali, consultare un avvocato.
Prova: verifica qualsiasi affermazione con 6 IA contemporaneamente
Incolla un'affermazione, una domanda medica, una clausola legale — e osserva dove 6 modelli di IA sono d'accordo e dove divergono.
Una sessione di verifica: 12 secondi. Punteggio di accordo mostrato per ogni verdetto. Prima sessione gratuita.
Vedi anche: