Allucinazione IA: perché i modelli sembrano corretti e sbagliano

Risposta in 60 secondi

L'allucinazione IA è quando un modello linguistico produce contenuto grammaticalmente perfetto, sicuro nel tono e fattualmente errato — citazioni inventate, sentenze inesistenti, farmaci fittizi, statistiche fabbricate, virgolettati attribuiti falsamente. Il modello non sta mentendo. Sta facendo esattamente ciò per cui è stato addestrato: generare il testo che suona più plausibile. Plausibilità e verità coincidono la maggior parte delle volte. Quando divergono, ottieni un'allucinazione.

Un'allucinazione è pericolosa proprio perché nulla nell'output del modello segnala che questo paragrafo è sbagliato mentre gli altri sono corretti. Il tono è uniforme. Catturare l'allucinazione non è quindi questione di leggere con più attenzione. Richiede un controllo esterno — un secondo ragionatore indipendente che produca la stessa risposta attraverso un percorso diverso. Quando i percorsi concordano, la probabilità di un'allucinazione congiunta cala bruscamente. Quando divergono, hai un segnale che qualcosa merita verifica prima di agire.

Una definizione formale

Nella letteratura tecnica, un'allucinazione IA è un output infondato — non supportato dai dati di addestramento, non derivabile dall'input e non ancorato al mondo reale — eppure prodotto con la stessa fluidità e sicurezza di un output ben fondato.

Questo è distinto da tre modalità di fallimento talvolta raggruppate sotto la stessa parola.

Un errore è quando un modello risponde a una domanda chiaramente posta con una risposta sbagliata che deriva da una lettura errata dell'input. Il modello ha capito i dati; ha solo calcolato male. Gli errori sono catturabili rieseguendo con un prompt più chiaro.

Una lacuna di conoscenza è quando il modello onestamente non sa — per esempio, quando interrogato su un evento successivo al suo cutoff di addestramento. La risposta ben educata è "non lo so"; la risposta mal calibrata è tirare a indovinare. Tirare a indovinare in una lacuna di conoscenza può sembrare allucinazione ma è strutturalmente diverso: al modello è stato chiesto di inventare.

Un disaccordo con l'utente è quando il modello produce una risposta vera che all'utente non piace, e l'utente la etichetta come "sbagliata". Questo non è allucinazione in nessun senso tecnico.

L'allucinazione propriamente detta è il caso in cui il modello non ha alcuna base epistemica reale per ciò che sta dicendo, eppure lo dice con la stessa autorità di tutto il resto. L'output è internamente coerente, grammaticalmente impeccabile e non porta alcun segno superficiale di essere infondato. Questa è la proprietà definitoria.

Il termine stesso è preso in prestito dalla percezione umana — un'allucinazione è qualcosa che il percipiente vive vividamente senza che vi sia una realtà corrispondente. L'analogia è imperfetta (i modelli non "percepiscono") ma l'intuizione si trasferisce: l'utente legge qualcosa che sembra reale e non lo è.

Perché i modelli linguistici allucinano

Per capire come catturare le allucinazioni bisogna capire perché accadono. Il meccanismo non è un bug. È il modello che fa esattamente ciò per cui il suo addestramento lo ha ottimizzato.

Un moderno modello linguistico di grandi dimensioni è addestrato su un vasto corpus di testo con un unico obiettivo primario: prevedere la prossima parola dato tutto ciò che è venuto prima. Quell'obiettivo premia la plausibilità — output che si adattano ai modelli dei dati di addestramento. Non premia direttamente la verità. Il processo di addestramento non ha un oracolo che possa dire al modello "questa frase è vera" e "questa è falsa" su scala. Ciò che ha, invece, è "questo schema di frase è comune nel corpus".

Per la maggior parte delle domande, plausibilità e verità si allineano. Il corpus di addestramento è grande, la risposta è ben attestata, il modello interpola correttamente. Per questo i modelli linguistici sono utili così spesso. La modalità di fallimento interessante si verifica quando plausibilità e verità divergono.

Questa divergenza è più pronunciata in quattro condizioni.

La prima è la specificità che eccede i dati. Chiedi a un modello una citazione di causa specifica, un'interazione farmacologica specifica, una data storica specifica — e il modello cercherà una risposta che suoni plausibile anche quando la conoscenza sottostante è sottile. I dati di addestramento contengono milioni di frasi a forma di citazione; produrne una è facile. Produrre una citazione reale e verificabile richiede un tipo diverso di ancoraggio che il modello non sempre ha.

La seconda è la coda lunga della conoscenza. I temi comuni sono fortemente rappresentati nei dati di addestramento e ben risposti. I temi rari sono scarsamente rappresentati e risposti con sicurezza superficiale che maschera una comprensione superficiale. Lingue minori, regolamenti di nicchia, sviluppi recenti, contesti culturali minoritari — tutti si trovano più in basso su questa coda lunga e attirano tutti tassi più alti di allucinazione.

La terza è la pressione a essere utili. I modelli sono tipicamente addestrati con un segnale di ricompensa che penalizza risposte come "non lo so" e premia risposte impegnate e sostanziali. Questo è per lo più desiderabile — vuoi un modello che si sforzi. Ma fa pendere l'equilibrio verso la speculazione quando un'incertezza onesta sarebbe l'output corretto.

La quarta è l'inquadramento del prompt che presuppone l'esistenza della risposta. Se chiedi "qual è il nome del tribunale che ha deciso su X?", il modello tratta l'esistenza di tale tribunale come stabilita dalla domanda e produce un nome plausibile. Il modello sta cooperando con l'assunzione incorporata nel prompt, anche quando l'assunzione è falsa.

Il punto non è che i modelli attuali siano addestrati male. Il punto è che l'architettura e l'obiettivo dei modelli linguistici rendono un tasso di allucinazione non nullo inerente, non incidentale. Nessuna quantità di fine-tuning lo elimina. Può essere ridotto; non può essere eliminato argomentando.

Perché un singolo modello non può catturare in modo affidabile le proprie allucinazioni

L'impulso naturale è chiedere al modello di verificare se stesso. Questo è attraente e non funziona.

Quando un modello linguistico produce un'affermazione allucinata, la stessa superficie statistica che ha prodotto l'affermazione tenderà a produrre un'autoconferma sicura quando interrogata "ne sei sicuro?". Il modello non ha alcun meccanismo interno per distinguere un'affermazione ben fondata da una che suona plausibile. Il segnale di certezza è coerente attraverso entrambi i tipi di output.

Chiedere allo stesso modello di "verificare" se stesso è quindi per lo più teatrale. Otterrai una riformulazione lucidata della risposta originale con frasi aggiunte come "basato sui miei dati di addestramento" o "secondo fonti consolidate" — frasi che il modello ha imparato essere associate a risposte che suonano credibili, indipendentemente dal fatto che l'affermazione originale fosse solida.

Alcune tecniche specifiche migliorano modestamente l'auto-verifica:

Autoconsistenza sollecita il modello più volte con campionamento e osserva l'accordo tra i campioni. Questo cattura alcune allucinazioni perché la risposta sbagliata-ma-plausibile varia più tra i campioni di quanto faccia la risposta giusta. Ma condivide i punti ciechi del modello: un tema in cui ogni campione è uniformemente sbagliato sembrerà accordo coerente.

Chain-of-thought prompting chiede al modello di ragionare passo per passo. Questo migliora le prestazioni su problemi logici ma non affronta l'allucinazione fattuale, perché i passi stessi possono essere allucinati insieme alla conclusione.

Retrieval-augmented generation ancora il modello a documenti esterni. Questo è genuinamente efficace quando il recupero trova i documenti giusti e il modello è onesto su ciò che dicono. È molto meno efficace quando il recupero manca (il modello ricade sulla plausibilità dei dati di addestramento) o quando il modello cita selettivamente in modo errato i documenti recuperati.

Nessuna di queste tecniche risolve il problema sottostante: la nozione di fiducia di un modello linguistico è calibrata contro la fluidità, non contro la verità esterna. L'architettura non può, da sola, eseguire il controllo esterno.

Per questo la resistenza all'allucinazione è fondamentalmente un problema di sistemi, non un problema di modello. La soluzione viene dall'esterno del modello — dal confronto con altri modelli, dal confronto con fonti autorevoli o dal confronto con un esperto umano.

Come il consenso multi-modello cattura l'allucinazione

Se un singolo modello non può rilevare in modo affidabile le proprie allucinazioni, la domanda diventa: cosa può?

Il consenso multi-modello è la risposta più pratica che scala. Il principio è semplice e l'implementazione è più articolata.

Il principio: modelli diversi prodotti da organizzazioni diverse su dati di addestramento diversi allucinano in modi diversi. Un'allucinazione è, per definizione, un output che il modello ha inventato per plausibilità. La superficie di plausibilità differisce tra i modelli perché le loro superfici di addestramento differiscono. La probabilità che due modelli genuinamente indipendenti inventino la stessa affermazione falsa-ma-plausibile nello stesso momento è molto più bassa della probabilità che uno solo la inventi.

Questa è esattamente la struttura che rende il consenso efficace contro l'allucinazione. Quando cinque o sei modelli indipendenti convergono sulla stessa affermazione specifica — stesso nome di farmaco, stessa sentenza, stessa statistica —, la probabilità che tutti e cinque abbiano allucinato indipendentemente nello stesso modo cala bruscamente. Quando divergono — il modello A dice X, il modello B dice Y, il modello C dice che non esiste —, hai un segnale che l'affermazione originale meritava più verifica prima di agirvi.

L'implementazione deve fare attenzione a tre trappole che distruggono l'efficacia.

Trappola uno: falsa indipendenza. Due modelli della stessa famiglia o addestrati su corpora sostanzialmente sovrapposti condivideranno le loro allucinazioni. Il loro accordo non è evidenza; è errore correlato. Un consenso significativo usa modelli da lignaggi genuinamente diversi.

Trappola due: confronto superficiale. Se il sistema di consenso confronta solo la superficie lessicale delle risposte, mancherà l'accordo semantico (stessa affermazione, parole diverse) e conterà in eccesso l'accordo lessicale (stesse parole, significati diversi). Il confronto deve essere al livello delle affermazioni estratte da ogni risposta.

Trappola tre: disaccordo nascosto. Un sistema di consenso che riassume eliminando il disaccordo sconfigge il proprio scopo. Il disaccordo è il segnale che l'utente deve vedere. Un'uscita di consenso ben progettata lo preserva.

Quando tutte e tre le trappole sono evitate, un consenso multi-modello cattura una quota significativa delle allucinazioni di modello singolo — non rilevandole isolatamente, ma portandole in superficie come punti di disaccordo che l'utente può indagare ulteriormente.

Questa è la ragione strutturale per cui "chiedi a più IA e confronta" è più di una frase di marketing. È l'unico modo pratico per un sistema esterno di segnare il confine tra ciò che i modelli collettivamente sanno e ciò che uno di essi sta attualmente inventando.

Quando l'allucinazione conta di più

L'allucinazione non è uniformemente pericolosa. Il costo dipende da cosa l'utente fa con la risposta sbagliata.

Nell'uso a bassa posta — redigere un messaggio casuale, fare brainstorming, riassumere un lungo documento per uso personale — un dettaglio allucinato è per lo più un piccolo fastidio. L'utente è l'unico interessato e le conseguenze di un errore non rilevato sono limitate.

Nell'uso ad alta posta, l'allucinazione si compone.

Per le domande di salute, un'interazione farmacologica allucinata, un'associazione sintomo-malattia fabbricata o un dosaggio inventato possono guidare una decisione di auto-cura sbagliata o una domanda sbagliata a un clinico. L'allucinazione in questo dominio ha storicamente portato a danni documentati.

Per le domande legali, la forma più documentata di allucinazione coinvolge citazioni di causa fabbricate: nomi di tribunali che esistono, nomi di giudici che esistono, ma casi che non esistono. Un utente che vi si affida per un atto o per un argomento in un contratto può affrontare conseguenze professionali dirette.

Per le domande finanziarie, l'allucinazione tende a prendere la forma di statistiche inventate — rendimenti storici inventati, numeri di rendimento fittizi, riferimenti normativi fabbricati. Questi sono particolarmente pericolosi perché il formato sembra simile a dati e autorevole.

Per il lavoro di ricerca e accademico, l'allucinazione appare più spesso come riferimenti inventati — titoli di articoli che non esistono, autori che non hanno mai co-autoriato insieme, riviste che non hanno mai pubblicato l'articolo. L'output è strutturalmente identico a una lista di citazioni reale, e solo la verifica contro la letteratura reale rivela quali voci sono fittizie.

Per il giornalismo e l'accertamento dei fatti, l'allucinazione può produrre virgolettati fabbricati attribuiti a persone reali, cronologie di eventi inventate e attribuzioni errate sicure. Il danno della pubblicazione di una qualsiasi di queste è reputazionale e talvolta legale.

Il filo comune è che l'allucinazione è più costosa proprio dove l'utente è meno attrezzato per verificare l'output indipendentemente. Uno specialista può individuare un'interazione farmacologica allucinata; un laico no. Un avvocato in esercizio può individuare una citazione falsa; il pubblico no. L'asimmetria tra l'output sicuro del modello e la capacità del lettore di verificarlo è il rischio centrale.

Come ridurre il rischio di allucinazione nella pratica

Oltre all'uso di un consenso multi-modello, l'utente può adottare diverse abitudini che abbassano la probabilità di agire su un'allucinazione.

Chiedi le fonti, ogni volta che la risposta conta. Un modello che non può o non vuole nominare una fonte per un'affermazione specifica è, su quell'affermazione specifica, meno affidabile. Se le fonti vengono fornite, verificane almeno una a campione prima di affidarti alla catena.

Tratta i numeri specifici come il contenuto a più alto rischio. Date, percentuali, numeri di statuto, dosi di farmaci, nomi di cause — qualsiasi cosa con la texture dell'autorità — è la superficie più comune per l'allucinazione. Tratta le specifiche con più scetticismo dell'inquadramento generale.

Riformula con un'altra impostazione. Se un modello ti ha dato un'affermazione sicura, fai la stessa domanda con l'assunzione invertita. Le risposte allucinate spesso si contraddicono silenziosamente con la propria versione precedente sullo stesso argomento.

Usa un consenso multi-modello per decisioni che non annulleresti. È l'abitudine ad alto impatto. Qualsiasi cosa con conseguenze sanitarie, legali, finanziarie o reputazionali merita la seconda opinione che viene dal confronto di ragionatori indipendenti.

Porta l'output dell'IA a un esperto umano per l'ultimo miglio. Soprattutto nei domini regolamentati. L'IA fa il lavoro preparatorio — esaustivo, ampio, veloce. L'umano fa la certificazione — ristretta, profonda, responsabile.

Equivoci comuni

"I modelli moderni non allucinano più." Allucinano meno rispetto a due anni fa su domande comuni. Continuano ad allucinare su domande di coda lunga, su affermazioni fattuali molto specifiche e sotto inquadramenti di prompt che presuppongono l'esistenza della risposta. Il tasso è diminuito; non è zero.

"Se il modello include una citazione, la citazione è reale." Non necessariamente. Le citazioni allucinate sono una delle modalità di fallimento più comuni e meglio documentate. Un modello produrrà un nome di rivista plausibile, una lista di autori plausibile e un anno plausibile. Solo la verifica contro la rivista reale prova che la citazione sia reale.

"Il modello mi avviserà quando è insicuro." I modelli avvisano in modo non uniforme. Alcuni sono stati addestrati a segnalare l'incertezza; molti producono risposte che suonano sicure indipendentemente dalla fiducia effettiva. L'assenza di una cautela nell'output è prova debole che l'output sia ancorato.

"L'allucinazione riguarda solo i fatti. Il ragionamento va bene." Anche il ragionamento può essere allucinato — un modello può produrre una catena di passi di inferenza che suonano plausibili e portano a una conclusione sbagliata. Catturare l'allucinazione a livello di ragionamento è più difficile, non più facile, che catturare l'allucinazione fattuale, perché la superficie sembra più competente.

"Un modello più grande allucina meno." I modelli più grandi allucinano meno per tentativo in media. Non allucinano zero, e sui temi di coda lunga in cui l'allucinazione conta di più, il miglioramento dei modelli più grandi è stato storicamente più piccolo del miglioramento sui temi comuni.

Concetti correlati

Il consenso IA è la pratica più ampia di cui la resistenza all'allucinazione è un'applicazione. La verifica multi-modello è l'ingegneria di far girare più modelli indipendenti per catturare allucinazioni come disaccordi. La verifica dei fatti IA è l'uso specifico del consenso per verificare singole affermazioni. Il punteggio di accordo IA è la lettura quantitativa di quanto dell'output congiunto fosse convergenza libera da allucinazioni. La fiducia nell'IA è l'inquadramento orientato all'utente del perché la resistenza all'allucinazione conta al momento della decisione.

Domande frequenti

Perché si usa il termine "allucinazione" per questo? L'analogia è con la percezione umana di qualcosa di vivido che non ha corrispondenza reale. Un output del modello che è fluente e sicuro eppure senza fondamento epistemico sottostante si adatta alla stessa forma. Il termine è imperfetto ma è rimasto perché cattura la vividezza della risposta sbagliata.

L'allucinazione può essere eliminata del tutto? No. Il meccanismo che rende utili i modelli linguistici — generare testo plausibile da modelli appresi — è lo stesso meccanismo che produce allucinazioni sulla coda lunga. Il tasso può essere ridotto attraverso un addestramento migliore, l'ancoraggio al recupero e la verifica esterna. Non arriva a zero.

Quanto è comune l'allucinazione nei modelli attuali? I tassi variano per modello, per tema e per inquadramento della domanda. Su domande comuni, i moderni modelli frontier allucinano una piccola frazione delle volte. Su query fattuali specifiche — citazioni, statistiche, eventi recenti — i tassi salgono. Su temi di coda lunga, i tassi possono essere alti anche nei modelli migliori. Non c'è una singola cifra che catturi l'intero quadro.

Il consenso è sufficiente? Per la maggior parte delle decisioni, sì. Cattura la maggior parte delle allucinazioni di modello singolo portandole in superficie come disaccordi. Per decisioni di peso professionale — mediche, legali, finanziarie — il consenso è il punto di partenza, e un esperto umano è il punto finale.

Come faccio a sapere se una risposta specifica era allucinata? Il test singolo più affidabile: chiedere la fonte e verificare la fonte direttamente. Se il modello non può produrre una fonte, tratta l'affermazione come non verificata. Se la fonte che produce non esiste, l'affermazione ha alto rischio di essere allucinata.