Alucinação de IA: por que os modelos parecem certos e estão errados

Resposta em 60 segundos

Alucinação de IA é quando um modelo de linguagem produz conteúdo gramaticalmente perfeito, confiante no tom e factualmente errado — citações inventadas, decisões judiciais inexistentes, medicamentos fictícios, estatísticas fabricadas, frases atribuídas falsamente. O modelo não está mentindo. Está fazendo exatamente para o que foi treinado: gerar o texto mais plausível possível. Plausibilidade e verdade coincidem na maioria das vezes. Quando divergem, você obtém uma alucinação.

Uma alucinação é perigosa precisamente porque nada na saída do modelo sinaliza que este parágrafo está errado enquanto os outros estão certos. O tom é uniforme. Capturar a alucinação não é, portanto, questão de ler com mais atenção. Exige uma verificação externa — um segundo raciocinador independente que produza a mesma resposta por um caminho diferente. Quando os caminhos concordam, a chance de alucinação conjunta cai acentuadamente. Quando discordam, você tem uma sinalização de que algo merece verificação antes de agir.

Uma definição formal

Na literatura técnica, uma alucinação de IA é uma saída infundada — não amparada pelos dados de treinamento, não derivável da entrada e não ancorada no mundo real — e ainda assim produzida com a mesma fluência e confiança de uma saída bem fundamentada.

Isso é distinto de três modos de falha que às vezes são agrupados sob o mesmo termo.

Um erro é quando um modelo responde uma pergunta claramente formulada com uma resposta errada decorrente de uma leitura equivocada da entrada. O modelo entendeu os dados; só calculou errado. Erros são capturáveis ao reexecutar com um prompt mais claro.

Uma lacuna de conhecimento é quando o modelo honestamente não sabe — por exemplo, quando perguntado sobre um evento posterior ao seu corte de treinamento. A resposta bem-comportada é "não sei"; a resposta mal calibrada é arriscar. Arriscar sob uma lacuna de conhecimento pode parecer alucinação, mas é estruturalmente diferente: pediram ao modelo que inventasse.

Uma discordância com o usuário é quando o modelo produz uma resposta verdadeira de que o usuário não gosta, e o usuário a rotula como "errada". Isso não é alucinação em nenhum sentido técnico.

A alucinação propriamente dita é o caso em que o modelo não tem nenhuma base epistêmica real para o que está dizendo, e ainda assim o diz com a mesma autoridade de todo o resto. A saída é internamente coerente, gramaticalmente impecável e não traz nenhum sinal superficial de ser infundada. Essa é a propriedade definidora.

O termo é emprestado da percepção humana — uma alucinação é algo que o perceptor vivencia vividamente sem ter realidade correspondente. A analogia é imperfeita (modelos não "percebem"), mas a intuição se transfere: o usuário lê algo que parece real e não é.

Por que os modelos de linguagem alucinam

Para entender como capturar alucinações, é preciso entender por que elas acontecem. O mecanismo não é um bug. É o modelo fazendo exatamente para o que seu treinamento o otimizou.

Um modelo de linguagem moderno é treinado em um vasto corpus de texto com um objetivo primário único: prever a próxima palavra dada toda a anterior. Esse objetivo recompensa plausibilidade — saídas que se encaixam nos padrões dos dados de treinamento. Não recompensa diretamente verdade. O processo de treinamento não tem um oráculo que possa dizer ao modelo "esta frase é verdadeira" e "esta é falsa" em escala. O que tem, em vez disso, é "este padrão de frase é comum no corpus".

Para a maioria das perguntas, plausibilidade e verdade coincidem. O corpus de treinamento é grande, a resposta é bem atestada, o modelo interpola corretamente. É por isso que os modelos de linguagem são úteis tantas vezes. O modo de falha interessante ocorre quando plausibilidade e verdade divergem.

Essa divergência é mais pronunciada sob quatro condições.

A primeira é a especificidade que excede os dados. Peça a um modelo uma citação processual específica, uma interação medicamentosa específica, uma data histórica específica — e o modelo vai buscar uma resposta plausível mesmo quando o conhecimento subjacente é raso. Os dados de treinamento contêm milhões de frases com formato de citação; produzir uma é fácil. Produzir uma citação real e verificável requer um tipo diferente de ancoragem que o modelo nem sempre tem.

A segunda é a cauda longa do conhecimento. Tópicos comuns são fortemente representados nos dados de treinamento e respondidos bem. Tópicos raros estão pouco representados e são respondidos com confiança superficial que disfarça compreensão rasa. Idiomas menores, regulações de nicho, desenvolvimentos recentes, contextos culturais minoritários — todos ficam mais distantes nessa cauda longa e todos atraem taxas mais altas de alucinação.

A terceira é a pressão para ser útil. Modelos são tipicamente treinados com um sinal de recompensa que penaliza respostas como "não sei" e recompensa respostas engajadas e substantivas. Isso é, em geral, desejável — você quer um modelo que se esforce. Mas inclina o equilíbrio em direção à especulação quando incerteza honesta seria a saída correta.

A quarta é o enquadramento de prompt que pressupõe a existência da resposta. Se você pergunta "qual é o nome do tribunal que decidiu sobre X?", o modelo trata a existência de tal tribunal como estabelecida pela pergunta e produz um nome plausível. O modelo está cooperando com a suposição embutida no prompt, mesmo quando a suposição é falsa.

O ponto não é que os modelos atuais sejam mal treinados. O ponto é que a arquitetura e o objetivo dos modelos de linguagem tornam uma taxa de alucinação não-zero algo inerente, não incidental. Nenhum grau de fine-tuning a elimina. Pode ser reduzida; não pode ser argumentada para fora.

Por que um único modelo não pode capturar de forma confiável as próprias alucinações

O impulso natural é pedir ao modelo que se autoverifique. Isso é atraente e não funciona.

Quando um modelo de linguagem produz uma afirmação alucinada, a mesma superfície estatística que produziu a afirmação tende a produzir uma autoafirmação confiante quando perguntado "tem certeza?". O modelo não tem mecanismo interno para distinguir uma afirmação bem fundamentada de uma que apenas soa plausível. O sinal de certeza é consistente entre os dois tipos de saída.

Pedir ao mesmo modelo que "verifique" a si mesmo é, portanto, em grande parte teatral. Você obterá uma reformulação polida da resposta original com frases acrescentadas como "com base nos meus dados de treinamento" ou "segundo fontes estabelecidas" — frases que o modelo aprendeu estarem associadas a respostas que soam confiáveis, independentemente de a afirmação original ser sólida.

Algumas técnicas específicas melhoram modestamente a autoverificação:

Autoconsistência consulta o modelo várias vezes com amostragem e observa a concordância entre as amostras. Isso captura algumas alucinações porque a resposta errada-mas-plausível varia mais entre amostras do que a resposta certa. Mas compartilha os pontos cegos do modelo: um tópico em que toda amostra está uniformemente errada parecerá ter concordância consistente.

Chain-of-thought prompting pede ao modelo que raciocine passo a passo. Isso melhora o desempenho em problemas lógicos, mas não trata a alucinação factual, porque os próprios passos podem ser alucinados junto com a conclusão.

Retrieval-augmented generation ancora o modelo em documentos externos. Isso é genuinamente eficaz quando a recuperação encontra os documentos certos e o modelo é honesto sobre o que dizem. É muito menos eficaz quando a recuperação erra (o modelo cai de volta na plausibilidade dos dados de treinamento) ou quando o modelo cita seletivamente os documentos recuperados de forma errada.

Nenhuma dessas técnicas resolve o problema subjacente: a noção de confiança de um modelo de linguagem é calibrada contra a fluência, não contra a verdade externa. A arquitetura não pode, por si só, realizar a verificação externa.

É por isso que a resistência a alucinações é fundamentalmente um problema de sistemas, não de modelo. A solução vem de fora do modelo — da comparação com outros modelos, com fontes autoritativas ou com um especialista humano.

Como o consenso multi-modelo captura alucinações

Se um único modelo não pode detectar de forma confiável as próprias alucinações, a pergunta se torna: o que pode?

O consenso multi-modelo é a resposta mais prática que escala. O princípio é simples e a implementação é mais envolvida.

O princípio: modelos diferentes produzidos por organizações diferentes com dados de treinamento diferentes alucinam de formas diferentes. Uma alucinação é, por definição, uma saída que o modelo inventou a partir de plausibilidade. A superfície de plausibilidade difere entre modelos porque suas superfícies de treinamento diferem. A probabilidade de que dois modelos genuinamente independentes inventem a mesma afirmação falsa-mas-plausível ao mesmo tempo é muito menor que a probabilidade de qualquer um deles inventá-la sozinho.

Essa é exatamente a estrutura que torna o consenso eficaz contra alucinações. Quando cinco ou seis modelos independentes convergem na mesma afirmação específica — mesmo nome de medicamento, mesma decisão judicial, mesma estatística —, a chance de que todos os cinco tenham alucinado independentemente da mesma forma cai acentuadamente. Quando divergem — o modelo A diz X, o modelo B diz Y, o modelo C diz que não existe —, você tem uma sinalização de que a afirmação original merecia mais verificação antes de você agir sobre ela.

A implementação precisa ter cuidado com três armadilhas que destroem a eficácia.

Armadilha um: falsa independência. Dois modelos da mesma família ou treinados em corpora substancialmente sobrepostos compartilharão suas alucinações. A concordância deles não é evidência; é erro correlacionado. Um consenso significativo usa modelos de linhagens genuinamente diferentes.

Armadilha dois: comparação de superfície. Se o sistema de consenso compara apenas a superfície lexical das respostas, ele perderá a concordância semântica (mesma afirmação, palavras diferentes) e contará em excesso a concordância lexical (mesmas palavras, significados diferentes). A comparação tem de ser no nível das afirmações extraídas de cada resposta.

Armadilha três: desacordo oculto. Um sistema de consenso que resume e elimina o desacordo derrota seu próprio propósito. O desacordo é o sinal que o usuário precisa ver. Uma saída de consenso bem desenhada o preserva.

Quando as três armadilhas são evitadas, um consenso multi-modelo captura uma parcela significativa das alucinações de modelo único — não detectando-as isoladamente, mas trazendo-as à tona como pontos de desacordo que o usuário pode investigar mais.

Essa é a razão estrutural pela qual "pergunte a várias IAs e compare" é mais do que um slogan de marketing. É a única maneira prática de um sistema externo marcar a fronteira entre o que os modelos coletivamente sabem e o que um deles está inventando agora.

Quando a alucinação importa mais

A alucinação não é uniformemente perigosa. O custo depende do que o usuário faz com a resposta errada.

Em uso de baixo risco — redigir uma mensagem casual, fazer brainstorming, resumir um documento longo para uso pessoal —, um detalhe alucinado é, em geral, um pequeno aborrecimento. O usuário é o único interessado e as consequências de um erro não detectado são limitadas.

Em uso de alto risco, a alucinação compõe.

Para perguntas de saúde, uma interação medicamentosa alucinada, uma associação sintoma-doença fabricada ou uma dosagem inventada podem levar a uma decisão de autocuidado errada ou a uma pergunta errada para um clínico. A alucinação nesse domínio historicamente levou a danos documentados.

Para perguntas jurídicas, a forma mais documentada de alucinação envolve citações processuais fabricadas: nomes de tribunais que existem, nomes de juízes que existem, mas casos que não existem. Um usuário que confia nelas para uma petição ou para um argumento em um contrato pode enfrentar consequências profissionais diretas.

Para perguntas financeiras, a alucinação tende a assumir a forma de estatísticas inventadas — retornos históricos imaginários, números fictícios de rendimento, referências regulatórias fabricadas. Estas são particularmente perigosas porque o formato parece técnico e autoritativo.

Para pesquisa e trabalho acadêmico, a alucinação aparece mais frequentemente como referências inventadas — títulos de artigos que não existem, autores que nunca coautoriaram, periódicos que nunca publicaram o artigo. A saída é estruturalmente idêntica a uma lista de citações real, e apenas a verificação contra a literatura real revela quais entradas são fictícias.

Para jornalismo e apuração de fatos, a alucinação pode produzir citações fabricadas atribuídas a pessoas reais, cronologias inventadas de eventos e atribuições incorretas confiantes. O dano de publicar qualquer um deles é reputacional e às vezes jurídico.

O fio comum é que a alucinação é mais cara precisamente onde o usuário está menos preparado para verificar a saída de forma independente. Uma especialista pode identificar uma interação medicamentosa alucinada; um leigo, não. Um advogado em exercício pode identificar uma citação falsa; o público, não. A assimetria entre a saída confiante do modelo e a capacidade do leitor de checá-la é o risco central.

Como reduzir o risco de alucinação na prática

Além de usar um consenso multi-modelo, o usuário pode adotar vários hábitos que reduzem a chance de agir sobre uma alucinação.

Peça fontes, toda vez que a resposta importar. Um modelo que não pode ou não quer citar uma fonte para uma afirmação específica é, nessa afirmação específica, menos confiável. Se fontes forem dadas, verifique pelo menos uma por amostragem antes de confiar na cadeia.

Trate números específicos como o conteúdo de mais alto risco. Datas, percentuais, números de artigos legais, doses de medicamentos, nomes de processos — qualquer coisa com textura de autoridade — é a superfície mais comum para alucinação. Trate especificidades com mais ceticismo do que enquadramento geral.

Repergunte com enquadramento diferente. Se um modelo lhe deu uma afirmação confiante, faça a mesma pergunta com a suposição invertida. Respostas alucinadas frequentemente contradizem silenciosamente sua própria versão anterior sobre o mesmo tópico.

Use um consenso multi-modelo para decisões que você não desfaria. É o hábito de maior impacto. Qualquer coisa com consequências de saúde, jurídicas, financeiras ou reputacionais merece a segunda opinião que vem da comparação de raciocinadores independentes.

Leve a saída da IA a um especialista humano para o último passo. Especialmente em domínios regulados. A IA faz a preparação — abrangente, ampla, rápida. O humano faz a certificação — restrita, profunda, responsável.

Equívocos comuns

"Os modelos modernos não alucinam mais." Eles alucinam menos do que há dois anos em perguntas comuns. Continuam alucinando em perguntas de cauda longa, em afirmações factuais muito específicas e sob enquadramentos de prompt que pressupõem a existência da resposta. A taxa caiu; não é zero.

"Se o modelo inclui uma citação, a citação é real." Não necessariamente. Citações alucinadas são um dos modos de falha mais comuns e mais documentados. Um modelo produzirá um nome de periódico plausível, uma lista de autores plausível e um ano plausível. Apenas a verificação contra o periódico real prova que a citação é real.

"O modelo me avisará quando estiver inseguro." Os modelos avisam de forma desigual. Alguns foram treinados para sinalizar incerteza; muitos produzem respostas que soam confiantes independentemente da confiança real. A ausência de uma ressalva na saída é evidência fraca de que a saída está fundamentada.

"Alucinação afeta apenas fatos. O raciocínio está bem." O raciocínio também pode ser alucinado — um modelo pode produzir uma cadeia de passos de inferência que parecem plausíveis e levam a uma conclusão errada. Capturar alucinação no nível do raciocínio é mais difícil, não mais fácil, do que capturar alucinação factual, porque a superfície parece mais competente.

"Um modelo maior alucina menos." Modelos maiores alucinam menos por tentativa em média. Não alucinam zero, e nos tópicos de cauda longa em que a alucinação mais importa, a melhoria dos modelos maiores tem sido historicamente menor do que a melhoria em tópicos comuns.

Conceitos relacionados

Consenso de IA é a prática mais ampla da qual a resistência à alucinação é uma aplicação. Verificação multi-modelo é a engenharia de rodar múltiplos modelos independentes para capturar alucinações como desacordos. Verificação de fatos por IA é o uso específico do consenso para verificar afirmações individuais. Score de concordância de IA é a leitura quantitativa de quanto da saída conjunta foi convergência livre de alucinação. Confiança em IA é o enquadramento voltado ao usuário de por que a resistência à alucinação importa no momento da decisão.

Perguntas frequentes

Por que o termo "alucinação" é usado para isso? A analogia é com a percepção humana de algo vívido que não tem correspondência real. Uma saída de modelo que é fluente e confiante, mas sem fundamento epistêmico subjacente, encaixa no mesmo formato. O termo é imperfeito, mas pegou porque captura a vividez da resposta errada.

A alucinação pode ser eliminada por completo? Não. O mecanismo que torna os modelos de linguagem úteis — gerar texto plausível a partir de padrões aprendidos — é o mesmo que produz alucinações na cauda longa. A taxa pode ser reduzida por melhor treinamento, ancoragem por recuperação e verificação externa. Não chega a zero.

Quão comum é a alucinação nos modelos atuais? As taxas variam por modelo, por tópico e por enquadramento da pergunta. Em perguntas comuns, modelos frontier modernos alucinam uma pequena fração das vezes. Em consultas factuais específicas — citações, estatísticas, eventos recentes —, as taxas sobem. Em tópicos de cauda longa, as taxas podem ser altas mesmo nos melhores modelos. Não há um número único que capture o quadro inteiro.

O consenso é suficiente? Para a maioria das decisões, sim. Captura a maioria das alucinações de modelo único trazendo-as à tona como desacordos. Para decisões de peso profissional — médico, jurídico, financeiro —, o consenso é o ponto de partida, e um especialista humano é o ponto final.

Como sei se uma resposta específica foi alucinada? O teste único mais confiável: pedir a fonte e verificar a fonte diretamente. Se o modelo não pode produzir uma fonte, trate a afirmação como não verificada. Se a fonte que ele produz não existe, a afirmação tem alto risco de ser alucinada.