O problema da verificação de fatos com IA
Você cola uma cláusula contratual no ChatGPT. Ele confirma que está correta. Tom profissional. Resposta bem estruturada. Você confia.
Exceto que a cláusula estava errada. E a IA também.
As alucinações de IA são um problema conhecido — mas a dificuldade real é mais sutil: as IAs não erram sinalizando incerteza. Elas erram com exatamente o mesmo tom que quando estão certas. Não há diferença visual entre uma resposta correta e uma inventada.
Testamos 6 modelos de IA com 20 perguntas reais de verificação de fatos. Os resultados surpreendem.
Os dados: o que aconteceu com 20 perguntas reais
| Métrica | Resultado |
|---|---|
| Acordo médio entre os modelos | 59% |
| Perguntas com alto desacordo (< 50%) | 40% |
| Perguntas com alto consenso (> 80%) | 20% |
| Menor acordo registrado | 30% (questão jurídica de herança) |
| Maior acordo registrado | 95% (fato médico não ambíguo) |
Em 4 de cada 10 perguntas, os 6 modelos se contradizem. Não uma variação de redação — posições substancialmente diferentes, às vezes diretamente opostas.
Qual IA é a melhor para verificar fatos em 2026?
A resposta curta: nenhum modelo individual é "o melhor" para verificação de fatos. Cada modelo tem pontos fortes diferentes, lacunas diferentes e pontos cegos diferentes.
O que realmente funciona é o score de acordo entre vários modelos:
| Score de acordo | O que significa | O que fazer |
|---|---|---|
| 80–100% | Alta confiabilidade | Agir com confiança |
| 60–79% | Confiabilidade moderada | Verificar se a decisão importa |
| 40–59% | Desacordo significativo | Investigar mais antes de agir |
| Abaixo de 40% | Respostas contraditórias | Não agir sem verificação humana |
Qual IA tem a maior precisão factual em 2026?
Cada modelo tem um perfil diferente:
| Modelo | Ponto forte | Modo de falha típico |
|---|---|---|
| Claude | Reconhece incerteza; bom raciocínio | Informações em tempo real fracas |
| GPT | Versátil e abrangente | Fabrica citações específicas em nichos |
| Gemini | Integração Google; atualidade | Lacunas em contextos jurídicos não anglófonos |
| Mistral | Forte em dados europeus | Menor cobertura global |
| Perplexity | Cita fontes reais da web | Fontes citadas nem sempre verificadas |
| Grok | Acesso em tempo real | Variável em fatos históricos |
Como medir a precisão factual de uma IA?
Score de acordo entre modelos (método Satcove):
- Funciona em qualquer pergunta, em tempo real, sem uma resposta de referência
- Mecanismo: fazer a mesma pergunta a vários modelos independentes. Alto acordo = alta confiança na resposta
- Limitação: se todos os modelos compartilham o mesmo viés de treinamento, podem concordar em algo errado
Três casos reais de falha observados
Caso 1 : direito sucessório — posições jurídicas opostas
Pergunta sobre transferência de uma conta poupança francesa após falecimento.
Um modelo disse que sim, era possível. Outro disse que não, que a conta é automaticamente encerrada no falecimento. Score de acordo: 30%. São posições jurídicas opostas — seguir a errada poderia resultar em divisão incorreta do espólio.
Caso 2: história corporativa inventada
Pergunta sobre mudança de marca de um hotel em Paris. Um modelo forneceu um relato completo e confiante — entidades proprietárias, datas, afiliações de marca. Tudo falso. Outro modelo corrigiu todo o relato. Score de acordo: 56%.
Caso 3: fato médico bem documentado — alta precisão
Pergunta sobre frequência normal de evacuações intestinais. Todos os modelos concordaram: entre 3 vezes ao dia e 3 vezes por semana. Score de acordo: 95%. Em fatos médicos não ambíguos, o método multi-modelo confirma a precisão tão bem quanto detecta erros.
Você pode confiar na IA para perguntas médicas e jurídicas?
A resposta honesta: depende do score de acordo.
Perguntas médicas:
- Fatos gerais de saúde (faixas normais, doenças comuns): acordo alto, confiabilidade alta
- Doses de medicamentos e interações: verificar sempre com farmacêutico
- Raciocínio diagnóstico a partir de sintomas: muito variável
Perguntas jurídicas:
- Princípios jurídicos gerais: confiabilidade moderada
- Direito específico por país (especialmente direito civil brasileiro, português): confiabilidade baixa para a maioria dos modelos
- Assessoria jurídica específica: nenhum modelo é confiável sozinho
A regra prática: Use o consenso de IA para ter uma orientação inicial. Para qualquer decisão com consequências reais, trate um acordo baixo como sinal de parada.
Por que usar uma única IA para verificar fatos não funciona
1. Uma IA não detecta suas próprias alucinações. Quando um modelo gera um fato falso, não tem nenhum sinal interno de que está errado. A confiança que expressa vem do reconhecimento de padrões no treinamento, não de verificação real.
2. Dados de treinamento compartilhados criam pontos cegos compartilhados. Um mito repetido com frequência na internet fica integrado em vários modelos simultaneamente. Cinco modelos concordando não significa que é verdade.
3. Citações fabricadas são indistinguíveis das reais. Os modelos geram citações que parecem autênticas — nomes de revistas, datas de publicação, números DOI — que não existem. A única forma de detectar: outro modelo corrige ou não consegue corroborar.
Experimente: verifique qualquer afirmação com 6 IAs ao mesmo tempo
Cole uma afirmação, uma pergunta médica, uma cláusula jurídica — e veja onde 6 modelos de IA concordam e onde divergem.
Uma sessão de verificação: 12 segundos. Score de acordo exibido para cada veredicto. Primeira sessão gratuita.
Veja também: