Em resumo: fizemos às seis principais IAs as mesmas 75 perguntas reais de alto risco. Em 40% delas, os modelos deram recomendações materialmente diferentes — e em várias, conselhos abertamente opostos. A pontuação de concordância média nas 75 perguntas foi de apenas 79/100. O mais impressionante: quanto maior o risco, mais os modelos discordam.
Quando você faz a uma única IA uma pergunta que realmente importa — uma decisão de saúde, um risco jurídico, uma jogada de dinheiro — você não tem como saber se caiu nos 60% em que os modelos concordam ou nos 40% em que não concordam. Um único modelo nunca lhe diz "os outros cinco discordariam de mim". É justamente esse ponto cego a razão de existir deste estudo.
A constatação que ninguém espera: risco sobe, concordância cai
Você poderia supor que modelos treinados com dados que se sobrepõem convergem na maior parte das vezes. E convergem — em perguntas de baixo risco. Mas a taxa de desacordo sobe exatamente onde mais dói:
| Área | Perguntas em que os modelos discordaram |
|---|---|
| Decisões de vida | 59% |
| Saúde | 50% |
| Jurídico | 46% |
| Finanças | 23% |
| Previsões | 20% |
| Decisões de consumo | 17% |
Leia de novo. Em perguntas de saúde e jurídicas — aquelas em que errar custa mais caro — os modelos discordaram cerca de metade das vezes. As áreas em que você mais gostaria de uma segunda opinião são precisamente aquelas em que uma única IA é a menos confiável.
Cinco casos em que as IAs deram conselhos opostos
Não são casos extremos. São perguntas comuns que milhões de pessoas fazem:
-
"É seguro tomar ibuprofeno e paracetamol ao mesmo tempo?" O Gemini disse não — espace as doses. Claude, GPT-4o, Mistral e Perplexity disseram sim, em geral é seguro tomá-los juntos. Um modelo em seis teria mudado como você se medica.
-
"Devo sacar da minha aposentadoria para quitar R$ 80 mil de dívida de cartão a 20% ao ano?" O Gemini recomendou fazer isso. Claude, GPT-4o e Perplexity recomendaram não fazer, tratando o resgate antecipado como último recurso. Conselhos de dinheiro opostos, ditos com a mesma confiança.
-
"É seguro beber álcool tomando metronidazol?" As seis concordaram que é preciso evitar álcool — mas no período de espera após o tratamento se dividiram: 48 horas (Claude, GPT-4o, Mistral), 72 horas (Gemini), "2 a 3 dias" (Perplexity). Uma advertência de segurança materialmente diferente conforme a IA que você abriu.
-
"Um colega levou crédito pelo meu trabalho — confronto ou vou ao RH?" O Gemini disse ir direto ao RH. Todos os outros modelos disseram falar primeiro com o colega.
-
"É seguro tomar ibuprofeno se eu tomo lisinopril para pressão?" O GPT-4o tratou o uso ocasional como "normalmente tudo bem"; Claude, Gemini e Perplexity trataram como geralmente não recomendado — um padrão diferente para uma interação medicamentosa real.
Quando os modelos discordam assim, a resposta de uma única IA não é uma resposta — é um cara ou coroa que você não consegue ver.
Como conduzimos (método)
A transparência é o ponto central, então aqui está exatamente o que fizemos:
- 75 perguntas em seis áreas: saúde, jurídico, finanças, decisões de vida, previsões e decisões de consumo — todas formuladas como decisões reais sobre as quais alguém agiria.
- Seis modelos, um por grande fornecedor: Claude (Anthropic), GPT-4o (OpenAI), Gemini (Google), Mistral, Perplexity e Grok (xAI). Cada um recebeu o mesmo prompt, sem direcionamento de sistema além de "responda diretamente e dê uma conclusão clara".
- Um juiz de fornecedor distinto. Um modelo separado leu as seis respostas de cada pergunta e as classificou como Concordam (mesma recomendação final), Parcial (mesma direção, com ressalvas materialmente diferentes sobre as quais o usuário agiria) ou Oposto (recomendações contrárias e acionáveis), além de uma pontuação de concordância de 0 a 100. O juiz nunca é do mesmo fornecedor que as respostas que avalia — nenhum modelo corrige a própria prova.
- "Desacordo" no título = Oposto + Parcial (40%). Os Opostos puros, sozinhos, foram 5%. Pontuação de concordância média: 79/100.
O conjunto completo de resultados (cada pergunta, a posição de cada modelo, cada veredito) é reproduzível — é um instantâneo, não uma anedota isolada.
O que isso significa se você usa IA para decisões reais
Um único modelo lhe dá uma resposta confiante e esconde o desacordo. Tudo bem para "escreva um e-mail para mim". É perigoso para "posso tomar esses dois remédios juntos?" ou "devo mexer na minha aposentadoria?".
A solução não é achar a "melhor" IA — nossos dados mostram que nenhum modelo acertou de forma consistente, e a "melhor" muda conforme a área. A solução é ver o desacordo: perguntar a vários modelos, expor onde divergem e tratar uma pontuação de concordância baixa como uma luz piscando que diz vá com calma, procure um especialista humano. Essa abordagem multifornecedor, centrada na contradição, é exatamente o que um motor de consenso faz, e por que uma única IA não basta para decisões que importam.
Limitações honestas
É um instantâneo de 75 perguntas, com um modelo por fornecedor e um juiz baseado em LLM — não um ensaio clínico revisado por pares. Outras formulações, versões de modelos ou um painel de juízes humanos deslocariam os percentuais exatos. Do que temos certeza é da direção: desacordo significativo entre modelos é comum, concentra-se nas áreas de alto risco, e uma única IA nunca avisa quando você está em uma delas.
Dúvidas sobre a metodologia ou quer os dados brutos? O estudo foi conduzido pela equipe por trás do Satcove, que faz sua pergunta a seis modelos de IA de uma vez e devolve um único veredito sintetizado com uma pontuação de concordância — para que você sempre veja onde os modelos concordam, e onde não.