Em resumo: fizemos às seis principais IAs as mesmas 75 perguntas reais de alto risco. Em 40% delas, os modelos deram recomendações materialmente diferentes — e em várias, conselhos abertamente opostos. A pontuação de concordância média nas 75 perguntas foi de apenas 79/100. O mais impressionante: quanto maior o risco, mais os modelos discordam.

Quando você faz a uma única IA uma pergunta que realmente importa — uma decisão de saúde, um risco jurídico, uma jogada de dinheiro — você não tem como saber se caiu nos 60% em que os modelos concordam ou nos 40% em que não concordam. Um único modelo nunca lhe diz "os outros cinco discordariam de mim". É justamente esse ponto cego a razão de existir deste estudo.

A constatação que ninguém espera: risco sobe, concordância cai

Você poderia supor que modelos treinados com dados que se sobrepõem convergem na maior parte das vezes. E convergem — em perguntas de baixo risco. Mas a taxa de desacordo sobe exatamente onde mais dói:

Área	Perguntas em que os modelos discordaram
Decisões de vida	59%
Saúde	50%
Jurídico	46%
Finanças	23%
Previsões	20%
Decisões de consumo	17%

Leia de novo. Em perguntas de saúde e jurídicas — aquelas em que errar custa mais caro — os modelos discordaram cerca de metade das vezes. As áreas em que você mais gostaria de uma segunda opinião são precisamente aquelas em que uma única IA é a menos confiável.

Cinco casos em que as IAs deram conselhos opostos

Não são casos extremos. São perguntas comuns que milhões de pessoas fazem:

"É seguro tomar ibuprofeno e paracetamol ao mesmo tempo?" O Gemini disse não — espace as doses. Claude, GPT-4o, Mistral e Perplexity disseram sim, em geral é seguro tomá-los juntos. Um modelo em seis teria mudado como você se medica.
"Devo sacar da minha aposentadoria para quitar R$ 80 mil de dívida de cartão a 20% ao ano?" O Gemini recomendou fazer isso. Claude, GPT-4o e Perplexity recomendaram não fazer, tratando o resgate antecipado como último recurso. Conselhos de dinheiro opostos, ditos com a mesma confiança.
"É seguro beber álcool tomando metronidazol?" As seis concordaram que é preciso evitar álcool — mas no período de espera após o tratamento se dividiram: 48 horas (Claude, GPT-4o, Mistral), 72 horas (Gemini), "2 a 3 dias" (Perplexity). Uma advertência de segurança materialmente diferente conforme a IA que você abriu.
"Um colega levou crédito pelo meu trabalho — confronto ou vou ao RH?" O Gemini disse ir direto ao RH. Todos os outros modelos disseram falar primeiro com o colega.
"É seguro tomar ibuprofeno se eu tomo lisinopril para pressão?" O GPT-4o tratou o uso ocasional como "normalmente tudo bem"; Claude, Gemini e Perplexity trataram como geralmente não recomendado — um padrão diferente para uma interação medicamentosa real.

Quando os modelos discordam assim, a resposta de uma única IA não é uma resposta — é um cara ou coroa que você não consegue ver.

Como conduzimos (método)

A transparência é o ponto central, então aqui está exatamente o que fizemos:

75 perguntas em seis áreas: saúde, jurídico, finanças, decisões de vida, previsões e decisões de consumo — todas formuladas como decisões reais sobre as quais alguém agiria.
Seis modelos, um por grande fornecedor: Claude (Anthropic), GPT-4o (OpenAI), Gemini (Google), Mistral, Perplexity e Grok (xAI). Cada um recebeu o mesmo prompt, sem direcionamento de sistema além de "responda diretamente e dê uma conclusão clara".
Um juiz de fornecedor distinto. Um modelo separado leu as seis respostas de cada pergunta e as classificou como Concordam (mesma recomendação final), Parcial (mesma direção, com ressalvas materialmente diferentes sobre as quais o usuário agiria) ou Oposto (recomendações contrárias e acionáveis), além de uma pontuação de concordância de 0 a 100. O juiz nunca é do mesmo fornecedor que as respostas que avalia — nenhum modelo corrige a própria prova.
"Desacordo" no título = Oposto + Parcial (40%). Os Opostos puros, sozinhos, foram 5%. Pontuação de concordância média: 79/100.

O conjunto completo de resultados (cada pergunta, a posição de cada modelo, cada veredito) é reproduzível — é um instantâneo, não uma anedota isolada.

O que isso significa se você usa IA para decisões reais

Um único modelo lhe dá uma resposta confiante e esconde o desacordo. Tudo bem para "escreva um e-mail para mim". É perigoso para "posso tomar esses dois remédios juntos?" ou "devo mexer na minha aposentadoria?".

A solução não é achar a "melhor" IA — nossos dados mostram que nenhum modelo acertou de forma consistente, e a "melhor" muda conforme a área. A solução é ver o desacordo: perguntar a vários modelos, expor onde divergem e tratar uma pontuação de concordância baixa como uma luz piscando que diz vá com calma, procure um especialista humano. Essa abordagem multifornecedor, centrada na contradição, é exatamente o que um motor de consenso faz, e por que uma única IA não basta para decisões que importam.

Limitações honestas

É um instantâneo de 75 perguntas, com um modelo por fornecedor e um juiz baseado em LLM — não um ensaio clínico revisado por pares. Outras formulações, versões de modelos ou um painel de juízes humanos deslocariam os percentuais exatos. Do que temos certeza é da direção: desacordo significativo entre modelos é comum, concentra-se nas áreas de alto risco, e uma única IA nunca avisa quando você está em uma delas.

Dúvidas sobre a metodologia ou quer os dados brutos? O estudo foi conduzido pela equipe por trás do Satcove, que faz sua pergunta a seis modelos de IA de uma vez e devolve um único veredito sintetizado com uma pontuação de concordância — para que você sempre veja onde os modelos concordam, e onde não.

Fizemos as mesmas 75 perguntas de alto risco a 6 IAs — elas discordaram 40% das vezes

A constatação que ninguém espera: risco sobe, concordância cai

Cinco casos em que as IAs deram conselhos opostos

Como conduzimos (método)

O que isso significa se você usa IA para decisões reais

Limitações honestas

Mais artigos

Descubra a Satcove