En bref : on a posé aux six grandes IA les mêmes 75 questions réelles à fort enjeu. Sur 40% d'entre elles, les modèles ont donné des recommandations matériellement différentes — et sur plusieurs, des conseils carrément opposés. Le score d'accord moyen sur les 75 questions n'est que de 79/100. Le plus frappant : plus l'enjeu est élevé, plus les modèles divergent.

Quand vous posez à une seule IA une question qui compte vraiment — une décision de santé, un risque juridique, un choix d'argent — vous n'avez aucun moyen de savoir si vous êtes tombé dans les 60% où les modèles s'accordent, ou dans les 40% où ils divergent. Une IA ne vous dit jamais « les cinq autres ne seraient pas d'accord avec moi ». C'est précisément cet angle mort qui justifie cette étude.

Le constat que personne n'attend : enjeu en hausse, accord en baisse

On pourrait croire que des modèles entraînés sur des données qui se recouvrent convergent la plupart du temps. C'est vrai — sur les questions à faible enjeu. Mais le taux de désaccord grimpe exactement là où ça fait le plus mal :

Domaine	Questions où les modèles divergent
Décisions de vie	59%
Santé	50%
Droit	46%
Finance	23%
Prédictions	20%
Choix de consommation	17%

Relisez bien. Sur les questions de santé et de droit — celles où se tromper coûte le plus cher — les modèles divergent à peu près une fois sur deux. Les domaines où l'on voudrait le plus un second avis sont précisément ceux où une seule IA est la moins fiable.

Cinq cas où les IA ont donné des conseils opposés

Ce ne sont pas des cas tirés par les cheveux. Ce sont des questions ordinaires que des millions de gens se posent :

« Peut-on prendre de l'ibuprofène et du paracétamol en même temps ? » Gemini a répondu non — espacez-les. Claude, GPT-4o, Mistral et Perplexity ont tous dit oui, c'est généralement sûr de les prendre ensemble. Un modèle sur six aurait changé votre façon de vous soigner.
« Dois-je puiser dans mon épargne retraite pour solder 15 000 € de dette de carte de crédit à 20% de TAEG ? » Gemini a recommandé de le faire. Claude, GPT-4o et Perplexity ont recommandé de ne pas le faire, traitant le retrait anticipé comme un dernier recours. Conseils financiers opposés, énoncés avec la même assurance.
« Peut-on boire de l'alcool sous métronidazole ? » Les six s'accordent : il faut éviter l'alcool — mais sur le délai d'attente après le traitement, ils divergent : 48 heures (Claude, GPT-4o, Mistral), 72 heures (Gemini), « 2 à 3 jours » (Perplexity). Une mise en garde de sécurité matériellement différente selon l'IA que vous avez ouverte.
« Un collègue s'est attribué mon travail — le confronter ou aller aux RH ? » Gemini a dit aller directement aux RH. Tous les autres modèles ont dit parler d'abord au collègue.
« Peut-on prendre de l'ibuprofène quand on est sous lisinopril pour la tension ? » GPT-4o a présenté un usage occasionnel comme « généralement acceptable » ; Claude, Gemini et Perplexity l'ont présenté comme généralement déconseillé — un réglage par défaut différent pour une vraie interaction médicamenteuse.

Quand les modèles divergent ainsi, une réponse d'une seule IA n'est pas une réponse — c'est un pile ou face que vous ne voyez pas.

Comment on l'a mené (méthode)

La transparence est le cœur du sujet, alors voici exactement ce qu'on a fait :

75 questions réparties sur six domaines : santé, droit, finance, décisions de vie, prédictions et choix de consommation — toutes formulées comme de vraies décisions sur lesquelles on agirait.
Six modèles, un par grand éditeur : Claude (Anthropic), GPT-4o (OpenAI), Gemini (Google), Mistral, Perplexity et Grok (xAI). Chacun a reçu la même consigne, sans pilotage système au-delà de « réponds directement et donne une conclusion claire ».
Un juge d'un autre éditeur. Un modèle distinct a lu les six réponses par question et les a classées en Accord (même recommandation finale), Partiel (même direction, mais mises en garde matériellement différentes sur lesquelles un utilisateur agirait) ou Opposé (recommandations contraires et actionnables), plus un score d'accord de 0 à 100. Le juge n'est jamais du même éditeur que les réponses qu'il note — aucun modèle ne corrige sa propre copie.
« Désaccord » dans le titre = Opposé + Partiel (40%). Les Opposés purs, à eux seuls, représentaient 5%. Score d'accord moyen : 79/100.

L'ensemble complet des résultats (chaque question, la position de chaque modèle, chaque verdict) est reproductible — c'est un instantané, pas une anecdote isolée.

Ce que ça implique si vous utilisez l'IA pour de vraies décisions

Une IA vous donne une réponse confiante et masque le désaccord. C'est très bien pour « écris-moi un e-mail ». C'est dangereux pour « est-ce que je peux prendre ces deux médicaments ensemble » ou « est-ce que je dois toucher à mon épargne retraite ».

La solution n'est pas de trouver la « meilleure » IA — nos données montrent qu'aucun modèle n'était systématiquement le bon, et la « meilleure » change selon le domaine. La solution, c'est de voir le désaccord : interroger plusieurs modèles, faire ressortir où ils divergent, et traiter un score d'accord faible comme un voyant qui clignote et dit ralentis, va voir un expert humain. Cette approche multi-éditeurs, axée sur la contradiction, est exactement ce que fait un moteur de consensus, et c'est pourquoi une seule IA ne suffit pas pour les décisions qui comptent.

Limites assumées

C'est un instantané de 75 questions, avec un modèle par éditeur et un juge basé sur un LLM — pas un essai clinique relu par des pairs. D'autres formulations, d'autres versions de modèles ou un panel de juges humains déplaceraient les pourcentages exacts. Ce dont nous sommes sûrs, c'est de la direction : un désaccord significatif entre modèles est fréquent, il se concentre dans les domaines à fort enjeu, et une seule IA ne vous prévient jamais quand vous y êtes.

Des questions sur la méthodologie ou envie des données brutes ? L'étude a été menée par l'équipe derrière Satcove, qui pose votre question à six IA à la fois et renvoie un verdict unique avec un score d'accord — pour que vous voyiez toujours où les modèles s'accordent, et où ils divergent.

On a posé les mêmes 75 questions à fort enjeu à 6 IA — elles se contredisent 40% du temps

Le constat que personne n'attend : enjeu en hausse, accord en baisse

Cinq cas où les IA ont donné des conseils opposés

Comment on l'a mené (méthode)

Ce que ça implique si vous utilisez l'IA pour de vraies décisions

Limites assumées

Plus d'articles

Découvrir Satcove