Kurz gefasst: Wir stellten den sechs führenden KI-Modellen dieselben 75 echten Fragen mit hohem Einsatz. Bei 40% davon gaben die Modelle inhaltlich unterschiedliche Empfehlungen — und bei mehreren schlicht gegensätzliche Ratschläge. Der durchschnittliche Übereinstimmungswert über alle 75 Fragen lag bei nur 79/100. Am auffälligsten: Je höher der Einsatz, desto größer die Uneinigkeit.

Wenn Sie einer einzigen KI eine Frage stellen, auf die es wirklich ankommt — eine Gesundheitsentscheidung, ein rechtliches Risiko, ein Geldzug — können Sie unmöglich wissen, ob Sie in den 60% landeten, in denen die Modelle übereinstimmen, oder in den 40%, in denen sie es nicht tun. Ein einzelnes Modell sagt Ihnen nie „die anderen fünf würden mir widersprechen". Genau dieser blinde Fleck ist der Grund, warum es diese Studie gibt.

Der unerwartete Befund: Einsatz hoch, Übereinstimmung runter

Man könnte annehmen, dass Modelle, die auf überlappenden Daten trainiert wurden, meist konvergieren. Das tun sie — bei Fragen mit niedrigem Einsatz. Doch die Uneinigkeitsrate steigt genau dort, wo es am meisten wehtut:

Bereich	Fragen, bei denen die Modelle uneinig waren
Lebensentscheidungen	59%
Gesundheit	50%
Recht	46%
Finanzen	23%
Prognosen	20%
Konsumentscheidungen	17%

Lesen Sie das noch einmal. Bei Gesundheits- und Rechtsfragen — denen, bei denen ein Fehler am teuersten ist — waren sich die Modelle etwa in der Hälfte der Fälle uneinig. Ausgerechnet die Bereiche, in denen man sich am meisten eine zweite Meinung wünscht, sind die, in denen eine einzige KI am unzuverlässigsten ist.

Fünf Fälle, in denen die KIs gegensätzliche Ratschläge gaben

Das sind keine Randfälle. Es sind ganz gewöhnliche Fragen, die Millionen Menschen stellen:

„Ist es sicher, Ibuprofen und Paracetamol gleichzeitig einzunehmen?" Gemini sagte nein — zeitlich versetzt einnehmen. Claude, GPT-4o, Mistral und Perplexity sagten alle ja, die gemeinsame Einnahme ist in der Regel sicher. Ein Modell von sechs hätte geändert, wie Sie sich medikamentieren.
„Soll ich an mein Altersvorsorgekonto gehen, um 15.000 € Kreditkartenschulden bei 20% effektivem Jahreszins zu tilgen?" Gemini empfahl, es zu tun. Claude, GPT-4o und Perplexity rieten davon ab und behandelten die vorzeitige Entnahme als letztes Mittel. Gegensätzlicher Geldrat, mit gleicher Überzeugung vorgetragen.
„Darf man Alkohol trinken, während man Metronidazol nimmt?" Alle sechs waren sich einig, dass man Alkohol meiden muss — doch bei der Wartezeit nach der Behandlung gingen sie auseinander: 48 Stunden (Claude, GPT-4o, Mistral), 72 Stunden (Gemini), „2–3 Tage" (Perplexity). Ein inhaltlich anderer Sicherheitshinweis, je nachdem, welche KI man zufällig geöffnet hat.
„Ein Kollege hat sich meine Arbeit angeeignet — ihn zur Rede stellen oder zur Personalabteilung?" Gemini sagte direkt zur Personalabteilung. Alle anderen Modelle sagten zuerst mit dem Kollegen sprechen.
„Ist es sicher, Ibuprofen zu nehmen, wenn ich Lisinopril gegen Bluthochdruck einnehme?" GPT-4o stufte gelegentlichen Gebrauch als „in der Regel unbedenklich" ein; Claude, Gemini und Perplexity stuften ihn als generell nicht empfohlen ein — eine andere Grundhaltung bei einer realen Wechselwirkung.

Wenn Modelle so auseinandergehen, ist die Antwort einer einzigen KI keine Antwort — sie ist ein Münzwurf, den Sie nicht sehen.

Wie wir es durchgeführt haben (Methode)

Transparenz ist der Kern, daher genau das, was wir getan haben:

75 Fragen aus sechs Bereichen: Gesundheit, Recht, Finanzen, Lebensentscheidungen, Prognosen und Konsumentscheidungen — alle als echte Entscheidungen formuliert, nach denen jemand handeln würde.
Sechs Modelle, eines pro großem Anbieter: Claude (Anthropic), GPT-4o (OpenAI), Gemini (Google), Mistral, Perplexity und Grok (xAI). Jedes erhielt dieselbe Eingabe, ohne System-Steuerung über „antworte direkt und gib ein klares Fazit" hinaus.
Ein anbieterfremder Richter. Ein separates Modell las alle sechs Antworten pro Frage und stufte sie ein als Einig (gleiche Kernempfehlung), Teilweise (gleiche Richtung, inhaltlich andere Vorbehalte, nach denen ein Nutzer handeln würde) oder Gegensätzlich (entgegengesetzte, handlungsleitende Empfehlungen), plus einen Übereinstimmungswert von 0 bis 100. Der Richter stammt nie vom selben Anbieter wie die Antworten, die er bewertet — kein Modell korrigiert seine eigene Hausaufgabe.
„Uneinigkeit" in der Überschrift = Gegensätzlich + Teilweise (40%). Reine Gegensätze allein machten 5% aus. Durchschnittlicher Übereinstimmungswert: 79/100.

Der vollständige Ergebnissatz (jede Frage, die Position jedes Modells, jedes Urteil) ist reproduzierbar — es ist eine Momentaufnahme, keine einmalige Anekdote.

Was das bedeutet, wenn Sie KI für echte Entscheidungen nutzen

Ein Modell gibt Ihnen eine selbstbewusste Antwort und verbirgt die Uneinigkeit. Das ist in Ordnung für „schreib mir eine E-Mail". Es ist gefährlich für „soll ich diese zwei Medikamente zusammen nehmen" oder „soll ich an mein Altersvorsorgekonto gehen".

Die Lösung besteht nicht darin, die „beste" KI zu finden — unsere Daten zeigen, dass kein Modell durchgängig richtig lag, und die „beste" wechselt je nach Bereich. Die Lösung ist, die Uneinigkeit zu sehen: mehrere Modelle befragen, sichtbar machen, wo sie auseinandergehen, und einen niedrigen Übereinstimmungswert als Warnleuchte behandeln, die sagt langsamer, hol dir einen menschlichen Experten. Genau dieser anbieterübergreifende, auf Widerspruch ausgerichtete Ansatz ist das, was eine Konsens-Engine leistet, und warum eine KI für wichtige Entscheidungen nicht genügt.

Ehrliche Grenzen

Dies ist eine Momentaufnahme von 75 Fragen, mit einem Modell pro Anbieter und einem LLM-basierten Richter — keine von Fachleuten begutachtete klinische Studie. Andere Formulierungen, Modellversionen oder ein Gremium menschlicher Richter würden die genauen Prozentzahlen verschieben. Worüber wir sicher sind, ist die Richtung: bedeutsame Uneinigkeit zwischen Modellen ist häufig, sie ballt sich in Bereichen mit hohem Einsatz, und eine einzige KI warnt Sie nie, wenn Sie mittendrin sind.

Fragen zur Methodik oder Interesse an den Rohdaten? Die Studie wurde vom Team hinter Satcove durchgeführt, das Ihre Frage gleichzeitig an sechs KI-Modelle stellt und ein einziges synthetisiertes Urteil mit einem Übereinstimmungswert zurückgibt — damit Sie immer sehen, wo die Modelle übereinstimmen und wo nicht.

Wir stellten 6 KIs dieselben 75 Fragen mit hohem Einsatz — sie waren sich zu 40% uneinig

Der unerwartete Befund: Einsatz hoch, Übereinstimmung runter

Fünf Fälle, in denen die KIs gegensätzliche Ratschläge gaben

Wie wir es durchgeführt haben (Methode)

Was das bedeutet, wenn Sie KI für echte Entscheidungen nutzen

Ehrliche Grenzen

Mehr Artikel

Satcove entdecken