Encyclopedia
Reference · Satcove Encyclopedia

Was ist ein KI-Übereinstimmungs-Score?

Ein KI-Übereinstimmungs-Score ist die quantitative Lesart davon, wie sehr ein Multi-Modell-Panel auf einer gegebenen Antwort konvergierte – eine einzelne Zahl, die das kalibrierte Vertrauen einfängt, das die Panel-Struktur verdient hat.

Updated May 24, 20266 min read

Antwort in 60 Sekunden

Ein KI-Übereinstimmungs-Score ist die quantitative Zusammenfassung davon, wie sehr ein Multi-Modell-Panel auf derselben Antwort konvergierte. Es ist eine einzelne Zahl – typischerweise als Prozentsatz oder auf einer beschrifteten Skala ausgedrückt –, die das kollektive Verhalten des Panels in ein kalibriertes Konfidenzsignal verdichtet. Hoher Score: Die Modelle stimmten überein; der Nutzer hat starken Grund, den konvergenten Behauptungen zu vertrauen. Niedriger Score: Die Modelle spalteten sich; der Nutzer hat explizite Information, dass das Thema umstritten oder unzureichend belegt ist.

Der Score ist keine „Wahrscheinlichkeit, dass die Antwort wahr ist". Er ist eine Lesart davon, wie stark das Multi-Modell-Signal war. Ein hoher Score korreliert mit einer höheren Wahrscheinlichkeit der Korrektheit, aber die Beziehung wird gegen die Struktur des Panels kalibriert, nicht zu absoluter Wahrheit erhoben. Der Wert des Scores liegt genau darin, über diese Unterscheidung ehrlich zu sein.

Was der Score misst

Ein bedeutungsvoller Übereinstimmungs-Score kombiniert drei Messungen.

Abdeckung. Welcher Anteil des Panels die konvergente Behauptung produzierte. Fünf von sechs zustimmenden Modellen ist anders als drei von sechs. Abdeckung ist die einfachste Dimension und die am leichtesten zu kommunizierende.

Intensität. Wie eng die zustimmenden Modelle einander entsprachen. Zwei Modelle, die Wort für Wort auf einem spezifischen Fakt übereinstimmen, liefern stärkere Evidenz als zwei Modelle, die lose einer allgemeinen Richtung zustimmen. Intensität fängt die semantische Enge der Übereinstimmung ein.

Diversitätsbereinigte Gewichtung. Ob die Übereinstimmung von echt unabhängigen Modellen (hohe Gewichtung) oder von Modellen innerhalb derselben Familie (niedrigere Gewichtung, weil ihre Übereinstimmung per Konstruktion korreliert ist) kommt. Zwei Claude-Varianten, die übereinstimmen, sind nicht äquivalent zu einem Claude und einem Gemini, die übereinstimmen.

Ein ernsthafter Score kombiniert diese drei Dimensionen zu einer Zahl. Ein naiver Score verwendet nur die Abdeckung und behandelt jedes Modell gleich, was den Score immer dann aufbläht, wenn das Panel intern redundant ist. Der Unterschied zeigt sich in der Kalibrierung: Gut kalibrierte Scores sagen tatsächliche Korrektheitsraten voraus; naive Scores runden überkonfident auf.

Was der Score nicht ist

Der Übereinstimmungs-Score ist keine Wahrscheinlichkeit, dass die Antwort wahr ist. Er ist eine Lesart der Multi-Modell-Signalstärke. Die Unterscheidung zählt, weil ein hoher Score über ein Panel hinweg, das einen blinden Fleck der Trainingsdaten teilt, selbstsicher falsch sein kann – die Konvergenz ist hoch, die Wahrheit ist niedrig. Der Score tut, worüber er ehrlich ist: Er misst Übereinstimmung, nicht Wahrheit.

Der Score ist auch kein aggregierter Qualitäts-Score für die Modelle. Ein Panel, das ein schwächeres Modell neben mehreren starken enthält, kann immer noch einen hohen Übereinstimmungs-Score bei Fragen produzieren, wo das schwächere Modell die gleiche leichte Behauptung richtig bekommt. Der Score liest die Situation, nicht die Teilnehmer.

Schließlich ist der Score kein Ersatz dafür, die tatsächliche Ausgabe zu lesen. Ein Score von 92 % mit einem Modell, das bei einer Schlüsselbehauptung abweicht, ist ein sorgfältiges Lesen dessen wert, was dieses eine Modell gesagt hat. Der Score verweist auf die richtige Stelle; der Nutzer übernimmt das Lesen.

Wie der Score kalibriert wird

Ein gut kalibrierter Übereinstimmungs-Score wird gegen einen Holdout von Fragen mit bekannt richtigen Antworten gebaut und getestet. Das System misst: Bei Score X %, welcher Anteil der konvergenten Behauptungen des Panels war im Nachhinein tatsächlich korrekt? Das produziert eine Kalibrierungskurve, die Scores an reale Korrektheitsraten bindet.

Kalibrierung zählt, weil unkalibrierte Scores zu Übervertrauen einladen. Ein 90-%-Score, der tatsächlich 75 %iger Korrektheit entspricht, wird mehr vertraut, als er verdient; ein 90-%-Score, der 92 %iger Korrektheit entspricht, kann zum Nennwert vertraut werden. Ehrliche Systeme kalibrieren explizit und kalibrieren neu, während das Panel sich entwickelt.

Kalibrierung ist auch domänensensitiv. Der Score, der „hochzuverlässig" bei faktischen Behauptungen über weit dokumentierte Themen bedeutet, kann bei Fragen in engen Spezialgebieten weniger bedeuten. Ernsthafte Systeme kalibrieren pro Domäne, wo die Daten es stützen, und kommunizieren die Grenze sonst ehrlich.

Wie ein Nutzer den Score lesen sollte

Ein Nutzer, der auf einen Übereinstimmungs-Score trifft, sollte ihn als einen Input unter mehreren behandeln.

Bei sehr hohen Scores (typischerweise 90 % +) können die konvergenten Behauptungen auf dem Niveau vertraut werden, das der zugrundeliegenden Frage angemessen ist. Lesen Sie die divergenten Behauptungen (es wird einige selbst bei hohen Scores geben) – sie enthalten oft die entscheidungsnützlichsten Details.

Bei mittleren Scores (60–85 %) produzierte das Panel nützliches Signal, aber das Thema ist teilweise umstritten. Die konvergenten Behauptungen sind wahrscheinlich zuverlässig; die divergenten Behauptungen verdienen direkte Aufmerksamkeit. Das ist der Bereich, in dem der Nutzer am meisten liest.

Bei niedrigen Scores (unter 60 %) konvergierte das Panel nicht in bedeutungsvoller Weise. Die Ausgabe ist eher eine Karte der Uneinigkeit als eine Antwort. Der Nutzer sollte sie als Rohmaterial behandeln – nützlich, um die Frage zu verstehen, nicht, um sie ohne weitere Untersuchung zu klären.

Die genauen Schwellen hängen von der Kalibrierung des Systems ab. Das allgemeine Prinzip ist, dass der Score eine Anleitung dazu ist, wie die Ausgabe zu lesen ist, kein Verdikt, das das Lesen umgeht.

Praktische Beispiele

Ein Nutzer fragt nach einem gut dokumentierten historischen Fakt. Das Panel produziert einen Score von 96 %. Die konvergenten Behauptungen umfassen Daten, Namen und grundlegenden Kontext. Der Nutzer liest die Antwort mit Vertrauen – und bemerkt, dass ein Modell ein spezifisches Detail hinzugefügt hat, das die anderen ausgelassen haben (eine spezifische Quelle). Der hohe Score machte das Lesen effizient.

Ein Nutzer fragt nach einer jüngsten Regulierung. Das Panel produziert einen Score von 71 %. Die konvergenten Behauptungen decken den allgemeinen Rahmen der Regulierung ab; die divergenten Behauptungen decken ihre spezifische Anwendung auf häufige Fälle ab. Der Nutzer liest sorgfältig und bringt die offenen Fragen zu einem Profi. Der Score sagte ihm, worauf er sich konzentrieren sollte.

Ein Nutzer fragt nach einem Thema, das das Panel schlecht kennt. Das Panel produziert einen Score von 48 %. Die divergenten Behauptungen breiten sich über mehrere Rahmungen aus. Der Nutzer behandelt die Ausgabe als Einführung in die umstrittene Landschaft des Themas, nicht als Antwort, nach der zu handeln ist. Der niedrige Score hat seine Arbeit getan – er hielt den Nutzer davon ab, sich übermäßig auf schwache kollektive Evidenz zu verlassen.

Häufige Missverständnisse

„Ein hoher Score bedeutet, dass die Antwort wahr ist." Er bedeutet, dass das Panel konvergierte. Konvergenz erhöht das Vertrauen in die Korrektheit; sie garantiert sie nicht.

„Ein niedriger Score bedeutet, dass das System schlecht ist." Er bedeutet meist, dass die zugrundeliegende Frage umstritten ist, das Thema eng ist oder das Panel ungleiche Abdeckung hat. Der niedrige Score ist ehrliche Berichterstattung.

„Alle Scores sind über Fragen hinweg vergleichbar." Nicht unbedingt. Ein Score zu einer faktischen Frage kann mit anderen Scores zu faktischen Fragen verglichen werden. Domänenübergreifender Vergleich erfordert Kalibrierung pro Domäne.

„Der Nutzer sollte immer die Hoch-Score-Antworten wählen." Der Nutzer sollte immer die divergenten Behauptungen lesen, selbst wenn der Score hoch ist – sie enthalten oft die marginale Information, die die Konvergenz übersehen hat.

Verwandte Konzepte

KI-Konsens ist die breitere Praxis, von der der Score abgelesen wird. Multi-Modell-Verifizierung ist die Ingenieurarbeit, die den Score produziert. KI-Uneinigkeit ist die qualitative Form des unteren Endes des Scores. KI-Vertrauen ist die breitere Rahmung, zu der der Score beiträgt. KI-Wahrheitsfindung ist die epistemische Frage, bei der der Score zu antworten hilft.

Häufig gestellte Fragen

Ist der Score die Wahrscheinlichkeit, dass die Antwort korrekt ist? Nein. Er ist die Stärke des Multi-Modell-Übereinstimmungssignals. Kalibrierung bindet ihn an Korrektheitsraten, aber er ist keine direkte Wahrheitswahrscheinlichkeit.

Kann der Score falsch sein? Der Score ist eine Messung; er kann isoliert nicht „falsch" sein. Er kann fehlkalibriert sein – ein System, das 90 % Konfidenz bei Ausgaben meldet, die zu 75 % der Zeit korrekt sind, ist fehlkalibriert und sollte korrigiert werden.

Sollte ich auf einen 95-%-Score genauso reagieren wie auf einen 70-%-Score? Nein. Ein 95-%-Score rechtfertigt, die Abweichler schnell zu lesen und nach der Konvergenz zu handeln. Ein 70-%-Score rechtfertigt, sowohl Konvergenz als auch Abweichler sorgfältig zu lesen, bevor man handelt.

Ersetzt der Score das Lesen der Ausgabe? Nein. Er ist eine Anleitung, wie sie zu lesen ist, kein Ersatz dafür, sie zu lesen.

Satcove implements AI consensus by querying six independent models in parallel, comparing their answers, and surfacing where they agree, diverge, and what they collectively could not settle.