Das eigentliche Problem beim KI-Faktencheck
Sie fügen eine Vertragsklausel in ChatGPT ein. Es bestätigt, dass alles korrekt ist. Professioneller Ton. Gut strukturierte Antwort. Sie vertrauen darauf.
Außer dass die Klausel falsch war. Und die KI auch.
Das Problem der KI-Halluzinationen ist bekannt — aber die eigentliche Schwierigkeit ist subtiler: KI-Modelle irren sich nicht, indem sie Unsicherheit signalisieren. Sie irren sich mit genau demselben Ton wie wenn sie recht haben. Es gibt keinen visuellen Unterschied zwischen einer korrekten und einer erfundenen Antwort.
Wir haben 6 KI-Modelle mit 20 echten Faktencheck-Fragen getestet. Die Ergebnisse waren überraschend.
Die Rohdaten: 20 Fragen, 6 Modelle
| Metrik | Ergebnis |
|---|---|
| Durchschnittliche Übereinstimmung zwischen Modellen | 59% |
| Fragen mit starker Unstimmigkeit (< 50%) | 40% |
| Fragen mit starkem Konsens (> 80%) | 20% |
| Niedrigste gemessene Übereinstimmung | 30% (Erbrecht-Frage) |
| Höchste gemessene Übereinstimmung | 95% (eindeutige medizinische Tatsache) |
Bei 4 von 10 Fragen widersprechen sich die 6 Modelle erheblich. Nicht eine Nuance in der Formulierung — substantiell unterschiedliche, manchmal direkt gegensätzliche Positionen.
Welche KI ist die beste für den Faktencheck 2026?
Die kurze Antwort: Kein einzelnes Modell ist "das beste" für den Faktencheck. Jedes Modell hat unterschiedliche Stärken, unterschiedliche Lücken und unterschiedliche blinde Flecken.
Was tatsächlich funktioniert, ist der Übereinstimmungsscore zwischen mehreren Modellen:
| Übereinstimmungsscore | Bedeutung | Empfehlung |
|---|---|---|
| 80–100% | Hohe Zuverlässigkeit | Mit Zuversicht handeln |
| 60–79% | Moderate Zuverlässigkeit | Prüfen, wenn die Entscheidung wichtig ist |
| 40–59% | Erhebliche Unstimmigkeit | Vor dem Handeln weiter recherchieren |
| Unter 40% | Widersprüchliche Antworten | Ohne menschliche Überprüfung nicht handeln |
Kann KI einen menschlichen Faktenprüfer ersetzen?
Nicht vollständig — aber sie kann die Anzahl der Behauptungen, die menschliche Überprüfung erfordern, erheblich reduzieren.
Was KI-Konsens gut bewältigt:
- Eindeutige Fakten (medizinische Fakten, historische Daten, Definitionen)
- Überprüfung, ob eine Quelle existiert
- Identifizierung von Meinungsverschiedenheiten — was zeigt, was überprüft werden muss
- Geschwindigkeit: eine Faktencheck-Sitzung mit 6 Modellen dauert ca. 12 Sekunden
Was noch menschliche Überprüfung erfordert:
- Behauptungen mit einem Übereinstimmungsscore unter 50%
- Länderspezifische Rechtsfragen
- Ereignisse nach dem Trainingsende der Modelle
- Hochriskante Zahlenwerte (Medikamentendosierungen, Rechtsfristen, präzise Finanzdaten)
Welche KI-Modelle sind am genauesten? Ein Vergleich
| KI-Modell | Stärke | Typischer Fehlertyp |
|---|---|---|
| Claude | Erkennt Unsicherheit; gutes Denkvermögen | Schwächer bei aktuellen Ereignissen |
| GPT | Vielseitig und umfassend | Erfindet spezifische Zitate bei Nischenthemen |
| Gemini | Google-Integration; aktuelle Ereignisse | Schwächer bei nicht-englischen Rechtskontexten |
| Mistral | Starke europäische Daten; deutsches Recht | Geringere globale Abdeckung |
| Perplexity | Webzitate für Behauptungen | Zitierte Quelle nicht immer verifiziert |
| Grok | Echtzeitzugang | Variable Genauigkeit bei historischen Fakten |
Wie genau ist KI beim Faktencheck? Eine Kategorien-Übersicht
Hohe Genauigkeit (85%+ Übereinstimmung erwartet):
- Grundlegende medizinische Fakten (Normalwerte, häufige Erkrankungen)
- Gut dokumentierte historische Ereignisse
- Mathematik und formale Logik
- Wissenschaftlicher Konsens zu etablierten Themen
Mittlere Genauigkeit (60–80%):
- Aktuelle Ereignisse (stark modellabhängig)
- Allgemeine Rechtsprinzipien über Jurisdiktionen hinweg
- Produktspezifikationen und Technologieinformationen
Niedrigere Genauigkeit — immer vor dem Handeln prüfen:
- Länderspezifisches Recht (besonders deutsches, österreichisches, schweizerisches Recht)
- Medikamentendosierungen und präzise medizinische Protokolle
- Aktuelle regulatorische Änderungen
- Spezifische numerische Daten und Statistiken
Warum einzelne KI-Modelle strukturell für den Faktencheck ungeeignet sind
1. KI kann ihre eigenen Halluzinationen nicht erkennen. Wenn ein Modell eine falsche Tatsache generiert, hat es kein internes Signal, dass es falsch liegt.
2. Gemeinsame Trainingsdaten erzeugen gemeinsame blinde Flecken. Ein Mythos, der häufig im Internet wiederholt wird, wird in alle Modelle gleichzeitig integriert. Fünf zustimmende Modelle bedeuten nicht, dass es wahr ist.
3. Erfundene Zitate sind von echten nicht zu unterscheiden. KI-Modelle generieren Zitate — Zeitschriftennamen, Erscheinungsdaten, DOI-Nummern — die nicht existieren.
Fakten mit 6 KI-Modellen gleichzeitig prüfen
Fügen Sie eine Behauptung, eine medizinische Frage oder eine Rechtsklausel ein — und sehen Sie, wo 6 KI-Modelle übereinstimmen und wo sie abweichen.
Eine Faktencheck-Sitzung: 12 Sekunden. Übereinstimmungsscore für jedes Ergebnis. Erste Sitzung kostenlos.
Weitere Artikel: