Was Faktum misst, und gegen wen.
Faktum behauptet nicht, fehlerfrei zu sein. Faktum behauptet, seine Fehlerrate öffentlich zu messen, gegen einen eingefrorenen Vergleichsdatensatz, dessen Aufbau, Korrekturen und Audits nachvollziehbar dokumentiert sind.
Der Vergleichsdatensatz im Überblick.
Faktum prüft sich gegen einen eingefrorenen Satz von 105 Behauptungen, die zuvor von etablierten Faktencheck-Redaktionen bewertet wurden. Die Auswahl ist stratifiziert nach Thema und Schwierigkeitsgrad, damit kein Bucket übergewichtet ist.
Was wir messen
Der Vergleichsdatensatz ist eingefroren und enthält Behauptungen, die bereits von etablierten Faktencheck-Redaktionen bewertet wurden. Stratifiziert nach Thema und Schwierigkeitsgrad.
- 105 kuratierte Behauptungen
- Aus dpa, CORRECTIV, AFP
- Sieben Verdikt-Stufen
- Asymmetrische Bewertungsmatrix
Schwellen, die erreicht werden müssen
Vier Schwellenwerte. Wird ein Wert nicht erreicht, geht keine Pipeline-Änderung in Produktion.
- Direction-Match ≥ 70%
Anteil der Fälle, in denen Pipeline und Vergleichsdatensatz das Verdict in die gleiche Grobrichtung einsortieren.
- Cat-Rate < 5%
Anteil der Fälle, in denen Pipeline und Vergleich in gegensätzliche Pole kippen, z.B. „wahr“ gegen „falsch“.
- Hallucination-Free ≥ 90%
Anteil der Pipeline-Aussagen, die durch ihre eigenen Quellen tatsächlich gedeckt sind, unabhängig bewertet.
- Konfidenz-Kalibrierung ≤ 20%
Erwartete Kalibrierungs-Abweichung. Wenn die Pipeline 80% Sicherheit angibt, muss sie in 60-100% der Fälle richtig liegen.
Die Verteilung der 105 Behauptungen.
Faktencheck-Korpora sind in der Realität fast ausschließlich falsch-lastig: die populären Ausgangsbehauptungen sind selten wahr. Faktum gewichtet das aus, indem die seltenen Wahr-Buckets vollständig aufgenommen werden und die häufigen Falsch-Buckets auf eine vergleichbare Größe runtergesampelt sind.
Verdikt-Verteilung
105 aktive Behauptungen, Stand Mai 2026
- Wahr 8
- Überwiegend wahr 19
- Teilweise wahr 25
- Überwiegend falsch 13
- Falsch 25
- Nicht prüfbar 11
- Fehlender Kontext 4
Drei Beispiele aus dem Datensatz.
Die Behauptungen sind keine Trivialitäten. Sie verlangen Nuance, weil die Wahrheit dort nicht binär liegt.
Überwiegend wahr
In Holland werden Gewächshäuser von Linde direkt per Pipeline tonnenweise mit CO₂ von einer Bohrinsel beliefert.
Eine niederländische Tochterfirma betreibt tatsächlich eine CO₂-Pipeline zu Gewächshäusern. Die exakte Bohrinsel-Herkunft ist ungenau, das Grundprinzip stimmt.
Fehlender Kontext
Eine Metastudie der Cochrane Library beweist: Masken sind gegen Corona wirkungslos.
Der Review existiert, sagt aber nicht das, was die Behauptung daraus macht. Methodische Einschränkungen wurden zu einer pauschalen Widerlegung umgedeutet.
Teilweise wahr
Bei Tafel in Nidda bekommen Deutsche nur, was Geflüchtete übrig lassen.
Ein Aushang mit dieser Regelung existierte 2017 kurzzeitig, ohne tatsächliche Benachteiligung. Die behauptete Praxis ist die Verzerrung.
Wie Übereinstimmung berechnet wird.
Jede Pipeline-Antwort und jedes Vergleichs-Verdict werden auf eine fünfstufige Richtungsachse projiziert. Dann wird in der Bewertungsmatrix nachgeschaut, wie weit der Treffer vom exakten Match entfernt liegt. Ein Nachbar-Mismatch erhält Teilpunkte, eine Umkehrung wird mit null Punkten bestraft.
Bewertungsmatrix
Zeile: was der Vergleichsdatensatz sagt. Spalte: was die Pipeline sagt. Höher ist näher an der Wahrheit; 1,00 bedeutet exakter Treffer.
| Stützt | Geteilt | Widerlegt | Kontext fehlt | Nicht prüfbar | |
|---|---|---|---|---|---|
| Stützt | 1.00 | 0.55 | 0.00 | 0.45 | 0.40 |
| Geteilt | 0.60 | 1.00 | 0.60 | 0.75 | 0.55 |
| Widerlegt | 0.00 | 0.55 | 1.00 | 0.45 | 0.40 |
| Kontext fehlt | 0.50 | 0.75 | 0.50 | 1.00 | 0.75 |
| Nicht prüfbar | 0.35 | 0.55 | 0.35 | 0.75 | 1.00 |
Die Matrix ist asymmetrisch konzipiert. „Pipeline sagt 'nicht prüfbar' wo der Vergleich 'falsch' sagt“ wird mit 0,40 bewertet, der umgekehrte Fall „Pipeline behauptet 'falsch' wo der Vergleich 'nicht prüfbar' sagt“ nur mit 0,35: lieber zu vorsichtig als fälschlich definitiv.
Die vier Schwellen im Detail.
Pro Schwellenwert eine Definition, ein Zweck, eine Begründung. Wird ein Wert nicht erreicht, geht keine Pipeline-Änderung in Produktion.
Direction-Match
≥ 70%Misst die Grobrichtung des Verdicts. Pipeline und Vergleich werden auf eine fünfstufige Richtungsachse projiziert (stützt, geteilt, widerlegt, Kontext fehlt, nicht prüfbar). Ein Treffer auf der gleichen Achsen-Stufe zählt voll, ein Nachbar-Mismatch teilweise.
Die Faktencheck-Domäne kennt selten binäre Antworten. Direction-Match prüft, ob die Pipeline die richtige Seite der Wahrheit erwischt, ohne sie auf das gleiche Verdict-Label zu zwingen.
Catastrophic-Crossing-Rate
< 5%Anteil der Fälle, in denen Pipeline und Vergleichsdatensatz in gegensätzliche Pole kippen, „wahr“ gegen „falsch“ zum Beispiel. Eine Cat-Crossing ist nicht nur ein Mismatch, sondern eine Umkehrung.
Bei einem politisch heiklen Faktencheck-Tool ist Cat-Rate die wichtigste Schranke. Ein Mismatch zwischen „halb wahr“ und „überwiegend falsch“ ist verzeihlich, eine Umkehrung von „wahr“ zu „falsch“ ist es nicht.
Hallucination-Free
≥ 90%Anteil der Pipeline-Aussagen, die durch ihre eigenen Quellen tatsächlich gedeckt sind. Eine zweite, unabhängige Bewertungsschicht prüft sechs Halluzinations-Kategorien je Antwort: Quellen-Topic-Match, Zitat-Match, Zahlen-Match, Originator-Match, Logik-Schlüssigkeit, Polaritäts-Konsistenz.
Sprachmodelle erfinden plausibel klingende Quellen. Die Halluzinations-Prüfung deckt diesen Fehlerpfad systematisch ab, statt sich auf die Selbsteinschätzung der Pipeline zu verlassen.
Konfidenz-Kalibrierung
≤ 20%Erwartete Kalibrierungs-Abweichung (Expected Calibration Error). Wenn die Pipeline 80% Sicherheit angibt, muss sie in 60-100% der Fälle richtig liegen. Wenn sie 95% sagt, muss die tatsächliche Trefferquote diesem Wert nahekommen.
Eine ungenaue Konfidenz ist gefährlicher als eine konservative. Wer 99% Sicherheit von einem Tool gezeigt bekommt, vertraut anders als bei 60%.
Audit-Log und Replay-Mechanik.
Jeder Bewertungs-Lauf wird in einem Audit-Log persistiert, das die Entwicklung der vier Schwellenwerte über Zeit dokumentiert. Eine eingefrorene Baseline gibt den Anker, gegen den Verbesserungen oder Regressionen sichtbar werden.
Eine Replay-Mechanik erlaubt zusätzlich, die teure Recherche-Phase einzufrieren und nur die Urteils-Stufe neu zu fahren. Damit lassen sich Prompt-Änderungen am Urteils-Modell innerhalb von Minuten gegen den gesamten Datensatz prüfen, statt Stunden auf eine volle Pipeline-Re-Rechecherche zu warten.
Testzugang anfragen
Wir richten dir einen unverbindlichen Zugang ein.