Methodik, die jeder Schritt offenlegt.

Faktum trifft kein Urteil aus eigenem Ermessen. Jede Stufe der Verarbeitung folgt einer dokumentierten Methodik, und jede Entscheidung lässt sich auf konkrete Quellen, gemessene Strukturmerkmale und im Code verankerte Schranken zurückführen.

Vier Prinzipien hinter jedem Verdikt.

Faktum unterscheidet sich nicht durch ein einzelnes Sprachmodell, sondern durch eine Kombination methodischer Entscheidungen. Diese Entscheidungen sind in der Architektur verankert und nicht von der Einschätzung eines Modells abhängig.

Adversarial statt konsensual

Zwei Agenten arbeiten parallel und gegenläufig. Der eine recherchiert ausschließlich stützende Belege, der andere ausschließlich widersprechende. Das Ergebnis ist keine vermittelte Mitte, sondern eine konfrontierte Beweislage, die beide Perspektiven dokumentiert.

Code statt Modellvertrauen

Kritische Schranken im Bewertungsprozess werden nicht durch das Sprachmodell entschieden, sondern durch deterministischen Code. Etwa die Frage, ob acht zitierende Artikel acht Quellen oder eine darstellen, klärt die Architektur, nicht das Modell.

Urteil vor Erklärung

Das Verdikt steht fest, bevor die Begründung formuliert wird. So kann der Erklärschritt das Urteil nicht nachträglich an eine wohlklingende Argumentation anpassen, ein in mehrstufigen LLM-Pipelines häufig auftretender Bias-Mechanismus.

Originator statt Aggregat

Faktum bewertet Belege nach ihrer eigentlichen Herkunft, nicht nach der Anzahl der Artikel, die sie zitieren. Wire-Übernahmen mehrerer Medien (dpa, AP, Reuters, AFP) werden auf den Ursprungs-Originator zurückgeführt und einmal gewertet. Dieselbe Logik gilt für Studien-Co-Autoren und Behörden-Pressemitteilungen.

Mistral als europäisches Sprachmodell.

Eine Plattform, die politische Aussagen verarbeitet, sollte diese nicht über Server außerhalb des europäischen Rechtsraums verarbeiten. Faktum nutzt deshalb Mistral, ein in Paris entwickeltes Sprachmodell, betrieben in europäischer Infrastruktur. Die KI-Inferenz verlässt den europäischen Rechtsraum nicht.

Paris

Sprachmodell

Deutschland

Hosting

Modell

Mistral, Frankreich

Datenstandort

EU, deutscher Anbieter

Diese Entscheidung ist keine Marketing-Geste. Inhalte aus Bundestag, Ministerien und Talkshows sollten nicht ohne Notwendigkeit durch außereuropäische Inferenz-Cluster geroutet werden. Souveränität ist hier eine Architekturentscheidung, die im Aufbau des Systems verankert ist und nicht durch ein Compliance-Siegel ersetzt werden kann.

Quellen statt Modellgedächtnis.

Sprachmodelle neigen dazu, Quellen zu erfinden: nicht publizierte Studien, plausibel klingende Statistiken, die in Wahrheit aus Trainingsdaten aggregiert wurden. Faktum umgeht dieses Problem strukturell. Die Agenten greifen für jede konkrete Behauptung nicht auf das Modellgedächtnis zu, sondern auf Echtzeit-Websuche. Bewertungsgrundlage ist ausschließlich, was im Netz tatsächlich vorhanden ist, mit Priorität auf amtliche Primärquellen.

Identische und semantisch ähnliche Suchanfragen werden gecacht. Wird eine Frage innerhalb eines kurzen Zeitfensters mehrfach gestellt, erreicht nur die erste Anfrage tatsächlich die Suchquellen. Das hat zwei Effekte: Kosten sinken, und identische Aussagen erhalten identische Quellen. Die Bewertung bleibt damit reproduzierbar.

Pro 100 Websuchen

100

Aus dem Cache

Bereits in den letzten 30 Tagen gestellte oder semantisch äquivalente Anfrage. Beantwortung in Millisekunden, ohne erneuten API-Aufruf.

Neu recherchiert

Live-Anfrage an die Suchquellen. Ergebnisse werden im Cache abgelegt, sodass identische Folgeanfragen ohne erneuten Aufruf beantwortet werden.

Illustrative Verteilung; die tatsächliche Cache-Quote variiert je nach Themenfeld.

Anzahl ist keine Vielfalt.

Wenn dreißig deutsche Online-Portale dieselbe Reuters-Meldung übernehmen, entsteht der Eindruck breiter Berichterstattung. Tatsächlich handelt es sich um eine einzige Recherche. Faktum bewertet Belege daher nicht nach Anzahl, sondern nach echter Herkunft. Mehrfach-Übernahmen, Agenturmeldungen und Pressemitteilungen werden auf ihren Ursprungs-Originator zurückgeführt und einmal gezählt.

Acht Artikel, eine Quelle

Zählt als 1 unabhängiger Originator

Acht Online-Medien übernehmen dieselbe Reuters-Meldung. Faktum zählt diesen Sachverhalt einmal, nicht achtfach.

Vier Artikel, vier Quellen

Zählt als 4 unabhängige Originatoren

Vier Quellen mit eigenständiger Recherche, ohne wechselseitige Übernahme. Vier unabhängige Belege.

Diese Zählweise hat eine direkte Konsequenz für das Vertrauen ins Urteil. Liegt am Ende nur ein einziger unabhängiger Ursprung vor, wird die Konfidenz deutlich gedeckelt, unabhängig davon, wie viele Artikel die Aussage zitieren. Kommt der Ursprung aus einem Land mit eingeschränkter Pressefreiheit, fällt sie noch stärker. Die Schranken greifen im Code, nicht im Modell.

Jede Quelle wird zugeordnet.

Eine Quelle, die das Thema einer Behauptung erwähnt, ist noch kein Beleg. Faktum sortiert jede recherchierte Quelle in einen von drei Eimern — stützend, widerlegend, neutral — bevor das Urteil gefällt wird. Das Zusammenführen und Zählen der Quellen erledigt eine mechanische Strukturanalyse; jede „widerlegt"-Klassifikation muss zusätzlich vier explizite Härte-Tests bestehen.

Beweisstruktur einer Teil-Aussage

Behauptung: Maskenpflicht in deutschen Schulen führte zum Tod mehrerer Kinder.

Stützend

Quellen

Keine Quelle bestätigt die Behauptung.

Widerlegend

Quellen

Robert-Koch-Institut

Bundesärztekammer

dpa-Faktencheck

CORRECTIV

AFP-Faktencheck

Volltext-Studie Univ. Witten

Stiftung Kindergesundheit

WHO-Stellungnahme

Neutral

Quellen

Bildungsministerium Sachsen

Lehrerverband NRW

Die Beweisstruktur steht, bevor das endgültige Urteil fällt. Der Richter spricht zunächst ein Roh-Urteil, dann hält die Strukturanalyse die Beleglage dagegen. Hier spricht die Struktur klar gegen die Behauptung: acht widerlegende Quellen, keine einzige Bestätigung. Urteilt der Richter milder, als die Quellen hergeben, meldet die Strukturanalyse einen Widerspruch, den er quellenbezogen begründen muss.

Vor jeder Einordnung als „widerlegend" durchläuft eine Quelle vier Härte-Tests: Sie muss eine konkret unvereinbare Antwort geben, nicht nur Hintergrund liefern. Sie muss zum Quantifier passen, eine Quelle mit Einzelfällen widerlegt keine „alle"-Aussage. Sie muss die richtige Teil-Premise treffen, mehrteilige Behauptungen werden separat geprüft. Und ihr Erscheinungsdatum muss zum behaupteten Zeitpunkt passen, eine 2024-Quelle widerlegt keine Behauptung über 2018. Im Zweifel: neutral. Diese vier Hürden verhindern, dass Hintergrundberichterstattung zu einem falschen Widerlegungs-Signal aufgeblasen wird.

Zahlen im Streuungsband der Quellen.

Politische Behauptungen arbeiten häufig mit Zahlen, die geringfügig oberhalb oder unterhalb dessen liegen, was die zugrunde liegenden Daten hergeben. Diese Verschiebungen sind oft klein genug, um in einer Diskussion unwidersprochen zu bleiben, aber groß genug, um den Eindruck einer Aussage zu verändern. Faktum vergleicht jede behauptete Zahl mit der Streuung der recherchierten Quellenwerte.

Konsens unter Quellen

Streuung gering

Vier Quellen mit eng beieinander liegenden Werten. Die Behauptung positioniert sich innerhalb des Konsensbereichs. Das Verdikt tendiert entsprechend zu „weitgehend zutreffend".

Behauptung außerhalb der Streuung

Outlier erkannt

Vier Quellen clustern eng auf einem Niveau, die Behauptung liegt deutlich darüber. Faktum erkennt die Differenz und legt sie dem Richter als dokumentierten Strukturhinweis vor, der das Verdikt typischerweise in Richtung „überwiegend falsch" verschiebt. Eine harte, nicht überschreibbare Absenkung erfolgt nur in eng definierten Sonderfällen, etwa wenn keine Quelle Position bezieht.

Liegt die Behauptung innerhalb des Streuungsbands der Quellen, gilt sie als statistisch plausibel. Liegt sie deutlich darüber oder darunter, kommen zwei Möglichkeiten in Frage: Entweder existiert eine Quelle, die Faktum nicht erfasst hat (in diesem Fall wird die Lücke offen ausgewiesen), oder die Zahl überzeichnet die Faktenlage. In beiden Fällen bekommt der urteilende Schritt einen expliziten Strukturhinweis, der das Verdikt nach unten drängt.

Wenn die Aussage Lücken hat.

Politische Aussagen sind oft nicht vollständig formuliert. Eine Behauptung wie „Die Kriminalität ist um zwölf Prozent gestiegen" lässt offen, in welchem Zeitraum, gegenüber welcher Vergleichsgröße und auf welchen Deliktstyp sich die Zahl bezieht. Faktum schließt solche Lücken nicht durch Annahmen, sondern durch eine direkte Rückfrage.

Faktum

In welchem Bezugsjahr ist der Anstieg gemeint, gegenüber dem Vorjahr oder gegenüber 2019?

Gegenüber 2019.

Pipeline läuft mit der Antwort weiter.

Stößt ein Agent während der Recherche auf eine Mehrdeutigkeit, die das Urteil verändern könnte, pausiert die Pipeline und stellt eine konkrete Frage. Die Antwort wird in den Verarbeitungskontext eingespeist, anschließend setzt das System dort fort, wo es unterbrochen wurde. Verdikte beziehen sich damit präzise auf das, was tatsächlich gemeint war, nicht auf die plausibelste Interpretation einer Lücke.

Sieben mögliche Verdikte.

Wahrheit und Unwahrheit lassen sich selten binär abbilden. Faktum verwendet deshalb eine fünfstufige Wahrheits-Skala, ergänzt um zwei Sonderkategorien für Aussagen, deren Faktenlage für ein abgestuftes Urteil nicht ausreicht oder die durch Auslassung irreführen. Diese Differenzierung verhindert, dass das System Unsicherheit zugunsten eindeutiger Verdikte glättet.

Wahrheits-Skala

Fünf abgestufte Verdikte zwischen belegt und widerlegt.

Wahr

Überwiegend

wahr

Halb

wahr

Überwiegend

falsch

Falsch

belegt widerlegt

Plus zwei Sonderkategorien

Nicht prüfbar

Die verfügbare Faktenlage reicht nicht für ein abgestuftes Urteil aus.

Fehlender Kontext

Wörtlich korrekt, aber irreführend — durch Auslassung (fehlende Bezugsgröße, Zeitraum, Vergleichsbasis) oder durch Überdehnung, etwa ein „immer“/„nie“, das die Belege nicht tragen.

„Halb wahr" ist keine Konzession, sondern die präzise Einordnung einer Aussage, deren faktischer Kern korrekt, deren Rahmung jedoch verzerrend ist. „Nicht prüfbar" greift, wenn die zugängliche Faktenlage kein abgestuftes Urteil erlaubt, etwa weil keine ausreichend belastbaren Quellen existieren. Diese Differenzierung ist eine notwendige Bedingung dafür, dass das System auch in komplexen Fällen seriös einsetzbar bleibt.

Wir messen unsere eigene Fehlerrate.

Versprechen sind günstig. Faktum verlässt sich nicht auf Versprechen, sondern auf eine kontinuierliche Messung gegen einen kuratierten Vergleichsdatensatz aus den Korpora etablierter deutschsprachiger Faktencheck-Redaktionen. Jede Pipeline-Änderung wird vor der Auslieferung gegen diesen Datensatz gefahren, mehrere Schwellenwerte müssen erreicht sein.

Was wir messen

Der Vergleichsdatensatz ist eingefroren und enthält Behauptungen, die bereits von etablierten Faktencheck-Redaktionen bewertet wurden. Stratifiziert nach Thema und Schwierigkeitsgrad.

Kuratierte Behauptungen
Aus etablierten Faktencheck-Redaktionen
Sieben Verdikt-Stufen
Asymmetrische Bewertungsmatrix

Schwellen, die erreicht werden müssen

Mehrere Schwellenwerte. Wird ein Wert nicht erreicht, geht keine Pipeline-Änderung in Produktion.

Direction-Match ≥ 70%

Anteil der Fälle, in denen Pipeline und Vergleichsdatensatz das Verdict in die gleiche Grobrichtung einsortieren.
Cat-Rate < 5%

Anteil der Fälle, in denen Pipeline und Vergleich in gegensätzliche Pole kippen, z.B. „wahr“ gegen „falsch“.
Hallucination-Free ≥ 90%

Anteil der Pipeline-Aussagen, die durch ihre eigenen Quellen tatsächlich gedeckt sind, unabhängig bewertet.
Konfidenz-Kalibrierung ≤ 20%

Erwartete Kalibrierungs-Abweichung. Wenn die Pipeline 80% Sicherheit angibt, muss sie in 60-100% der Fälle richtig liegen.

„Direction-Match" prüft die Grobrichtung des Verdicts. „Cat-Rate" zählt die katastrophalen Mismatches, bei denen Pipeline und Vergleich in gegensätzliche Pole kippen, bei einem politisch heiklen Faktencheck-Tool die wichtigste Schranke. „Hallucination-Free" prüft jede Aussage der Pipeline gegen ihre eigenen Quellen, eine zweite unabhängige Bewertungsschicht. Die Ergebnisse fließen in einen Audit-Log, der die Pipeline-Entwicklung über jede Iteration dokumentiert.

Benchmark-Methodik im Detail

Warum kein Chatbot diese Aufgabe übernimmt.

	Faktum	KI-Chatbots	Manuell
Amtliche Quellen
Quellennachweis
Unter 5 Minuten
Anti-Halluzinations-Prüfung
Adversariale Prüfung
Konfidenzwert
Bundestags-Drucksachen
Kein Bestätigungsfehler
Polaritäts-Strukturanalyse
Eigene Fehlerrate messbar
Sieben-Stufen-Verdict

Ein Chatbot liefert schnelle, aber unbelegte Antworten. Klassische manuelle Recherche liefert belegte Antworten, jedoch zu langsam für Live-Formate. Faktum verbindet beides: die Geschwindigkeit automatisierter Pipelines mit der Sorgfalt belegbasierter Recherche, abgesichert durch Schranken im Code, die verhindern, dass Geschwindigkeit zulasten der Belastbarkeit geht.

Funktionsumfang

Was Faktum konkret kann.

Testzugang anfragen

Wir richten dir einen unverbindlichen Zugang ein.