LLM-Halluzinationen — wie man sie erkennt, einschränkt und Risiken in der Produktion verwaltet

Was sind Halluzinationen und warum treten sie auf

Eine Halluzination in einem LLM ist die Generierung einer Information, die glaubwürdig klingt, aber faktisch unwahr oder unbegründet ist. Es ist kein „Fehler” im Sinne eines Systemausfalls — es ist eine Konsequenz der Arbeitsweise von Sprachmodellen. Ein LLM „weiß” nicht so, wie es eine Datenbank tut — es sagt den wahrscheinlichsten nächsten Token voraus, basierend auf Trainingsstatistik. Wenn im Prompt eine Frage auftaucht, für die das Modell keine gute Abdeckung in den Trainingsdaten hat, generiert es die „am wahrscheinlichsten klingende” Antwort. Oft ist diese Antwort korrekt. Manchmal — nicht.

Typische Szenarien von Halluzinationen in Geschäftsanwendungen:

Zitieren nicht existierender Gerichtsurteile oder Gesetzesparagrafen bei juristischer Beratung
Erfinden von Namen von Funktionen, Klassen oder Bibliotheken bei der Codegenerierung
Angabe falscher Statistiken oder Daten in Berichten
Erfinden von Kontakten, Adressen, Telefonnummern
Vermischen von Fakten verschiedener Unternehmen oder Personen mit ähnlichen Namen

Schicht 1 — Grounding (RAG)

Die wirksamste einzelne Technik zur Reduzierung von Halluzinationen ist Grounding — dem Modell konkrete Dokumente oder Daten als Kontext bereitzustellen, aus dem es Antworten ziehen soll. Klassisches RAG (Retrieval-Augmented Generation):

Frage des Benutzers → Suche nach den relevantesten Dokumentfragmenten (Vector Search in pgvector / Qdrant / Milvus)
Fragmente + Frage → Prompt mit der Anweisung „antworte ausschließlich basierend auf folgenden Dokumenten”
Antwort des Modells → Verifikation, dass sie Zitate/Referenzen zu Quellen enthält

RAG reduziert Halluzinationen typischerweise um 60-80 % in Anwendungen vom Typ „beantworte Fragen zu unserer Wissensbasis”. Es eliminiert sie nicht vollständig — das Modell kann Dokumente weiterhin auf nicht gerechtfertigte Weise „interpretieren”. Daher sind weitere Schichten erforderlich.

Schicht 2 — Self-Consistency und Ensemble

Self-Consistency ist eine Technik, die darin besteht, dieselbe Frage mehrmals zu stellen (oder mehreren verschiedenen Modellen) und die Antworten zu vergleichen. Wenn die Antworten konsistent sind — hohes Vertrauen. Wenn sie sich unterscheiden — Signal, dass das Thema unsicher ist.

Praktische Variante: Fragen Sie Claude Sonnet, Llama 70B und Bielik dasselbe. Wenn alle drei dieselbe Zahl, dasselbe Datum, denselben Fakt zurückgeben — wahrscheinlich korrekt. Wenn sie sich unterscheiden — Eskalation an den Menschen oder ein teureres Modell (Opus). Dieses Muster, implementiert in einem 8-stufigen LLM-Routing, verbindet Kostenreduktion mit verbesserter Zuverlässigkeit.

Schicht 3 — Evaluation Pipelines

Ein produktives LLM-Deployment ohne Evaluation Pipeline ist wie Code schreiben ohne Tests. Konkrete Metriken:

Faithfulness — ob die Antwort aus den bereitgestellten Dokumenten folgt. Gemessen durch ein zweites KI-Modell (LLM-as-judge) oder eine Bibliothek wie RAGAS, deepeval.
Answer Relevance — ob die Antwort die Frage des Benutzers adressiert.
Context Precision — ob die besten Fragmente vom Retrieval zurückgegeben wurden (Qualität der Vector Search).
Groundedness Score — Anteil der Aussagen in der Antwort, für die eine Quelle im Kontext angegeben werden kann.

Jeder neue Build einer LLM-basierten Anwendung sollte ein Set von 50-500 Evaluationsfragen mit bekanntem Ground Truth durchlaufen. Wenn Faithfulness unter 90 % fällt — Deployment blocked.

Schicht 4 — Guardrails und Output-Validierung

Guardrails sind Regeln, die den LLM-Output vor der Auslieferung an den Benutzer validieren. Beispiele:

Schema Validation — der Output muss ein konkretes Schema erfüllen (JSON Schema, Pydantic). Halluzinationen vom Typ „erfundene Felder” werden mechanisch erkannt.
Forbidden Patterns — Erkennung und Blockierung unzulässiger Muster (PII ohne Maskierung, Finanzdaten außerhalb des Kontexts, potenziell schädliche Inhalte).
Citation Enforcement — jede faktische Aussage muss eine Quellenangabe haben. Wenn das Modell nicht zitiert — wird die Antwort abgelehnt.
Numeric Range Validation — Zahlen im Output werden auf Sinn überprüft (z. B. Preis > 0, Datum ≤ heute, Prozent im Bereich 0-100).
Cross-Reference Check — Vergleich des Outputs mit einer Faktenbasis (z. B. KRS, Wörterbuch der Gesetzeszitate).

Bibliotheken: Guardrails AI, NeMo Guardrails, instructor (für Schema Enforcement). Eigene Implementierung ist oft einfacher und günstiger in der Wartung.

Schicht 5 — Human-in-the-Loop

Für Hochrisiko-Anwendungen (juristische, medizinische, finanzielle, HR-Entscheidungen) ist die Human-in-the-Loop-Schicht unverzichtbar. KI-Modelle treffen nicht die endgültige Entscheidung — sie unterstützen den Menschen. Konkrete Muster:

Draft + Review — KI generiert eine erste Version des Dokuments/der Antwort, der Mensch verifiziert und akzeptiert vor dem Versand.
Confidence Threshold — Antworten mit niedrigem Confidence (aus Self-Consistency oder Explicit Confidence Asking) werden automatisch an den Menschen eskaliert.
Random Sampling QA — 5-10 % aller LLM-Antworten werden manuell auditiert, unabhängig vom Confidence — Basismetrik für Qualität im Zeitverlauf.
Feedback Loop — der Benutzer kann eine fehlerhafte Antwort markieren; das System lernt und verbessert Retrieval, Prompts, Parameter.

Messung — woher man weiß, dass die Reduktion funktioniert

Konkrete Produktionsmetriken, die es wert sind, überwacht zu werden:

Hallucination Rate — Anteil der Antworten, die in manueller Evaluation (Sampling) als Halluzination klassifiziert werden. Ziel: unter 2 % für Business-Critical-Anwendungen.
User Feedback Rate — Anteil der Benutzer, die eine Antwort als fehlerhaft markiert haben.
Escalation Rate — Anteil der an den Menschen eskalierten Anfragen. Zu niedrig (unter 5 %) — das System überspringt wahrscheinlich unsichere Fälle. Zu hoch (über 30 %) — das System liefert keinen Automatisierungswert.
Faithfulness Score in Regressionstests — monatlicher Trend.
Time-to-Correction — von der Erkennung der Halluzination bis zur Implementierung der Korrektur (besseres Retrieval, neuer Guardrail, Fine-Tuning).

Schlussfolgerungen für Entscheidungsträger

Halluzinationen sind handhabbar — sie erfordern Investitionen in eine Verteidigungsarchitektur auf vielen Schichten. Unternehmen, die LLMs ohne diese Architektur implementieren, werden früher oder später auf einen ernsten Vorfall stoßen (Veröffentlichung falscher Informationen an einen Kunden, falsche Entscheidung basierend auf halluzinierten Daten, Reputationsschaden). Die Kosten für den Aufbau eines vollständigen Verteidigungsstacks (RAG + Evaluation + Guardrails + Human-in-the-Loop) betragen typischerweise 15-30 % der Kosten der eigentlichen LLM-Implementierung — und sind eine absolut notwendige Investition für Produktionsanwendungen. Die Folgen des Auslassens sind asymmetrisch: niedrige Kosten des Unterlassens in 95 % der Fälle, katastrophal in 5 %.