LLM-hallucinaties — hoe ze te detecteren, te beperken en risico te beheersen in productie

Wat zijn hallucinaties en waarom verschijnen ze

Een hallucinatie in een LLM is het genereren van informatie die geloofwaardig klinkt, maar feitelijk niet waar of ongegrond is. Het is geen „fout” in de zin van systeemfalen — het is een gevolg van de manier waarop taalmodellen werken. Een LLM „weet” niet op de manier zoals een database — hij voorspelt de meest waarschijnlijke volgende token, op basis van trainingstatistiek. Wanneer in de prompt een vraag verschijnt waarvoor het model geen goede dekking heeft in trainingsdata, genereert hij het „meest waarschijnlijk klinkende” antwoord. Vaak is dit antwoord correct. Soms — niet.

Typische scenario’s van hallucinaties in zakelijke toepassingen:

Citeren van niet-bestaande rechterlijke uitspraken of wetsartikelen bij juridisch advies
Verzinnen van namen van functies, klassen of bibliotheken bij codegeneratie
Verstrekken van onjuiste statistieken of data in rapporten
Verzinnen van contactgegevens, adressen, telefoonnummers
Vermengen van feiten over verschillende bedrijven of personen met soortgelijke namen

Laag 1 — Grounding (RAG)

De meest effectieve enkele techniek voor hallucinatiereductie is grounding — het model voorzien van concrete documenten of data als context, waaruit het antwoorden moet putten. Klassieke RAG (Retrieval-Augmented Generation):

Gebruikersvraag → zoeken naar meest relevante documentfragmenten (vector search in pgvector / Qdrant / Milvus database)
Fragmenten + vraag → prompt met instructie „antwoord uitsluitend op basis van de onderstaande documenten”
Modelantwoord → verificatie dat het citaten/referenties naar bronnen bevat

RAG reduceert hallucinaties doorgaans met 60-80% in toepassingen van het type „antwoord op vragen over onze knowledge base”. Het elimineert ze niet volledig — het model kan documenten nog steeds op ongeoorloofde wijze „interpreteren”. Vandaar de noodzaak van vervolglagen.

Laag 2 — Self-consistency en ensemble

Self-consistency is een techniek waarbij dezelfde vraag meerdere malen wordt gesteld (of aan meerdere verschillende modellen) en de antwoorden worden vergeleken. Wanneer de antwoorden consistent zijn — hoog vertrouwen. Wanneer ze verschillen — signaal dat het onderwerp onzeker is.

Praktische variant: vraag Claude Sonnet, Llama 70B en Bielik dezelfde vraag. Als alle drie hetzelfde getal, dezelfde datum, hetzelfde feit teruggeven — waarschijnlijk correct. Als ze verschillen — escalatie naar de mens of een duurder model (Opus). Dit patroon, geïmplementeerd in 8-laagse LLM-routing, combineert kostenreductie met verbetering van betrouwbaarheid.

Laag 3 — Evaluation pipelines

Productie-implementatie van LLM zonder evaluation pipeline is als code schrijven zonder tests. Concrete metrics:

Faithfulness — of het antwoord voortvloeit uit de geleverde documenten. Gemeten door een tweede AI-model (LLM-as-judge) of een bibliotheek als RAGAS, deepeval.
Answer relevance — of het antwoord de gebruikersvraag adresseert.
Context precision — of de beste fragmenten door retrieval zijn teruggegeven (kwaliteit van vector search).
Groundedness score — percentage uitspraken in het antwoord waarvoor een bron in de context kan worden aangewezen.

Elke nieuwe build van een LLM-gebaseerde applicatie zou een set van 50-500 evaluatievragen met bekende ground truth moeten doorlopen. Als faithfulness onder de 90% zakt — deployment geblokkeerd.

Laag 4 — Guardrails en outputvalidatie

Guardrails zijn regels die LLM-output valideren voordat deze aan de gebruiker wordt geleverd. Voorbeelden:

Schema validation — de output moet voldoen aan een specifiek schema (JSON Schema, Pydantic). Hallucinaties van het type „verzonnen velden” worden mechanisch gedetecteerd.
Forbidden patterns — detectie en blokkering van onaanvaardbare patronen (PII zonder maskering, financiële data buiten context, potentieel schadelijke inhoud).
Citation enforcement — elke feitelijke bewering moet een broncitaat hebben. Als het model niet citeert — het antwoord wordt afgewezen.
Numeric range validation — getallen in de output gecontroleerd op zinvolheid (bijvoorbeeld prijs > 0, datum ≤ vandaag, percentage in bereik 0-100).
Cross-reference check — vergelijking van de output met een feitenbasis (bijvoorbeeld KRS, woordenboek van wetscitaties).

Bibliotheken: Guardrails AI, NeMo Guardrails, instructor (voor schema enforcement). Eigen implementatie vaak eenvoudiger en goedkoper te onderhouden.

Laag 5 — Human-in-the-loop

Voor toepassingen met hoog risico (juridische, medische, financiële, HR-beslissingen) is de human-in-the-loop laag onmisbaar. AI-modellen nemen niet de eindbeslissing — ze ondersteunen de mens. Concrete patronen:

Draft + review — AI genereert de eerste versie van het document/antwoord, de mens verifieert en accepteert voor verzending.
Confidence threshold — antwoorden met lage confidence (uit self-consistency of explicit confidence asking) automatisch geëscaleerd naar de mens.
Random sampling QA — 5-10% van alle LLM-antwoorden wordt handmatig geaudit, onafhankelijk van confidence — basale kwaliteitsmetric in de tijd.
Feedback loop — de gebruiker kan een onjuist antwoord markeren; het systeem leert en verbetert retrieval, prompts, parameters.

Meten — hoe weet je dat reductie werkt

Concrete productiemetrics die het waard zijn te monitoren:

Hallucinatiepercentage — percentage antwoorden geclassificeerd als hallucinatie in handmatige evaluatie (sampling). Doel: onder 2% voor business-critical applicaties.
User feedback rate — percentage gebruikers die een antwoord als onjuist markeerden.
Escalation rate — percentage verzoeken geëscaleerd naar de mens. Te laag (onder 5%) — het systeem mist waarschijnlijk onzekere gevallen. Te hoog (boven 30%) — het systeem levert geen automatiseringswaarde.
Faithfulness score in regressietests — maandelijkse trend.
Time-to-correction — van detectie van een hallucinatie tot implementatie van de fix (betere retrieval, nieuwe guardrail, fine-tuning).

Conclusies voor beslissers

Hallucinaties zijn beheersbaar — ze vereisen investering in verdedigingsarchitectuur op meerdere lagen. Bedrijven die LLM implementeren zonder deze architectuur zullen vroeg of laat een ernstig incident tegenkomen (publicatie van onjuiste informatie aan de klant, onjuiste beslissing op basis van gehallucineerde data, reputatieschade). De kosten van het bouwen van een complete verdedigingsstack (RAG + evaluation + guardrails + human-in-the-loop) zijn doorgaans 15-30% van de kosten van de LLM-implementatie zelf — en het is een absoluut noodzakelijke investering voor productietoepassingen. De gevolgen van weglaten zijn asymmetrisch: lage weglaatkosten in 95% van de gevallen, catastrofaal in 5%.

LLM-hallucinaties &mdash; hoe ze te detecteren, te beperken en risico te beheersen in productie