LLM-hallucinationer — hvordan man opdager, begrænser og håndterer risikoen i produktion

Hvad er hallucinationer, og hvorfor opstår de

En hallucination i LLM er generering af information, der lyder troværdigt, men faktisk er usand eller uberettiget. Det er ikke en „fejl” i betydningen systemnedbrud — det er en konsekvens af hvordan sprogmodeller fungerer. En LLM „ved” ikke på samme måde som en database — den forudsiger det mest sandsynlige næste token baseret på træningsstatistik. Når der i prompten optræder et spørgsmål, som modellen ikke har god dækning for i træningsdata, genererer den det „mest sandsynligt lydende” svar. Ofte er dette svar korrekt. Nogle gange — ikke.

Typiske scenarier for hallucinationer i forretningsanvendelser:

Citering af ikke-eksisterende domstolsafgørelser eller paragrafer i love ved juridisk rådgivning
Opfindelse af navne på funktioner, klasser eller biblioteker ved kodegenerering
Angivelse af forkerte statistikker eller datoer i rapporter
Opfindelse af kontakter, adresser, telefonnumre
Blanding af fakta vedrørende forskellige firmaer eller personer med lignende navne

Lag 1 — Grounding (RAG)

Den mest effektive enkeltteknik til reduktion af hallucinationer er grounding — at give modellen konkrete dokumenter eller data som kontekst, hvorfra den skal hente svar. Klassisk RAG (Retrieval-Augmented Generation):

Brugerens spørgsmål → søgning efter de mest relevante dokumentfragmenter (vector search i pgvector / Qdrant / Milvus)
Fragmenter + spørgsmål → prompt med instruktion „svar udelukkende baseret på følgende dokumenter”
Modellens svar → verifikation af at det indeholder citater/referencer til kilder

RAG reducerer hallucinationer typisk med 60-80 % i anvendelser af typen „svar på spørgsmål om vores videnbase”. Det eliminerer dem ikke fuldstændigt — modellen kan stadig „fortolke” dokumenter på uberettiget vis. Derfor er yderligere lag nødvendige.

Lag 2 — Self-consistency og ensemble

Self-consistency er en teknik, der består i at stille det samme spørgsmål flere gange (eller til flere forskellige modeller) og sammenligne svarene. Når svarene er konsistente — høj tillid. Når de adskiller sig — signal om at emnet er usikkert.

Praktisk variant: spørg Claude Sonnet, Llama 70B og Bielik om det samme spørgsmål. Hvis alle tre returnerer samme tal, dato, faktum — sandsynligvis korrekt. Hvis de adskiller sig — eskalation til menneske eller dyrere model (Opus). Dette mønster, implementeret i 8-niveau LLM routing, kombinerer omkostningsreduktion med forbedret pålidelighed.

Lag 3 — Evaluation pipelines

Produktionsdeployment af LLM uden evaluation pipeline er som at skrive kode uden tests. Konkrete metrikker:

Faithfulness — om svaret følger af de leverede dokumenter. Målt af en anden AI-model (LLM-as-judge) eller et bibliotek som RAGAS, deepeval.
Answer relevance — om svaret adresserer brugerens spørgsmål.
Context precision — om de bedste fragmenter er returneret af retrieval (kvalitet af vector search).
Groundedness score — procentdel af påstande i svaret, hvor kilde i konteksten kan angives.

Hvert nyt build af en LLM-baseret applikation bør gennemgå et sæt på 50-500 evalueringsspørgsmål med kendt ground truth. Hvis faithfulness falder under 90 % — deployment blocked.

Lag 4 — Guardrails og output-validering

Guardrails er regler, der validerer LLM-output før levering til brugeren. Eksempler:

Schema validation — output skal opfylde et konkret skema (JSON Schema, Pydantic). Hallucinationer af typen „opdigtede felter” opdages mekanisk.
Forbidden patterns — opdagelse og blokering af utilladte mønstre (PII uden maskering, finansielle data uden for kontekst, potentielt skadeligt indhold).
Citation enforcement — hver faktuel påstand skal have en kildehenvisning. Hvis modellen ikke citerer — afvises svaret.
Numeric range validation — tal i outputtet kontrolleres for mening (f.eks. pris > 0, dato ≤ i dag, procent i intervallet 0-100).
Cross-reference check — sammenligning af output med en faktabase (f.eks. KRS, ordbog over lovcitater).

Biblioteker: Guardrails AI, NeMo Guardrails, instructor (til schema enforcement). Egen implementering er ofte enklere og billigere at vedligeholde.

Lag 5 — Human-in-the-loop

For højrisiko-applikationer (juridiske, medicinske, finansielle, HR-beslutninger) er human-in-the-loop-laget uundværligt. AI-modeller træffer ikke den endelige beslutning — de støtter mennesket. Konkrete mønstre:

Draft + review — AI genererer en første version af dokumentet/svaret, mennesket verificerer og accepterer før afsendelse.
Confidence threshold — svar med lav confidence (fra self-consistency eller explicit confidence asking) eskaleres automatisk til mennesket.
Random sampling QA — 5-10 % af alle LLM-svar auditeres manuelt, uafhængigt af confidence — basismetrik for kvalitet over tid.
Feedback loop — brugeren kan markere et fejlagtigt svar; systemet lærer og forbedrer retrieval, prompts, parametre.

Måling — hvordan man ved at reduktionen virker

Konkrete produktionsmetrikker, der er værd at overvåge:

Hallucination rate — procentdel af svar klassificeret som hallucination i manuel evaluering (sampling). Mål: under 2 % for business-critical applikationer.
User feedback rate — procentdel af brugere, der har markeret et svar som fejlagtigt.
Escalation rate — procentdel af forespørgsler eskaleret til mennesket. For lav (under 5 %) — systemet udelader sandsynligvis usikre tilfælde. For høj (over 30 %) — systemet leverer ikke automatiseringsværdi.
Faithfulness score i regressionstests — månedlig tendens.
Time-to-correction — fra opdagelse af hallucination til implementering af rettelse (bedre retrieval, ny guardrail, fine-tuning).

Konklusioner for beslutningstagere

Hallucinationer er håndterbare — de kræver investering i forsvarsarkitektur på mange lag. Virksomheder, der implementerer LLM uden denne arkitektur, vil før eller siden støde på en alvorlig hændelse (publikation af forkert information til en kunde, fejlagtig beslutning baseret på hallucinerede data, omdømmeskade). Omkostningen ved at bygge en fuld forsvarsstack (RAG + evaluation + guardrails + human-in-the-loop) er typisk 15-30 % af omkostningen ved selve LLM-implementeringen — og er en absolut nødvendig investering for produktionsanvendelser. Konsekvenserne af at udelade er asymmetriske: lav omkostning ved inaktivitet i 95 % af tilfældene, katastrofal i 5 %.