LLM-hallucinationer — hur man upptäcker, begränsar och hanterar risk i produktion

Vad är hallucinationer och varför uppstår de

En hallucination i en LLM är genereringen av information som låter trovärdig men är faktiskt osann eller obefogad. Det är inte ett „fel” i bemärkelsen ett systemhaveri — det är en konsekvens av hur språkmodeller fungerar. LLM „vet” inte på samma sätt som en databas — den förutspår den mest sannolika nästa token, baserat på träningens statistik. När en fråga dyker upp i prompten som modellen inte har god täckning för i träningsdata, genererar den ett svar som „låter mest sannolikt”. Ofta är detta svar korrekt. Ibland — inte.

Typiska hallucinationsscenarier i affärstillämpningar:

Citering av obefintliga domstolsavgöranden eller lagparagrafer vid juridisk rådgivning
Hittande på funktions-, klass- eller biblioteksnamn vid kodgenerering
Angivande av felaktig statistik eller datum i rapporter
Hittande på kontakter, adresser, telefonnummer
Blandning av fakta som rör olika företag eller personer med liknande namn

Lager 1 — Grounding (RAG)

Den mest effektiva enskilda tekniken för att minska hallucinationer är grounding — att förse modellen med konkreta dokument eller data som kontext, från vilka den ska hämta svar. Klassisk RAG (Retrieval-Augmented Generation):

Användarens fråga → sökning av de mest relevanta dokumentfragmenten (vector search i pgvector / Qdrant / Milvus)
Fragment + fråga → prompt med instruktionen „svara enbart baserat på dokumenten nedan”
Modellens svar → verifiering att det innehåller citat/referenser till källor

RAG minskar typiskt hallucinationer med 60-80% i applikationer av typen „svara på frågor om vår kunskapsbas”. Det eliminerar dem inte helt — modellen kan fortfarande „tolka” dokumenten på ett obefogat sätt. Därav behovet av ytterligare lager.

Lager 2 — Self-consistency och ensemble

Self-consistency är en teknik som består i att ställa samma fråga flera gånger (eller till flera olika modeller) och jämföra svaren. När svaren är konsekventa — högt förtroende. När de skiljer sig — signal att ämnet är osäkert.

Praktisk variant: fråga Claude Sonnet, Llama 70B och Bielik samma fråga. Om alla tre returnerar samma siffra, datum, faktum — sannolikt korrekt. Om de skiljer sig — eskalering till människa eller till en dyrare modell (Opus). Detta mönster, implementerat i 8-nivåers LLM-routing, kombinerar kostnadsminskning med förbättrad tillförlitlighet.

Lager 3 — Evaluation pipelines

Produktionsimplementering av LLM utan evaluation pipeline är som att skriva kod utan tester. Konkreta mätetal:

Faithfulness — om svaret följer av de tillhandahållna dokumenten. Mätt av en annan AI-modell (LLM-as-judge) eller bibliotek typ RAGAS, deepeval.
Answer relevance — om svaret adresserar användarens fråga.
Context precision — om de bästa fragmenten returnerades av retrieval (vector search-kvalitet).
Groundedness score — andelen påståenden i svaret för vilka en källa kan anges i kontexten.

Varje ny build av en LLM-baserad applikation bör genomgå en uppsättning av 50-500 evalueringsfrågor med känd ground truth. Om faithfulness faller under 90% — deployment blocked.

Lager 4 — Guardrails och outputvalidering

Guardrails är regler som validerar LLM:ens output innan den levereras till användaren. Exempel:

Schema validation — outputen måste uppfylla ett konkret schema (JSON Schema, Pydantic). Hallucinationer av typen „påhittade fält” upptäcks mekaniskt.
Forbidden patterns — upptäckt och blockering av otillåtna mönster (PII utan maskering, finansiella data utanför kontext, potentiellt skadligt innehåll).
Citation enforcement — varje faktiskt påstående måste ha källcitat. Om modellen inte citerar — svaret avvisas.
Numeric range validation — siffror i outputen kontrolleras avseende rimlighet (t.ex. pris > 0, datum ≤ idag, procent i intervallet 0-100).
Cross-reference check — jämförelse av outputen med en faktabas (t.ex. KRS, ordbok över lagcitat).

Bibliotek: Guardrails AI, NeMo Guardrails, instructor (för schema enforcement). Egen implementation är ofta enklare och billigare att underhålla.

Lager 5 — Human-in-the-loop

För högrisktillämpningar (juridiska, medicinska, finansiella, personalbeslut) är lagret human-in-the-loop oumbärligt. AI-modeller fattar inte det slutgiltiga beslutet — de stödjer människan. Konkreta mönster:

Draft + review — AI genererar den första versionen av dokumentet/svaret, människan verifierar och accepterar före utskick.
Confidence threshold — svar med lågt förtroende (från self-consistency eller explicit confidence asking) eskaleras automatiskt till människa.
Random sampling QA — 5-10% av alla LLM-svar revideras manuellt, oberoende av förtroende — basmätetal för kvalitet över tid.
Feedback loop — användaren kan markera ett felaktigt svar; systemet lär sig och förbättrar retrieval, prompts, parametrar.

Mätning — hur man vet att minskningen fungerar

Konkreta produktionsmätetal som är värda att övervaka:

Hallucination rate — andelen svar klassificerade som hallucination i manuell evaluering (sampling). Mål: under 2% för business-critical applikationer.
User feedback rate — andelen användare som markerat ett svar som felaktigt.
Escalation rate — andelen förfrågningar eskalerade till människa. För låg (under 5%) — systemet ignorerar förmodligen osäkra fall. För hög (över 30%) — systemet levererar inte automatiseringsvärde.
Faithfulness score i regressionstester — månatlig trend.
Time-to-correction — från upptäckt av hallucination till implementering av korrigering (bättre retrieval, ny guardrail, fine-tuning).

Slutsatser för beslutsfattare

Hallucinationer är hanterbara — de kräver investering i flerlagrig försvarsarkitektur. Företag som implementerar LLM utan denna arkitektur kommer förr eller senare att stöta på en allvarlig incident (publicering av felaktig information till kund, felaktigt beslut baserat på hallucinerade data, ryktesskada). Kostnaden för att bygga en komplett försvarsstack (RAG + evaluation + guardrails + human-in-the-loop) är typiskt 15-30% av kostnaden för själva LLM-implementeringen — och är en investering som är absolut nödvändig för produktionsanvändning. Konsekvenserna av att utelämna är asymmetriska: låg kostnad för försummelsen i 95% av fallen, katastrofala i 5%.

LLM-hallucinationer &mdash; hur man upptäcker, begränsar och hanterar risk i produktion