LLM-hallutsinatsioonid — kuidas neid tuvastada, piirata ja produktsioonis riski juhtida

Mis on hallutsinatsioonid ja miks need ilmuvad

Hallutsinatsioon LLM-is on info genereerimine, mis kõlab usaldusväärselt, kuid on faktiliselt vale või põhjendamatu. See pole „viga” süsteemi rikkumise mõttes — see on keelemudelite toimimise viisi tagajärg. LLM ei „tea” nii nagu andmebaas — see ennustab kõige tõenäolisema järgmise tokeni, treeningu statistika põhjal. Kui prompt’is ilmub küsimus, millele mudelil pole hea katte treeningandmetes, genereerib ta „kõige tõenäolisemalt kõlava” vastuse. Sageli on see vastus õige. Vahel — mitte.

Tüüpilised hallutsinatsioonide stsenaariumid ärirakendustes:

Olematute kohtuotsuste või seaduseparagrahvide tsiteerimine juriidilises nõustamises
Funktsioonide, klasside või teekide nimede väljamõtlemine koodi genereerimisel
Valede statistikate või kuupäevade esitamine aruannetes
Kontaktide, aadresside, telefoninumbrite väljamõtlemine
Faktide segamine erinevate sarnaste nimedega ettevõtete või inimeste kohta

1. kiht — Grounding (RAG)

Kõige tõhusam üksik hallutsinatsioonide vähendamise tehnika on grounding — mudelile konkreetsete dokumentide või andmete pakkumine kontekstina, millest ta peab vastuseid ammutama. Klassikaline RAG (Retrieval-Augmented Generation):

Kasutaja küsimus → kõige asjakohasemate dokumendifragmentide otsing (vector search pgvector / Qdrant / Milvus baasis)
Fragmendid + küsimus → prompt juhisega „vasta ainult järgmiste dokumentide põhjal”
Mudeli vastus → kontrollimine, et see sisaldab tsitaate/viiteid allikatele

RAG vähendab hallutsinatsioone tüüpiliselt 60-80% rakendustes tüüpi „vasta küsimustele meie teadmusbaasi kohta”. See ei kõrvalda neid täielikult — mudel võib siiski dokumente „tõlgendada” volituseta. Seetõttu on vaja täiendavaid kihte.

2. kiht — Self-consistency ja ensemble

Self-consistency on tehnika, mis seisneb sama küsimuse mitmekordses esitamises (või mitmele erinevale mudelile) ja vastuste võrdlemises. Kui vastused on järjepidevad — kõrge usaldus. Kui need erinevad — signaal, et teema on ebakindel.

Praktiline variant: küsi Claude Sonnet’ilt, Llama 70B-lt ja Bielik’ilt sama küsimust. Kui kõik kolm tagastavad sama numbri, kuupäeva, fakti — tõenäoliselt õige. Kui need erinevad — eskalatsioon inimesele või kallimale mudelile (Opus). See muster, mis on rakendatud 8-tasemelises LLM routing’is, kombineerib kulu vähendamise usaldusväärsuse parandamisega.

3. kiht — Evaluation pipeline’id

LLM produktsioonijuurutus ilma evaluation pipeline’ita on nagu koodi kirjutamine ilma testideta. Konkreetsed meetrikad:

Faithfulness — kas vastus tuleneb antud dokumentidest. Mõõdetakse teise AI-mudeli (LLM-as-judge) või RAGAS, deepeval tüüpi teegi poolt.
Answer relevance — kas vastus käsitleb kasutaja küsimust.
Context precision — kas parimad fragmendid tagastati retrieval’i poolt (vector search’i kvaliteet).
Groundedness score — vastuses olevate väidete osakaal, mille jaoks saab kontekstis allikat näidata.

Iga uus LLM-põhise rakenduse build peaks läbima 50-500 hindamise küsimuse komplekti teadaoleva ground truth’iga. Kui faithfulness langeb alla 90% — deployment blocked.

4. kiht — Guardrails ja väljundi valideerimine

Guardrails on reeglid, mis valideerivad LLM väljundit enne selle kasutajale edastamist. Näited:

Schema validation — väljund peab vastama konkreetsele skeemile (JSON Schema, Pydantic). Hallutsinatsioonid tüüpi „väljamõeldud väljad” tuvastatakse mehaaniliselt.
Forbidden patterns — lubamatute mustrite tuvastamine ja blokeerimine (PII ilma maskeerimiseta, finantsandmed kontekstist väljas, potentsiaalselt kahjulik sisu).
Citation enforcement — iga faktiline väide peab sisaldama allikaviidet. Kui mudel ei tsiteeri — vastus lükatakse tagasi.
Numeric range validation — väljundis olevad numbrid kontrollitakse mõtte osas (nt hind > 0, kuupäev ≤ täna, protsent vahemikus 0-100).
Cross-reference check — väljundi võrdlemine faktide baasiga (nt KRS, seaduste tsitaadi sõnastik).

Teegid: Guardrails AI, NeMo Guardrails, instructor (schema enforcement’iks). Oma implementatsioon on sageli lihtsam ja odavam hooldada.

5. kiht — Human-in-the-loop

Kõrge riskiga rakenduste jaoks (juriidilised, meditsiinilised, finantsilised, HR-otsused) on human-in-the-loop kiht hädavajalik. AI-mudelid ei tee lõplikku otsust — nad toetavad inimest. Konkreetsed mustrid:

Draft + review — AI genereerib dokumendi/vastuse esimese versiooni, inimene kontrollib ja kinnitab enne saatmist.
Confidence threshold — madala confidence’iga vastused (self-consistency’st või explicit confidence asking’ust) eskaleeritakse automaatselt inimesele.
Random sampling QA — 5-10% kõikidest LLM vastustest auditeeritakse käsitsi, sõltumata confidence’ist — kvaliteedi baasmeetrika ajas.
Feedback loop — kasutaja võib märgistada vale vastuse; süsteem õpib ja täiustab retrieval’i, prompte, parameetreid.

Mõõtmine — kuidas teada, et vähendamine töötab

Konkreetsed produktsioonimeetrikad, mida tasub jälgida:

Hallucination rate — vastuste osakaal, mis on klassifitseeritud hallutsinatsiooniks käsitsi hindamises (sampling). Eesmärk: alla 2% business-critical rakenduste jaoks.
User feedback rate — kasutajate osakaal, kes märgistasid vastuse valeks.
Escalation rate — inimesele eskaleeritud päringute osakaal. Liiga madal (alla 5%) — süsteem tõenäoliselt jätab ebakindlad juhtumid välja. Liiga kõrge (üle 30%) — süsteem ei anna automatiseerimise väärtust.
Faithfulness score regressioonitestides — kuukaupa trend.
Time-to-correction — hallutsinatsiooni tuvastamisest paranduse rakendamiseni (parem retrieval, uus guardrail, fine-tuning).

Järeldused otsustajatele

Hallutsinatsioonid on juhitavad — nad nõuavad investeeringut kaitsearhitektuuri mitmel kihil. Ettevõtted, kes juurutavad LLM-i ilma selle arhitektuurita, varem või hiljem satuvad tõsisesse intsidenti (vale info avaldamine kliendile, vale otsus hallutsinatsioonipõhiste andmete põhjal, mainekahju). Täieliku kaitsestaki ehitamise kulu (RAG + evaluation + guardrails + human-in-the-loop) on tüüpiliselt 15-30% LLM-i enda juurutuskulust — ja see on absoluutselt vajalik investeering produktsioonirakenduste jaoks. Loobumise tagajärjed on asümmeetrilised: madal kulu loobumisest 95% juhtudest, katastroofiline 5%.