LLM halucinācijas — kā tās atklāt, samazināt un pārvaldīt risku raznošanā

Kas ir halucinācijas un kāpēc tās parādās

Halucinācija LLM ir informācijas ģenerēšana, kas skan ticāmi, bet faktiški nav patiesa vai nepamatota. Tas nav „kļūda” sistēmas avarija nozīmē — tas ir valodas modeļu darbības veida sekas. LLM „nezina” tādā veidā kā datu bāze — tas prognozē visvairāk iespējamo nākamo tokenu, balstoties uz mācīšanās statistiku. Kad promptā parādās jautājums, kuram modelī nav laba pārklājuma treninģa datos, tas ģenerē „visvairāk iespējamo skanošu” atbildi. Bieži šī atbilde ir pareiza. Reizēm — nē.

Tipiski halucināciju scenāriji biznesa pielietojumos:

Neeksistējošu tiesas spūriedumu vai likumu paragrafu citēšana juridiskajā konsultācijā
Funkciju, klasu vai bibliotēku vārdu izgudrošana kodu ģenerējot
Nepareizu statistiku vai datumu snieganšana atskaitēs
Kontaktu, adrešu, telefonu numuru izgudrošana
Faktu samaišīšana par dažādiem uzņēmumiem vai cilvēkiem ar līdzīgiem vārdiem

1. slānis — Grounding (RAG)

Visefektīvākā viena halucināciju samazināšanas tehnika ir grounding — konkrētu dokumentu vai datu snieganšana modelim kā konteksts, no kā tam jāieģūst atbildes. Klasisks RAG (Retrieval-Augmented Generation):

Lietotāja jautājums → vissvērstakāku dokumentu fragmentu meklēšana (vector search pgvector / Qdrant / Milvus datu bāzē)
Fragmenti + jautājums → prompts ar instrukciju „atbildēt tikai uz pamata zemāk esoošu dokumentu”
Modeļa atbilde → pārbaude, ka tajs ir citātu/atsauces uz avotiem

RAG samazina halucinācijas parasti par 60-80% pielietojumos tipa „atbildēt uz jautājumiem par mūsu zināšanu bāzi”. Tās pilnigi nenovērš — modelis var joprojām „interpretēt” dokumentus neatļauti. Tādēļ vajadzīgi nākošie slāņi.

2. slānis — Self-consistency un ansamblis

Self-consistency ir tehnika, kas sastāv no tā paša jautājuma uzdošanas vairākas reizes (vai vairākiem dažādiem modeliem) un atbildes salīdzināšanas. Kad atbildes ir saskaņīgas — augsta uzticība. Kad tās atšķiras — signāls, ka tēma ir nedrosa.

Praktisks variants: jautā Claude Sonnet, Llama 70B un Bielik to pašu jautājumu. Ja visi trīs atgriež to pašu skaitli, datumu, faktu — visiespējamāk pareizs. Ja atšķiras — eskalācija cilvēkam vai dārgākam modelim (Opus). Šis modelis, īsteno 8 līmeņu LLM routingā, savieno izmaksu samazināšanu ar ticāmības uzlabošanu.

3. slānis — Evaluation pipelines

Raznošanas LLM ieviešana bez evaluation pipeline ir kā kodu rakstīšana bez testiem. Konkrētas metrikas:

Faithfulness — vai atbilde izriet no piegādātajiem dokumentiem. Mērīts ar otru MI modeli (LLM-as-judge) vai bibliotēku tipa RAGAS, deepeval.
Answer relevance — vai atbilde adresē lietotāja jautājumu.
Context precision — vai labākie fragmenti tika atgrieztas no retrieval (vector search kvalitāte).
Groundedness score — apgalvojumu procents atbildei, kuriem var norādīt avotu kontekstā.

Katram jaunam LLM bāzētas aplikācijas build vajadzētu iziet kopu 50-500 novērtējuma jautājumu ar zināmu ground truth. Ja faithfulness nokrīt zemāk par 90% — deployment blokēts.

4. slānis — Guardrails un izvades validācija

Guardrails ir noteikumi, kas validē LLM izvadi pirms tās piegādes lietotājam. Piemēri:

Schema validation — izvadei jāatbilst konkrētai shēmai (JSON Schema, Pydantic). Halucinācijas tipa „izgudroti lauki” tiek atklātas mehaniski.
Forbidden patterns — nepieņemamu modelu atklāšana un bloķēšana (PII bez maskošanas, finanšu dati ārpus konteksta, potenciāli kaitīgs saturs).
Citation enforcement — katram fakta apgalvojumam jābūt avotu citātam. Ja modelis nemin avotus — atbilde tiek noraidita.
Numeric range validation — izvades skaitļi tiek pārbaudīti jēgas ziņā (piemēram, cena > 0, datums ≤ šodien, procents diapazonā 0-100).
Cross-reference check — izvades salīdzinājums ar faktu bāzi (piemēram, KRS, likumu citātu vārdnīca).

Bibliotēkas: Guardrails AI, NeMo Guardrails, instructor (schema enforcement). Pašu īstenošana bieži ir vienkāršāka un lētāka uzturēt.

5. slānis — Human-in-the-loop

Augsta riska aplikācijām (juridiski, medicīniski, finansiali, personāla lēmumi) human-in-the-loop slānis ir nepieciešams. MI modeli nepiņem galīgo lēmumu — atbalsta cilvēku. Konkrēti modeli:

Draft + review — MI ģenerē pirmo dokumenta/atbildes versiju, cilvēks pārbauda un akceptē pirms nosūtīšanas.
Confidence threshold — atbildes ar zemu confidence (no self-consistency vai explicit confidence asking) automatiski eskalētas cilvēkam.
Random sampling QA — 5-10% no visiem LLM atbildēm tiek manuali auditēti, neatkarīgi no confidence — pamata kvalitātes metrika laika gaitā.
Feedback loop — lietotājs var atzīmēt kļūdainu atbildi; sistēma mācās un uzlabo retrieval, prompts, parametrus.

Mērījums — kā uzzināt, ka samazinājums darbojas

Konkrētas raznošanas metrikas, kuras vērts monitorēt:

Halucinācijas rate — atbildes, klasificētas kā halucinācija manualajā novērtējumā (sampling), procents. Mērķis: zemāk par 2% business-critical aplikācijām.
User feedback rate — lietotāju, kas atzīmēja atbildi kā kļūdainu, procents.
Escalation rate — pieprasijumu, eskalētu cilvēkam, procents. Pārāk zems (zemāk par 5%) — sistēma visiespējamāk izlaiž nedrošus gadījumus. Pārāk augsts (augstāk par 30%) — sistēma nesniedz automatizācijas vērtību.
Faithfulness score regresijas testos — ikmēneša tendence.
Time-to-correction — no halucinācijas atklāšanas līdz labībās ieviešanai (labāks retrieval, jauns guardrail, fine-tuning).

Secinājumi lēmējiem

Halucinācijas ir vādāmas — prasība ieguldījumu aizsardzības arhitektūrā vairākos slāņos. Uzņēmumi, kas ievēro LLM bez šīs arhitektūras, agrāk vai vēlāk saskasies ar nopietnu incidentu (kļūdainas informācijas publikācija klientam, kļūdains lēmums uz halucinētu datu pamata, reputācijas bojājumi). Pilnas aizsardzības steka būvēšanas izmaksas (RAG + evaluation + guardrails + human-in-the-loop) parasti ir 15-30% no paša LLM ieviešanas izmaksām — un tas ir absolūti nepieciešams ieguldījums raznošanas pielietojumiem. Izlaišanas sekas ir asimetriskas: zemās izlaišanas izmaksas 95% gadījumu, katastrofiskas 5%.

LLM halucinācijas &mdash; kā tās atklāt, samazināt un pārvaldīt risku raznošanā