LLM halucinacije — kako ih detektirati, smanjiti i upravljati rizikom u produkciji

Što su halucinacije i zašto se pojavljuju

Halucinacija u LLM-u je generiranje informacije koja zvuči uvjerljivo, ali je faktografski netočna ili neopravdana. To nije „greška” u smislu kvara sustava — to je posljedica načina rada jezičnih modela. LLM ne „zna” na isti način kao baza podataka — predviđa najvjerojatniji sljedeći token, na temelju statistike treniranja. Kada se u promptu pojavi pitanje za koje model nema dobru pokrivenost u podacima za treniranje, generira „najvjerojatnije zvučeći” odgovor. Često je taj odgovor točan. Ponekad — nije.

Tipični scenariji halucinacija u poslovnim primjenama:

Citiranje nepostojećih sudskih presuda ili paragrafa zakona u pravnom savjetovanju
Izmišljanje naziva funkcija, klasa ili biblioteka prilikom generiranja koda
Navođenje netočnih statistika ili datuma u izvješćima
Izmišljanje kontakata, adresa, brojeva telefona
Miješanje činjenica koje se tiču različitih tvrtki ili osoba sa sličnim imenima

Sloj 1 — Grounding (RAG)

Najučinkovitija pojedinačna tehnika smanjenja halucinacija je grounding — pružanje modelu konkretnih dokumenata ili podataka kao konteksta iz kojeg treba crpiti odgovore. Klasičan RAG (Retrieval-Augmented Generation):

Pitanje korisnika → pretraga najrelevantnijih dijelova dokumenata (vector search u bazi pgvector / Qdrant / Milvus)
Dijelovi + pitanje → prompt s uputom „odgovori isključivo na temelju donjih dokumenata”
Odgovor modela → provjera da sadrži citate/reference izvora

RAG tipično smanjuje halucinacije za 60-80% u primjenama tipa „odgovaraj na pitanja o našoj bazi znanja”. Ne eliminira ih potpuno — model i dalje može „protumačiti” dokumente na neopravdan način. Otuda potreba za dodatnim slojevima.

Sloj 2 — Self-consistency i ensemble

Self-consistency je tehnika koja se sastoji u postavljanju istog pitanja nekoliko puta (ili nekoliko različitih modela) i usporedbi odgovora. Kada su odgovori dosljedni — visoko povjerenje. Kada se razlikuju — signal da je tema neizvjesna.

Praktična varijanta: pitajte Claude Sonnet, Llamu 70B i Bielika isto pitanje. Ako sva tri vraćaju isti broj, datum, činjenicu — vjerojatno točno. Ako se razlikuju — eskalacija na čovjeka ili skuplji model (Opus). Ovaj obrazac, implementiran u 8-razinskom LLM routingu, kombinira smanjenje troška s poboljšanjem pouzdanosti.

Sloj 3 — Evaluation pipelines

Produkcijska implementacija LLM-a bez evaluation pipelinea je kao pisanje koda bez testova. Konkretne metrike:

Faithfulness — proizlazi li odgovor iz dostavljenih dokumenata. Mjereno drugim AI modelom (LLM-as-judge) ili bibliotekom tipa RAGAS, deepeval.
Answer relevance — adresira li odgovor pitanje korisnika.
Context precision — jesu li najbolji dijelovi vraćeni retrievalom (kvaliteta vector searcha).
Groundedness score — postotak tvrdnji u odgovoru za koje se može pokazati izvor u kontekstu.

Svaki novi build aplikacije temeljene na LLM-u trebao bi proći skup od 50-500 evaluacijskih pitanja s poznatim ground truthom. Ako faithfulness padne ispod 90% — deployment blokiran.

Sloj 4 — Guardrails i validacija outputa

Guardrails su pravila koja validiraju output LLM-a prije dostave korisniku. Primjeri:

Validacija sheme — output mora ispunjavati konkretnu shemu (JSON Schema, Pydantic). Halucinacije tipa „izmišljena polja” otkrivaju se mehanički.
Forbidden patterns — detekcija i blokiranje nedopuštenih obrazaca (PII bez maskiranja, financijski podaci izvan konteksta, potencijalno štetni sadržaji).
Citation enforcement — svaka činjenična tvrdnja mora imati citat izvora. Ako model ne citira — odgovor se odbacuje.
Validacija numeričkih raspona — brojevi u outputu provjeravaju se s aspekta smisla (npr. cijena > 0, datum ≤ danas, postotak u rasponu 0-100).
Cross-reference check — usporedba outputa s bazom činjenica (npr. KRS, rječnik citata zakona).

Biblioteke: Guardrails AI, NeMo Guardrails, instructor (za schema enforcement). Vlastita implementacija često jednostavnija i jeftinija za održavanje.

Sloj 5 — Human-in-the-loop

Za aplikacije visokog rizika (pravne, medicinske, financijske, kadrovske odluke) sloj human-in-the-loop je neophodan. AI modeli ne donose finalnu odluku — podržavaju čovjeka. Konkretni obrasci:

Draft + review — AI generira prvu verziju dokumenta/odgovora, čovjek provjerava i prihvaća prije slanja.
Confidence threshold — odgovori s niskim confidenceom (iz self-consistency ili explicit confidence asking) automatski se eskaliraju na čovjeka.
Random sampling QA — 5-10% svih LLM odgovora ručno se audita, neovisno o confidenceu — bazna metrika kvalitete u vremenu.
Feedback loop — korisnik može označiti pogrešan odgovor; sustav uči i poboljšava retrieval, promptove, parametre.

Mjerenje — kako znati da redukcija djeluje

Konkretne produkcijske metrike vrijedne praćenja:

Hallucination rate — postotak odgovora klasificiranih kao halucinacije u ručnoj evaluaciji (sampling). Cilj: ispod 2% za business-critical aplikacije.
User feedback rate — postotak korisnika koji su označili odgovor kao pogrešan.
Escalation rate — postotak upita eskaliranih na čovjeka. Prenizak (ispod 5%) — sustav vjerojatno propušta neizvjesne slučajeve. Previsok (iznad 30%) — sustav ne pruža vrijednost automatizacije.
Faithfulness score u regresijskim testovima — mjesečni trend.
Time-to-correction — od detekcije halucinacije do implementacije popravka (bolji retrieval, novi guardrail, fine-tuning).

Zaključci za donositelje odluka

Halucinacije su upravljive — zahtijevaju ulaganje u obrambenu arhitekturu u više slojeva. Tvrtke koje implementiraju LLM bez ove arhitekture prije ili kasnije naići će na ozbiljan incident (objava pogrešne informacije klijentu, pogrešna odluka temeljena na haluciniranim podacima, reputacijska šteta). Trošak izgradnje punog obrambenog stacka (RAG + evaluation + guardrails + human-in-the-loop) tipično iznosi 15-30% troška same LLM implementacije — i to je apsolutno nužno ulaganje za produkcijske primjene. Posljedice izostavljanja su asimetrične: nizak trošak nečinjenja u 95% slučajeva, katastrofalan u 5%.

LLM halucinacije &mdash; kako ih detektirati, smanjiti i upravljati rizikom u produkciji