Halucinácie LLM — ako ich detekovať, obmedzovať a riadiť riziko v produkcii

Čo sú halucinácie a prečo sa objavujú

Halucinácia v LLM je vygenerovanie informácie, ktorá znie hodnoverne, ale je fakticky nepravdivá alebo nepodložená. Nie je to „chyba” v zmysle poruchy systému — je to dôsledok spôsobu fungovania jazykových modelov. LLM „nevie” tak ako databáza — predpovedá najpravdepodobnejší ďalší token na základe štatistiky tréningu. Keď sa v prompte objaví otázka, na ktorú model nemá dobré pokrytie v tréningových dátach, generuje „najpravdepodobnejšie znejúcu” odpoveď. Často je táto odpoveď správna. Niekedy — nie.

Typické scenáre halucinácií v biznisových aplikáciách:

Citovanie neexistujúcich súdnych rozhodnutí alebo paragrafov zákonov v právnom poradenstve
Vymýšľanie názvov funkcií, tried alebo knižníc pri generovaní kódu
Uvádzanie nesprávnych štatistík alebo dátumov v reportoch
Vymýšľanie kontaktov, adries, telefónnych čísel
Miešanie faktov týkajúcich sa rôznych firiem alebo osôb s podobnými menami

Vrstva 1 — Grounding (RAG)

Najúčinnejšou jednotlivou technikou redukcie halucinácií je grounding — dodanie modelu konkrétnych dokumentov alebo dát ako kontextu, z ktorého má čerpať odpovede. Klasické RAG (Retrieval-Augmented Generation):

Otázka používateľa → vyhľadanie najrelevantnejších fragmentov dokumentov (vector search v pgvector / Qdrant / Milvus)
Fragmenty + otázka → prompt s pokynom „odpovedz výlučne na základe nižšie uvedených dokumentov”
Odpoveď modelu → overenie, že obsahuje citácie/odkazy na zdroje

RAG redukuje halucinácie typicky o 60-80% v aplikáciách typu „odpovedaj na otázky o našej znalostnej báze”. Neeliminuje ich úplne — model môže stále „interpretovať” dokumenty neoprávneným spôsobom. Odtiaľ potreba ďalších vrstiev.

Vrstva 2 — Self-consistency a ensemble

Self-consistency je technika spočívajúca v položení tej istej otázky niekoľkokrát (alebo niekoľkým rôznym modelom) a porovnaní odpovedí. Keď sú odpovede konzistentné — vysoká dôvera. Keď sa líšia — signál, že téma je neistá.

Praktická varianta: opýtaj sa Claude Sonnet, Llama 70B a Bielika na rovnakú otázku. Ak všetky tri vrátia rovnaké číslo, dátum, fakt — pravdepodobne správne. Ak sa líšia — eskalácia k človeku alebo k drahšiemu modelu (Opus). Tento vzor, implementovaný v 8-úrovňovom LLM routingu, kombinuje zníženie nákladov so zlepšením spoľahlivosti.

Vrstva 3 — Evaluation pipelines

Produkčné nasadenie LLM bez evaluation pipeline je ako písanie kódu bez testov. Konkrétne metriky:

Faithfulness — či odpoveď vyplýva z dodaných dokumentov. Merané druhým AI modelom (LLM-as-judge) alebo knižnicou typu RAGAS, deepeval.
Answer relevance — či odpoveď adresuje otázku používateľa.
Context precision — či najlepšie fragmenty boli vrátené retrievalom (kvalita vector search).
Groundedness score — podiel tvrdení v odpovedi, pre ktoré možno uviesť zdroj v kontexte.

Každý nový build aplikácie založenej na LLM by mal prejsť sadou 50-500 evaluačných otázok so známym ground truth. Ak faithfulness klesne pod 90% — deployment blocked.

Vrstva 4 — Guardrails a validácia outputu

Guardrails sú pravidlá validujúce output LLM pred dodaním používateľovi. Príklady:

Schema validation — output musí spĺňať konkrétnu schému (JSON Schema, Pydantic). Halucinácie typu „vymyslené polia” sú detekované mechanicky.
Forbidden patterns — detekcia a blokovanie neprípustných vzorov (PII bez maskovania, finančné dáta mimo kontextu, potenciálne škodlivý obsah).
Citation enforcement — každé faktické tvrdenie musí mať citáciu zdroja. Ak model necituje — odpoveď je odmietnutá.
Numeric range validation — čísla v outpute sú kontrolované z hľadiska zmyslu (napr. cena > 0, dátum ≤ dnes, percento v rozsahu 0-100).
Cross-reference check — porovnanie outputu s bázou faktov (napr. KRS, dictionary citácií zákonov).

Knižnice: Guardrails AI, NeMo Guardrails, instructor (pre schema enforcement). Vlastná implementácia je často jednoduchšia a lacnejšia na udržanie.

Vrstva 5 — Human-in-the-loop

Pre vysokorizikové aplikácie (právne, lekárske, finančné, personálne rozhodnutia) je vrstva human-in-the-loop nevyhnutná. AI modely neprijímajú finálne rozhodnutie — podporujú človeka. Konkrétne vzory:

Draft + review — AI generuje prvú verziu dokumentu/odpovede, človek overuje a akceptuje pred odoslaním.
Confidence threshold — odpovede s nízkou dôverou (zo self-consistency alebo explicit confidence asking) sú automaticky eskalované k človeku.
Random sampling QA — 5-10% všetkých LLM odpovedí je manuálne auditovaných, nezávisle od dôvery — základná metrika kvality v čase.
Feedback loop — používateľ môže označiť chybnú odpoveď; systém sa učí a zlepšuje retrieval, prompty, parametre.

Meranie — ako vedieť, že redukcia funguje

Konkrétne produkčné metriky, ktoré sa oplatí monitorovať:

Hallucination rate — podiel odpovedí klasifikovaných ako halucinácia v manuálnej evaluácii (sampling). Cieľ: pod 2% pre business-critical aplikácie.
User feedback rate — podiel používateľov, ktorí označili odpoveď ako chybnú.
Escalation rate — podiel dopytov eskalovaných k človeku. Príliš nízky (pod 5%) — systém pravdepodobne ignoruje neisté prípady. Príliš vysoký (nad 30%) — systém nedodáva automatizačnú hodnotu.
Faithfulness score v regresných testoch — mesačný trend.
Time-to-correction — od detekcie halucinácie po nasadenie opravy (lepší retrieval, nový guardrail, fine-tuning).

Závery pre rozhodovateľov

Halucinácie sú zvládnuteľné — vyžadujú investíciu do obrannej viacvrstvovej architektúry. Firmy, ktoré nasadzujú LLM bez tejto architektúry, skôr či neskôr narazia na vážny incident (publikácia chybnej informácie klientovi, chybné rozhodnutie na základe halucinovaných dát, reputačné poškodenie). Náklady na vybudovanie kompletného obranného stacku (RAG + evaluation + guardrails + human-in-the-loop) sú typicky 15-30% nákladov samotného nasadenia LLM — a je to investícia absolútne nevyhnutná pre produkčné využitie. Dôsledky vynechania sú asymetrické: nízky náklad zanedbania v 95% prípadov, katastrofálny v 5%.

Halucinácie LLM &mdash; ako ich detekovať, obmedzovať a riadiť riziko v produkcii