Halucinații LLM — cum să le detectezi, să le limitezi și să gestionezi riscul în producție

Ce sunt halucinațiile și de ce apar

O halucinație într-un LLM este generarea de informații care sună credibil, dar sunt factual neadevărate sau nejustificate. Nu este o „eroare” în sensul unei defecțiuni a sistemului — este o consecință a modului în care funcționează modelele de limbaj. LLM-ul nu „știe” așa cum o bază de date — prezice cel mai probabil următor token, pe baza statisticii antrenamentului. Când în prompt apare o întrebare pentru care modelul nu are o acoperire bună în datele de antrenament, generează un răspuns „cu sonoritatea cea mai probabilă”. Adesea acest răspuns este corect. Uneori — nu.

Scenarii tipice de halucinație în aplicațiile de business:

Citarea unor hotărâri judecătorești sau articole de lege inexistente în consultanța juridică
Inventarea de nume de funcții, clase sau biblioteci la generarea codului
Prezentarea unor statistici sau date incorecte în rapoarte
Inventarea de contacte, adrese, numere de telefon
Amestecarea de fapte privind diferite companii sau persoane cu nume similare

Stratul 1 — Grounding (RAG)

Cea mai eficientă tehnică unică de reducere a halucinațiilor este grounding — furnizarea modelului cu documente sau date concrete drept context, din care trebuie să își extragă răspunsurile. RAG clasic (Retrieval-Augmented Generation):

Întrebarea utilizatorului → căutarea celor mai relevante fragmente de documente (vector search în pgvector / Qdrant / Milvus)
Fragmente + întrebare → prompt cu instrucțiunea „răspunde exclusiv pe baza documentelor de mai jos”
Răspunsul modelului → verificarea că include citate/referințe la surse

RAG reduce halucinațiile tipic cu 60-80% în aplicații de tipul „răspunde la întrebări despre baza noastră de cunoștințe”. Nu le elimină complet — modelul poate încă să „interpreteze” documentele într-un mod neautorizat. De aici nevoia de straturi suplimentare.

Stratul 2 — Self-consistency și ensemble

Self-consistency este o tehnică ce constă în adresarea aceleiași întrebări de mai multe ori (sau mai multor modele diferite) și compararea răspunsurilor. Când răspunsurile sunt coerente — încredere ridicată. Când diferă — semnal că subiectul este incert.

Variantă practică: întreabă Claude Sonnet, Llama 70B și Bielik aceeași întrebare. Dacă toate trei returnează același număr, dată, fapt — probabil corect. Dacă diferă — escaladare către om sau către un model mai costisitor (Opus). Acest model, implementat în routing-ul LLM pe 8 niveluri, combină reducerea costului cu îmbunătățirea fiabilității.

Stratul 3 — Evaluation pipelines

Implementarea LLM în producție fără evaluation pipeline este ca scrierea codului fără teste. Metrici concrete:

Faithfulness — dacă răspunsul rezultă din documentele furnizate. Măsurat printr-un alt model AI (LLM-as-judge) sau prin biblioteci precum RAGAS, deepeval.
Answer relevance — dacă răspunsul adresează întrebarea utilizatorului.
Context precision — dacă cele mai bune fragmente au fost returnate de retrieval (calitatea vector search).
Groundedness score — procentul de afirmații din răspuns pentru care se poate indica o sursă în context.

Fiecare nouă build a unei aplicații bazate pe LLM trebuie să treacă un set de 50-500 întrebări de evaluare cu ground truth cunoscut. Dacă faithfulness scade sub 90% — deployment blocked.

Stratul 4 — Guardrails și validarea output-ului

Guardrails sunt reguli care validează output-ul LLM înainte de a-l livra utilizatorului. Exemple:

Schema validation — output-ul trebuie să respecte o schemă concretă (JSON Schema, Pydantic). Halucinațiile de tip „câmpuri inventate” sunt detectate mecanic.
Forbidden patterns — detectarea și blocarea modelelor inadmisibile (PII fără mascare, date financiare în afara contextului, conținut potențial dăunător).
Citation enforcement — fiecare afirmație factuală trebuie să aibă un citat din sursă. Dacă modelul nu citează — răspunsul este respins.
Numeric range validation — numerele din output sunt verificate pentru sens (de exemplu preț > 0, dată ≤ astăzi, procent în intervalul 0-100).
Cross-reference check — compararea output-ului cu o bază de fapte (de exemplu KRS, dicționar de citate de legi).

Biblioteci: Guardrails AI, NeMo Guardrails, instructor (pentru schema enforcement). Implementarea proprie este adesea mai simplă și mai ieftin de menținut.

Stratul 5 — Human-in-the-loop

Pentru aplicații cu risc ridicat (decizii juridice, medicale, financiare, de resurse umane) stratul human-in-the-loop este indispensabil. Modelele AI nu iau decizia finală — sprijină omul. Modele concrete:

Draft + review — AI generează prima versiune a documentului/răspunsului, omul verifică și acceptă înainte de trimitere.
Confidence threshold — răspunsurile cu încredere scăzută (din self-consistency sau explicit confidence asking) sunt escaladate automat către om.
Random sampling QA — 5-10% din toate răspunsurile LLM sunt auditate manual, indiferent de încredere — metrică de bază a calității în timp.
Feedback loop — utilizatorul poate marca un răspuns ca greșit; sistemul învață și îmbunătățește retrieval, prompts, parametri.

Măsurare — cum să știi că reducerea funcționează

Metrici concrete de producție care merită monitorizate:

Hallucination rate — procentul de răspunsuri clasificate ca halucinație în evaluare manuală (sampling). Obiectiv: sub 2% pentru aplicații business-critical.
User feedback rate — procentul de utilizatori care au marcat un răspuns ca greșit.
Escalation rate — procentul de cereri escaladate către om. Prea scăzut (sub 5%) — sistemul probabil ignoră cazurile incerte. Prea ridicat (peste 30%) — sistemul nu oferă valoare de automatizare.
Faithfulness score în teste de regresie — trend lunar.
Time-to-correction — de la detectarea halucinației la implementarea corecției (retrieval mai bun, nou guardrail, fine-tuning).

Concluzii pentru decidenți

Halucinațiile sunt gestionabile — necesită investiții în arhitectură defensivă pe mai multe straturi. Companiile care implementează LLM fără această arhitectură vor întâlni mai devreme sau mai târziu un incident grav (publicarea de informații greșite unui client, decizie eronată pe baza unor date halucinate, daună reputațională). Costul construirii unui stack defensiv complet (RAG + evaluation + guardrails + human-in-the-loop) este de obicei 15-30% din costul implementării LLM — și este o investiție absolut necesară pentru utilizările în producție. Consecințele omiterii sunt asimetrice: cost scăzut al omisiunii în 95% din cazuri, catastrofal în 5%.

Halucinații LLM &mdash; cum să le detectezi, să le limitezi și să gestionezi riscul în producție