LLM aluzinazioak — nola detektatu, mugatu eta arriskua kudeatu produkzioan

Zer diren aluzinazioak eta zergatik agertzen diren

LLM-eko aluzinazioa sinesgarri ematen duen baina egitatezki faltsua edo justifikatugabea den informazioa sortzea da. Ez da „errorea” sistemaren akats baten zentzuan — hizkuntza-ereduen funtzionamendu-eraren ondorioa da. LLM-ak ez du „jakitzen” datu-base batek bezala — hurrengo token probableena iragartzen du, prestakuntzaren estatistikaren arabera. Prompt-ean ereduak prestakuntza-datuetan estaldura onik ez duen galdera bat agertzen denean, „probableen ematen duen” erantzuna sortzen du. Sarritan erantzun hori zuzena izaten da. Batzuetan — ez.

Aluzinazioen ohiko eszenategiak negozio-aplikazioetan:

Existitzen ez diren auzitegi-erabakiak edo lege-artikuluak aipatzea aholkularitza juridikoan
Funtzio, klase edo liburutegien izenak asmatzea kodea sortzean
Estatistika edo data okerrak ematea txostenetan
Kontaktuak, helbideak, telefono-zenbakiak asmatzea
Antzeko izenak dituzten enpresa edo pertsonei buruzko gertakariak nahastea

1. geruza — Grounding (RAG)

Aluzinazioak murrizteko teknika eraginkorrena grounding da — ereduari dokumentu edo datu zehatzak ematea testuinguru gisa, eta horietatik erantzunak atera behar ditu. RAG klasikoa (Retrieval-Augmented Generation):

Erabiltzailearen galdera → dokumentu-zati garrantzitsuenen bilaketa (vector search pgvector / Qdrant / Milvus-en)
Zatiak + galdera → „erantzun ondoko dokumentuetan oinarrituta soilik” jarraibidearekin prompt-a
Ereduaren erantzuna → iturrietarako aipamenak/erreferentziak dituela egiaztatzea

RAG-ak aluzinazioak ohiko moduan %60-80 murrizten ditu „gure ezagutza-basearen inguruko galderak erantzun” motako aplikazioetan. Ez ditu erabat ezabatzen — ereduak dokumentuak baimenik gabe „interpreta” ditzake oraindik. Hortik datoz geruza gehigarriak.

2. geruza — Self-consistency eta ensemble

Self-consistency galdera bera hainbat aldiz egitean (edo hainbat eredu desberdinei) eta erantzunak alderatzean datzan teknika da. Erantzunak koherenteak direnean — konfiantza handia. Desberdintzen direnean — gaia ziurra ez delako seinalea.

Aldaera praktikoa: galde iezaiozu Claude Sonnet-i, Llama 70B-ri eta Bielik-i galdera berbera. Hirurek zenbaki, data, gertakari berbera itzultzen badute — ziurrenik zuzena. Desberdintzen badira — gizakirantz edo eredu garestiago batera (Opus) eskalatu. Eredu hau, 8 mailako LLM routing-ean inplementatua, kostua murrizketa fidagarritasun-hobekuntzarekin konbinatzen du.

3. geruza — Evaluation pipeline-ak

Evaluation pipeline gabeko LLM produkzio-hedapena probarik gabe kodea idaztea bezalakoa da. Metrika zehatzak:

Faithfulness — erantzuna emandako dokumentuetatik datorren ala ez. Bigarren IA-eredu batek (LLM-as-judge) edo RAGAS, deepeval motako liburutegi batek neurtzen du.
Answer relevance — erantzunak erabiltzailearen galdera lantzen duen ala ez.
Context precision — retrieval-ak zatirik onenak itzuli dituen ala ez (vector search-aren kalitatea).
Groundedness score — erantzuneko baieztapenen ehunekoa, zeinetarako iturri bat seinala daitekeen testuinguruan.

LLM-an oinarritutako aplikazio baten build berri bakoitzak 50-500 ebaluazio-galderen multzo bat pasatu beharko luke ground truth ezagunarekin. Faithfulness-ak %90etik behera erortzen bada — deployment blocked.

4. geruza — Guardrails eta output-aren balioztatzea

Guardrails LLM-aren output-a erabiltzaileari helarazi aurretik balioztatzen duten arauak dira. Adibideak:

Schema validation — output-ak eskema zehatz bat bete behar du (JSON Schema, Pydantic). „Asmatutako eremuak” motako aluzinazioak mekanikoki detektatzen dira.
Forbidden patterns — onartezinak diren ereduak detektatzea eta blokeatzea (PII maskaratu gabe, testuingurutik kanpoko finantza-datuak, kaltegarriak izan daitezkeen edukiak).
Citation enforcement — baieztapen faktiko bakoitzak iturriaren aipamena izan behar du. Ereduak aipatzen ez badu — erantzuna baztertu egiten da.
Numeric range validation — output-eko zenbakiak zentzuari dagokionez egiaztatzen dira (adib. prezioa > 0, data ≤ gaur, ehunekoa 0-100 tartean).
Cross-reference check — output-aren konparaketa gertakari-baseekin (adib. KRS, lege-aipamenen hiztegia).

Liburutegiak: Guardrails AI, NeMo Guardrails, instructor (schema enforcement-erako). Norberaren inplementazioa sarritan errazagoa eta merkeagoa da mantentzeko.

5. geruza — Human-in-the-loop

Arrisku altuko aplikazioetarako (erabaki juridikoak, mediko, finantzario, GG.HH.) human-in-the-loop geruza ezinbestekoa da. IA ereduek ez dute azken erabakia hartzen — gizakia laguntzen dute. Eredu zehatzak:

Draft + review — IA-k dokumentu/erantzunaren lehen bertsioa sortzen du, gizakiak egiaztatzen eta onartzen du bidali aurretik.
Confidence threshold — confidence baxua duten erantzunak (self-consistency-tik edo explicit confidence asking-tik) automatikoki gizakira eskalatzen dira.
Random sampling QA — LLM-aren erantzun guztien %5-10 eskuz auditatzen dira, confidence-tik aparte — kalitatearen oinarrizko metrika denboran.
Feedback loop — erabiltzaileak erantzun okerra marka dezake; sistemak ikasi eta retrieval-a, prompt-ak, parametroak hobetzen ditu.

Neurketa — nola jakin murrizketak funtzionatzen duela

Jarraitzeak merezi duten produkzio-metrika zehatzak:

Hallucination rate — eskuzko ebaluazioan (sampling) aluzinazio gisa sailkatutako erantzunen ehunekoa. Helburua: business-critical aplikazioentzat %2tik behera.
User feedback rate — erantzuna oker gisa markatu duten erabiltzaileen ehunekoa.
Escalation rate — gizakira eskalatutako kontsulten ehunekoa. Baxuegia (%5 azpitik) — sistemak ziurra ez diren kasuak baztertuko ditu ziurrenik. Altuegia (%30 gainetik) — sistemak ez du automatizazio-baliorik ematen.
Faithfulness score erregresio-proben artean — hileroko joera.
Time-to-correction — aluzinazioa detektatzetik konponketa ezartzera arte (retrieval hobea, guardrail berria, fine-tuning).

Erabakitzaileentzako ondorioak

Aluzinazioak kudeagarriak dira — geruza anitzeko defentsa-arkitekturan inbertsioa eskatzen dute. Arkitektura hori gabe LLM-a ezartzen duten enpresek, lehenago edo geroago, gertakari larriarekin egingo dute topo (bezeroari informazio okerra argitaratzea, aluzinatutako datuetan oinarritutako erabaki okerra, ospearen kaltea). Defentsa-stack osoa eraikitzeko kostua (RAG + evaluation + guardrails + human-in-the-loop) tipikoki LLM-aren ezarpenaren kostuaren %15-30 da — eta produkzio-aplikazioetarako guztiz beharrezko inbertsioa da. Ez egitearen ondorioak asimetrikoak dira: ekintzarik ezaren kostu baxua kasuen %95ean, hondamendizkoa %5ean.