Volver ao Blog IA e Aprendizaxe Automática

Alucinacións dos LLM — como detectalas, reducilas e xestionar o risco en produción

Zespół ESKOM.AI 2026-06-10 Tempo de lectura: 9 min

Que son as alucinacións e por que aparecen

Unha alucinación nun LLM é xerar información que soa crible pero que é factualmente falsa ou inxustificada. Non é un „erro” no sentido de fallo do sistema — é unha consecuencia do xeito en que funcionan os modelos de linguaxe. O LLM non „sabe” do mesmo xeito que unha base de datos — predí o token seguinte máis probable, en base ás estatísticas de adestramento. Cando no prompt aparece unha pregunta para a que o modelo non ten boa cobertura nos datos de adestramento, xera a resposta „que soa máis probable”. Moitas veces esa resposta é correcta. Ás veces — non.

Escenarios típicos de alucinacións en usos empresariais:

  • Citar resolucións xudiciais ou artigos de leis inexistentes en asesoramento xurídico
  • Inventar nomes de funcións, clases ou bibliotecas ao xerar código
  • Dar estatísticas ou datas incorrectas en informes
  • Inventar contactos, enderezos, números de teléfono
  • Mesturar feitos referentes a empresas ou persoas con nomes similares

Capa 1 — Grounding (RAG)

A técnica individual máis eficaz para reducir alucinacións é o grounding — proporcionar ao modelo documentos ou datos concretos como contexto do que debe extraer as respostas. RAG clásico (Retrieval-Augmented Generation):

  • Pregunta do usuario → busca dos fragmentos de documento máis relevantes (vector search nunha base pgvector / Qdrant / Milvus)
  • Fragmentos + pregunta → prompt coa instrución „responde unicamente en base aos documentos a continuación”
  • Resposta do modelo → verificación de que contén citas/referencias ás fontes

O RAG reduce as alucinacións tipicamente nun 60-80% en usos do tipo „responde preguntas sobre a nosa base de coñecemento”. Non as elimina por completo — o modelo aínda pode „interpretar” os documentos de xeito inxustificado. De aí a necesidade de capas adicionais.

Capa 2 — Self-consistency e ensemble

A self-consistency é unha técnica que consiste en facer a mesma pregunta varias veces (ou a varios modelos diferentes) e comparar as respostas. Cando as respostas son coherentes — alta confianza. Cando difiren — sinal de que o tema é incerto.

Variante práctica: pregúntalle a Claude Sonnet, Llama 70B e Bielik o mesmo. Se os tres devolven o mesmo número, data, feito — probablemente correcto. Se difiren — escalada ao humano ou a un modelo máis custoso (Opus). Este patrón, implementado no routing LLM de 8 niveis, combina redución de custo con mellora da fiabilidade.

Capa 3 — Evaluation pipelines

Despregar un LLM en produción sen evaluation pipeline é como escribir código sen tests. Métricas concretas:

  • Faithfulness — se a resposta deriva dos documentos proporcionados. Medida cun segundo modelo de IA (LLM-as-judge) ou cunha biblioteca do tipo RAGAS, deepeval.
  • Answer relevance — se a resposta aborda a pregunta do usuario.
  • Context precision — se o retrieval devolveu os mellores fragmentos (calidade do vector search).
  • Groundedness score — porcentaxe de afirmacións na resposta para as que se pode mostrar fonte no contexto.

Cada nova build dunha aplicación baseada en LLM debería pasar un conxunto de 50-500 preguntas de avaliación con ground truth coñecido. Se a faithfulness baixa por debaixo do 90% — deployment bloqueado.

Capa 4 — Guardrails e validación da saída

Os guardrails son regras que validan a saída do LLM antes de entregala ao usuario. Exemplos:

  • Validación de esquema — a saída debe cumprir un esquema concreto (JSON Schema, Pydantic). As alucinacións de tipo „campos inventados” detéctanse mecanicamente.
  • Forbidden patterns — detección e bloqueo de patróns non admisibles (PII sen enmascarar, datos financeiros fóra de contexto, contidos potencialmente daniños).
  • Citation enforcement — cada afirmación factual debe ter cita de fonte. Se o modelo non cita — rexéitase a resposta.
  • Validación de rangos numéricos — os números na saída verifícanse en termos de sentido (por exemplo, prezo > 0, data ≤ hoxe, porcentaxe no rango 0-100).
  • Cross-reference check — comparación da saída cunha base de feitos (por exemplo KRS, dicionario de citas de leis).

Bibliotecas: Guardrails AI, NeMo Guardrails, instructor (para schema enforcement). A implementación propia adoita ser máis simple e máis barata de manter.

Capa 5 — Human-in-the-loop

Para aplicacións de alto risco (decisións xurídicas, médicas, financeiras, de RRHH) a capa human-in-the-loop é imprescindible. Os modelos de IA non toman a decisión final — apoian ao humano. Patróns concretos:

  • Draft + review — a IA xera a primeira versión do documento/resposta, o humano verifica e acepta antes de enviar.
  • Confidence threshold — as respostas con baixa confianza (de self-consistency ou de explicit confidence asking) escálanse automaticamente ao humano.
  • Random sampling QA — o 5-10% de todas as respostas do LLM audítanse manualmente, independentemente da confianza — métrica de calidade base no tempo.
  • Feedback loop — o usuario pode marcar unha resposta como errónea; o sistema aprende e mellora o retrieval, prompts, parámetros.

Medición — como saber que a redución funciona

Métricas de produción concretas que vale a pena monitorizar:

  • Hallucination rate — porcentaxe de respostas clasificadas como alucinacións na avaliación manual (sampling). Obxectivo: por baixo do 2% para aplicacións business-critical.
  • User feedback rate — porcentaxe de usuarios que marcaron a resposta como errónea.
  • Escalation rate — porcentaxe de consultas escaladas ao humano. Demasiado baixa (por baixo do 5%) — o sistema probablemente está omitindo casos incertos. Demasiado alta (por riba do 30%) — o sistema non aporta valor de automatización.
  • Faithfulness score en tests de regresión — tendencia mensual.
  • Time-to-correction — desde a detección da alucinación ata a implementación da corrección (mellor retrieval, novo guardrail, fine-tuning).

Conclusións para os decisores

As alucinacións son xestionables — requiren investimento nunha arquitectura defensiva en varias capas. As empresas que implementan LLM sen esta arquitectura, máis cedo ou máis tarde, encontrarán un incidente grave (publicación de información errónea a cliente, decisión errónea baseada en datos alucinados, dano reputacional). O custo de construír un stack defensivo completo (RAG + evaluation + guardrails + human-in-the-loop) é tipicamente o 15-30% do custo da propia implementación do LLM — e é un investimento absolutamente necesario para usos en produción. As consecuencias de omitilo son asimétricas: custo baixo de inacción no 95% dos casos, catastrófico no 5%.

#halucynacje #LLM #RAG #guardrails #evaluation #human-in-the-loop