Volver ao glosario Tecnoloxía

Inferencia de IA

O proceso de xeración de respostas por un modelo de IA adestrado — a etapa de produción onde o modelo procesa entradas e devolve resultados.

Que é a Inferencia?

A inferencia é o proceso onde un modelo de IA adestrado procesa datos de entrada e xera un resultado (resposta, clasificación, predición). Esta é a etapa de «uso» do modelo — en contraste co adestramento, que o crea.

Custos e rendemento da inferencia

En produción, a inferencia é o custo dominante da IA: cada consulta = tokens = tarifa de API. A optimización inclúe: cuantización (redución da precisión do modelo, p. ex. fp16 a int8 — 2x máis rápido, 2x máis económico), agrupamento (agrupar consultas), speculative decoding e KV cache.

Inferencia local vs na nube

A inferencia local (en servidores da empresa) elimina os custos de API e as preocupacións de privacidade pero require hardware GPU. A inferencia na nube é flexible pero xera custos e riscos de cumprimento. O encamiñamento multinivel combina ambos enfoques.