Que é a Inferencia?
A inferencia é o proceso onde un modelo de IA adestrado procesa datos de entrada e xera un resultado (resposta, clasificación, predición). Esta é a etapa de «uso» do modelo — en contraste co adestramento, que o crea.
Custos e rendemento da inferencia
En produción, a inferencia é o custo dominante da IA: cada consulta = tokens = tarifa de API. A optimización inclúe: cuantización (redución da precisión do modelo, p. ex. fp16 a int8 — 2x máis rápido, 2x máis económico), agrupamento (agrupar consultas), speculative decoding e KV cache.
Inferencia local vs na nube
A inferencia local (en servidores da empresa) elimina os custos de API e as preocupacións de privacidade pero require hardware GPU. A inferencia na nube é flexible pero xera custos e riscos de cumprimento. O encamiñamento multinivel combina ambos enfoques.