¿Qué es la inferencia?
La inferencia es el proceso en el que un modelo de IA entrenado procesa datos de entrada y genera un resultado (respuesta, clasificación, predicción). Es la fase de «uso» del modelo — a diferencia del entrenamiento, que lo crea.
Costes y rendimiento de la inferencia
En producción, la inferencia es el coste dominante de la IA: cada consulta = tokens = tarifa API. Las optimizaciones incluyen: cuantización (reducción de la precisión del modelo, por ej. fp16 a int8 — 2x más rápido, 2x más barato), batching (agrupación de consultas), speculative decoding y KV cache.
Inferencia local vs cloud
La inferencia local (en servidores corporativos) elimina costes de API y preocupaciones de privacidad pero requiere hardware GPU. La inferencia en la nube es flexible pero genera costes y riesgos de cumplimiento. El enrutamiento multinivel combina ambos enfoques.