Volver al glosario Tecnología

Inferencia IA

El proceso de generación de respuestas por un modelo de IA entrenado — la fase de producción donde el modelo procesa entradas y devuelve resultados.

¿Qué es la inferencia?

La inferencia es el proceso en el que un modelo de IA entrenado procesa datos de entrada y genera un resultado (respuesta, clasificación, predicción). Es la fase de «uso» del modelo — a diferencia del entrenamiento, que lo crea.

Costes y rendimiento de la inferencia

En producción, la inferencia es el coste dominante de la IA: cada consulta = tokens = tarifa API. Las optimizaciones incluyen: cuantización (reducción de la precisión del modelo, por ej. fp16 a int8 — 2x más rápido, 2x más barato), batching (agrupación de consultas), speculative decodingKV cache.

Inferencia local vs cloud

La inferencia local (en servidores corporativos) elimina costes de API y preocupaciones de privacidad pero requiere hardware GPU. La inferencia en la nube es flexible pero genera costes y riesgos de cumplimiento. El enrutamiento multinivel combina ambos enfoques.