Volver al glosario MLOps & Ciclo de vida

Servicio de Modelos

La infraestructura y los procesos para desplegar modelos ML como servicios de producción para inferencia en tiempo real.

¿Qué es el servicio de modelos?

El servicio de modelos (Model Serving) se refiere a la infraestructura, la arquitectura y los procesos necesarios para desplegar modelos ML entrenados como servicios de producción confiables. Va mucho más allá de simplemente cargar un modelo e incluye escalado, optimización de latencia, monitoreo y confiabilidad operativa.

Arquitecturas de servicio

Los enfoques comunes incluyen servicios API REST, endpoints gRPC para alto rendimiento, serving por lotes para inferencia offline y serving en streaming para procesamiento continuo de datos. Frameworks como TensorFlow Serving, TorchServe, Triton Inference Server y KServe ofrecen infraestructura de serving especializada. Son especialmente importantes el autoescalado, las pruebas A/B y los despliegues canary.

Consideraciones de producción

Para un servicio de modelos empresarial son cruciales los requisitos de SLA (latencia, disponibilidad), la optimización de costos mediante escalado inteligente, el almacenamiento en caché y el batching de modelos, así como un monitoreo y alertas robustos. El serving con GPU requiere especial atención en cuanto a utilización de recursos y costos.