¿Qué es el servicio de modelos?
El servicio de modelos (Model Serving) se refiere a la infraestructura, la arquitectura y los procesos necesarios para desplegar modelos ML entrenados como servicios de producción confiables. Va mucho más allá de simplemente cargar un modelo e incluye escalado, optimización de latencia, monitoreo y confiabilidad operativa.
Arquitecturas de servicio
Los enfoques comunes incluyen servicios API REST, endpoints gRPC para alto rendimiento, serving por lotes para inferencia offline y serving en streaming para procesamiento continuo de datos. Frameworks como TensorFlow Serving, TorchServe, Triton Inference Server y KServe ofrecen infraestructura de serving especializada. Son especialmente importantes el autoescalado, las pruebas A/B y los despliegues canary.
Consideraciones de producción
Para un servicio de modelos empresarial son cruciales los requisitos de SLA (latencia, disponibilidad), la optimización de costos mediante escalado inteligente, el almacenamiento en caché y el batching de modelos, así como un monitoreo y alertas robustos. El serving con GPU requiere especial atención en cuanto a utilización de recursos y costos.