Retour au glossaire MLOps & Cycle de vie

Service de Modèles

L'infrastructure et les processus pour déployer des modèles ML comme services de production pour l'inférence en temps réel.

Qu'est-ce que le service de modèles ?

Le service de modèles (Model Serving) désigne l'infrastructure, l'architecture et les processus nécessaires pour déployer des modèles ML entraînés en tant que services de production fiables. Il va bien au-delà du simple téléchargement d'un modèle et comprend la mise à l'échelle, l'optimisation de la latence, la surveillance et la fiabilité opérationnelle.

Architectures de service

Les approches courantes comprennent les services API REST, les points de terminaison gRPC pour haute performance, le serving par lots pour l'inférence hors ligne et le serving en streaming pour le traitement continu des données. Des frameworks comme TensorFlow Serving, TorchServe, Triton Inference Server et KServe offrent une infrastructure de serving spécialisée. L'autoscaling, les tests A/B et les déploiements canary sont particulièrement importants.

Considérations de production

Pour un service de modèles adapté aux entreprises, les exigences SLA (latence, disponibilité), l'optimisation des coûts par mise à l'échelle intelligente, le cache de modèles et le batching, ainsi qu'une surveillance et des alertes robustes sont essentiels. Le serving GPU nécessite une attention particulière concernant l'utilisation des ressources et les coûts.