Torna al glossario MLOps & Ciclo di vita

Serving dei Modelli

L'infrastruttura e i processi per distribuire modelli ML come servizi di produzione per l'inferenza in tempo reale.

Cos'è il serving dei modelli?

Il serving dei modelli (Model Serving) si riferisce all'infrastruttura, all'architettura e ai processi necessari per distribuire modelli ML addestrati come servizi di produzione affidabili. Va ben oltre il semplice caricamento di un modello e comprende scalabilità, ottimizzazione della latenza, monitoraggio e affidabilità operativa.

Architetture di serving

Gli approcci comuni includono servizi API REST, endpoint gRPC per alte prestazioni, serving in batch per inferenza offline e serving in streaming per l'elaborazione continua dei dati. Framework come TensorFlow Serving, TorchServe, Triton Inference Server e KServe offrono infrastruttura di serving specializzata. Particolarmente importanti sono autoscaling, test A/B e deployment canary.

Considerazioni di produzione

Per un serving di modelli adeguato alle imprese sono cruciali i requisiti SLA (latenza, disponibilità), l'ottimizzazione dei costi tramite scalabilità intelligente, il caching dei modelli e il batching, nonché monitoraggio e alerting robusti. Il serving su GPU richiede particolare attenzione riguardo all'utilizzo delle risorse e ai costi.