Επιστροφή στο γλωσσάριο MLOps & Κύκλος ζωής

Model Serving

Υποδομή και διαδικασίες για ανάπτυξη εκπαιδευμένων μοντέλων ΤΝ ως υπηρεσίες που μπορούν να λαμβάνουν αιτήματα και να επιστρέφουν προβλέψεις σε πραγματικό χρόνο.

Τι είναι το Model Serving;

Το model serving αναφέρεται στη διαδικασία ανάπτυξης εκπαιδευμένων μοντέλων μηχανικής μάθησης ως υπηρεσίες που είναι διαθέσιμες για εξαγωγή συμπερασμάτων (inference) — δηλαδή λαμβάνοντας είσοδο και επιστρέφοντας προβλέψεις. Καλύπτει όλες τις πτυχές διαθεσιμότητας μοντέλων: API endpoints, batching αιτημάτων, load balancing και scaling.

Η απόδοση serving μετριέται σε throughput (αιτήματα/δευτερόλεπτο), latency (χρόνος απόκρισης) και διαθεσιμότητα.

Στρατηγικές Serving

Online serving εξυπηρετεί μεμονωμένα αιτήματα σε πραγματικό χρόνο. Batch serving επεξεργάζεται μεγάλους όγκους αιτημάτων ασύγχρονα. Streaming serving χειρίζεται συνεχείς ροές δεδομένων. Η επιλογή εξαρτάται από απαιτήσεις καθυστέρησης και όγκο.

Εργαλεία

Δημοφιλείς λύσεις model serving περιλαμβάνουν TensorFlow Serving, Triton Inference Server (NVIDIA), vLLM (για LLMs), Ray Serve και cloud-managed υπηρεσίες όπως AWS SageMaker και Azure ML endpoints.