Τι είναι το Model Serving;
Το model serving αναφέρεται στη διαδικασία ανάπτυξης εκπαιδευμένων μοντέλων μηχανικής μάθησης ως υπηρεσίες που είναι διαθέσιμες για εξαγωγή συμπερασμάτων (inference) — δηλαδή λαμβάνοντας είσοδο και επιστρέφοντας προβλέψεις. Καλύπτει όλες τις πτυχές διαθεσιμότητας μοντέλων: API endpoints, batching αιτημάτων, load balancing και scaling.
Η απόδοση serving μετριέται σε throughput (αιτήματα/δευτερόλεπτο), latency (χρόνος απόκρισης) και διαθεσιμότητα.
Στρατηγικές Serving
Online serving εξυπηρετεί μεμονωμένα αιτήματα σε πραγματικό χρόνο. Batch serving επεξεργάζεται μεγάλους όγκους αιτημάτων ασύγχρονα. Streaming serving χειρίζεται συνεχείς ροές δεδομένων. Η επιλογή εξαρτάται από απαιτήσεις καθυστέρησης και όγκο.
Εργαλεία
Δημοφιλείς λύσεις model serving περιλαμβάνουν TensorFlow Serving, Triton Inference Server (NVIDIA), vLLM (για LLMs), Ray Serve και cloud-managed υπηρεσίες όπως AWS SageMaker και Azure ML endpoints.