Što je posluživanje modela?
Posluživanje modela (model serving) je infrastruktura i prakse koje AI modele učinjavaju dostupnima kao produkcijske servise — skalabilni REST/gRPC API endpointi koji prihvaćaju zahtjeve, izvode inferenciju i vraćaju rezultate s niskim latencija i visokom dostupnošću.
Obrasci posluživanja
Online serving: sinkroni API za zahtjeve u stvarnom vremenu. Batch serving: asinkrona obrada velikih skupova podataka. Streaming serving: kontinuirano procesiranje podatkovnih tokova. Edge serving: inference na uređajima bez cloud-a. Svaki obrazac ima specifične zahtjeve za infrastrukturu, latenciju i troškovni profil.
Ključni zahtjevi produkcijskog servinga
Auto-skaliranje prema opterećenju, canary deployment (postepeno uvođenje novih verzija), modeli cache (KV cache za LLM-ove), hardware optimizacija (GPU batching, TensorRT), monitoriranje latencije i propusnosti, health checks i automatic failover. Alati: TorchServe, Triton Inference Server, vLLM (za LLM-ove), BentoML.