Povratak na rječnik MLOps & Životni ciklus

Posluživanje modela (Model Serving)

Infrastruktura i obrasci za izlaganje AI modela kao produkcijskih servisa — skalabilni, pouzdani endpointi za inferenciju.

Što je posluživanje modela?

Posluživanje modela (model serving) je infrastruktura i prakse koje AI modele učinjavaju dostupnima kao produkcijske servise — skalabilni REST/gRPC API endpointi koji prihvaćaju zahtjeve, izvode inferenciju i vraćaju rezultate s niskim latencija i visokom dostupnošću.

Obrasci posluživanja

Online serving: sinkroni API za zahtjeve u stvarnom vremenu. Batch serving: asinkrona obrada velikih skupova podataka. Streaming serving: kontinuirano procesiranje podatkovnih tokova. Edge serving: inference na uređajima bez cloud-a. Svaki obrazac ima specifične zahtjeve za infrastrukturu, latenciju i troškovni profil.

Ključni zahtjevi produkcijskog servinga

Auto-skaliranje prema opterećenju, canary deployment (postepeno uvođenje novih verzija), modeli cache (KV cache za LLM-ove), hardware optimizacija (GPU batching, TensorRT), monitoriranje latencije i propusnosti, health checks i automatic failover. Alati: TorchServe, Triton Inference Server, vLLM (za LLM-ove), BentoML.