Späť na slovník MLOps & Zivotny cyklus

Nasadzovanie modelov (Model Serving)

Model serving je proces sprístupnenia natrenovanych ML modelov pre realne pouzitie prostredníctvom API alebo inych rozhrani, ktore umoznuju realny cas alebo davkove predikcie.

Co je model serving?

Model serving je infrastrukturna vrstva, ktora premostuje natrenovany ML model a koncovych pouzivatelov alebo aplikacie. Zahrnuje vystavanie modelu ako sluzby, ktora dokaze efektivne spracovavat poziadavky – ci uz v realnom case (online serving) alebo davkovo (batch serving).

Kvalita servingu priamo ovplyvnuje pouzivatelsky zazitok: visoka latencia alebo nespolehlivos't predikci moze zrusit prisnoby vynikajuceho modelu.

Architektury servingu

REST API serving je najjednoduchsi pristup – model je zabaleny do HTTP endpointu. Pokrocillejsie systemy pouzivaju model serving frameworky ako TensorFlow Serving, Triton Inference Server alebo TorchServe, ktore poskytuju optimalizovanu infereservnciu, batching, model versioning a A/B testovanie.

Serverless inference (napr. AWS Lambda, Google Cloud Functions) znizuje operacne naklady pre sporadicke pouzitie, zatial co dedicated GPU instances su vhodnejsie pre vysoko-vytazene produkcie.

Vyzvy a optimalizacie

Klucovedve metriky su latencia (p50, p95, p99), priepustnost (requests/s) a dostupnost. Optimalizacne techniky zahrnaju model quantization, caching predikcii, dinamicke batching a hardware acceleration. Pri rozsiahleho nasadeni sa pouzivaju kontajnery (Docker) a Kubernetes pre skalovacie a rezilienciu.