Czym jest model serving?
Model serving to proces udostępniania wytrenowanego modelu AI jako usługi gotowej do obsługi zapytań w środowisku produkcyjnym. Obejmuje nie tylko samo uruchomienie modelu, ale również infrastrukturę wokół niego: load balancing, auto-skalowanie, wersjonowanie modeli, monitoring wydajności i jakości odpowiedzi oraz zarządzanie cyklem życia.
Architektura i narzędzia
Współczesne podejścia do model serving obejmują: REST/gRPC API — model wystawiony jako endpoint HTTP, batch inference — przetwarzanie dużych zbiorów danych offline, oraz streaming — generowanie odpowiedzi token po tokenie w czasie rzeczywistym. Popularne rozwiązania to vLLM, TGI (Text Generation Inference), Triton Inference Server oraz Ollama dla modeli lokalnych. Kluczowe metryki to latencja (p50/p95/p99), throughput (tokeny na sekundę) i dostępność.
Wyzwania korporacyjne
W środowisku enterprise model serving wymaga wielowarstwowego podejścia. System wielopoziomowego routingu automatycznie kieruje zapytania do odpowiedniego modelu — lokalne, lekkie modele obsługują proste zadania, a zaawansowane modele chmurowe przetwarzają złożone zapytania. Taka architektura optymalizuje koszty, skraca czas odpowiedzi i zapewnia ciągłość działania nawet przy awarii pojedynczego dostawcy.