Model serving

Czym jest model serving?

Model serving to proces udostępniania wytrenowanego modelu AI jako usługi gotowej do obsługi zapytań w środowisku produkcyjnym. Obejmuje nie tylko samo uruchomienie modelu, ale również infrastrukturę wokół niego: load balancing, auto-skalowanie, wersjonowanie modeli, monitoring wydajności i jakości odpowiedzi oraz zarządzanie cyklem życia.

Architektura i narzędzia

Współczesne podejścia do model serving obejmują: REST/gRPC API — model wystawiony jako endpoint HTTP, batch inference — przetwarzanie dużych zbiorów danych offline, oraz streaming — generowanie odpowiedzi token po tokenie w czasie rzeczywistym. Popularne rozwiązania to vLLM, TGI (Text Generation Inference), Triton Inference Server oraz Ollama dla modeli lokalnych. Kluczowe metryki to latencja (p50/p95/p99), throughput (tokeny na sekundę) i dostępność.

Wyzwania korporacyjne

W środowisku enterprise model serving wymaga wielowarstwowego podejścia. System wielopoziomowego routingu automatycznie kieruje zapytania do odpowiedniego modelu — lokalne, lekkie modele obsługują proste zadania, a zaawansowane modele chmurowe przetwarzają złożone zapytania. Taka architektura optymalizuje koszty, skraca czas odpowiedzi i zapewnia ciągłość działania nawet przy awarii pojedynczego dostawcy.

Czym jest model serving?

Architektura i narzędzia

Wyzwania korporacyjne

Powiązane pojęcia