Zurück zum Glossar MLOps & Lebenszyklus

Modell-Serving

Die Infrastruktur und Prozesse zur Bereitstellung von ML-Modellen als Produktionsdienste für Echtzeit-Inferenz.

Was ist Modell-Serving?

Modell-Serving bezeichnet die Infrastruktur, Architektur und Prozesse, die erforderlich sind, um trainierte ML-Modelle als zuverlässige Produktionsdienste bereitzustellen. Es geht weit über das bloße Hochladen eines Modells hinaus und umfasst Skalierung, Latenzoptimierung, Monitoring und Betriebszuverlässigkeit.

Serving-Architekturen

Gängige Ansätze umfassen REST-API-Dienste, gRPC-Endpunkte für hohe Leistung, Batch-Serving für Offline-Inferenz und Streaming-Serving für kontinuierliche Datenverarbeitung. Frameworks wie TensorFlow Serving, TorchServe, Triton Inference Server und KServe bieten spezialisierte Serving-Infrastruktur. Besonders wichtig sind Aspekte wie Autoscaling, A/B-Testing und Canary-Deployments.

Produktionsüberlegungen

Für unternehmenstaugliches Modell-Serving sind SLA-Anforderungen (Latenz, Verfügbarkeit), Kostenoptimierung durch intelligentes Skalieren, Model Caching und Batching sowie robustes Monitoring und Alerting entscheidend. GPU-Serving benötigt besondere Aufmerksamkeit bezüglich Ressourcenauslastung und Kosten.