Nazaj na slovar MLOps & Življenjski cikel

Strežba modelov

Infrastruktura in vzorci za izpostavljanje modelov UI kot produkcijskih storitev — razširljivi, zanesljivi končni točki za inferenco.

Kaj je strežba modelov?

Strežba modelov je infrastruktura in prakse, ki modele UI naredijo dostopne kot produkcijske storitve — razširljive REST/gRPC API končne točke z nizko latenco in visoko razpoložljivostjo.

Vzorci strežbe

Spletna strežba: sinhroni API za zahteve v realnem času. Paketna strežba: asinhrona obdelava velikih niz podatkov. Pretočna strežba: neprekinjeno procesiranje podatkovnih tokov. Edge strežba: inferenca na napravah brez oblaka.

Ključne zahteve produkcijske strežbe

Samodejno skaliranje, kanarska uvajanja, predpomnilnik modelov, optimizacija strojne opreme, nadzor latence in Samodejno preusmeritev ob napakah. Orodja: TorchServe, Triton Inference Server, vLLM.