Vissza a szójegyzékhez MLOps & Életciklus

Modell-inferencia és serving (Model Serving)

Az AI-modellek éles kérések kiszolgálására való kitétele hatékony és megbízható infrastruktúra segítségével, amely megfelel a termelési késleltetési, rendelkezésre állási és skálázási követelményeknek.

Mi a model serving?

A model serving az a folyamat, amelynek során ML-modellek elérhetővé válnak az alkalmazások által elküldhető kérések kiszolgálásához. A betanítástól eltérően, amely kötegelt számítási feladat, a serving igény szerinti, valós idős inferenciát kínál, amely megköveteli a magas rendelkezésre állást, alacsony késleltetést és megfelelő áteresztőképességet.

Serving infrastruktúra

A REST API szerverek HTTP/HTTPS végpontokat tesznek elérhetővé az inferencia-kérések fogadásához. A gRPC szerverek alacsonyabb késleltetést kínálnak a belső mikroszolgáltatások kommunikációjához. A kötegelt inferencia-rendszerek egyszerre több kérést dolgoznak fel a hatékonyság maximalizálásához. A streaming inferencia valós idős adatfolyamokat támogat.

Skálázás és optimalizálás

A horizontális skálázás párhuzamosan futó modellinferencia-példányokat futtat a forgalom kezeléséhez. A modelloptimalizációk — kvantálás, destilláció, ONNX konverzió — csökkentik az egy kérésre jutó számítási költséget. A GPU-megosztás lehetővé teszi több kisebb modell futtatását egy GPU-n az erőforrás-felhasználás javítása érdekében.