Modell-inferencia és serving (Model Serving)

Mi a model serving?

A model serving az a folyamat, amelynek során ML-modellek elérhetővé válnak az alkalmazások által elküldhető kérések kiszolgálásához. A betanítástól eltérően, amely kötegelt számítási feladat, a serving igény szerinti, valós idős inferenciát kínál, amely megköveteli a magas rendelkezésre állást, alacsony késleltetést és megfelelő áteresztőképességet.

Serving infrastruktúra

A REST API szerverek HTTP/HTTPS végpontokat tesznek elérhetővé az inferencia-kérések fogadásához. A gRPC szerverek alacsonyabb késleltetést kínálnak a belső mikroszolgáltatások kommunikációjához. A kötegelt inferencia-rendszerek egyszerre több kérést dolgoznak fel a hatékonyság maximalizálásához. A streaming inferencia valós idős adatfolyamokat támogat.

Skálázás és optimalizálás

A horizontális skálázás párhuzamosan futó modellinferencia-példányokat futtat a forgalom kezeléséhez. A modelloptimalizációk — kvantálás, destilláció, ONNX konverzió — csökkentik az egy kérésre jutó számítási költséget. A GPU-megosztás lehetővé teszi több kisebb modell futtatását egy GPU-n az erőforrás-felhasználás javítása érdekében.

Mi a model serving?

Serving infrastruktúra

Skálázás és optimalizálás

Kapcsolódó fogalmak