Mi a model serving?
A model serving az a folyamat, amelynek során ML-modellek elérhetővé válnak az alkalmazások által elküldhető kérések kiszolgálásához. A betanítástól eltérően, amely kötegelt számítási feladat, a serving igény szerinti, valós idős inferenciát kínál, amely megköveteli a magas rendelkezésre állást, alacsony késleltetést és megfelelő áteresztőképességet.
Serving infrastruktúra
A REST API szerverek HTTP/HTTPS végpontokat tesznek elérhetővé az inferencia-kérések fogadásához. A gRPC szerverek alacsonyabb késleltetést kínálnak a belső mikroszolgáltatások kommunikációjához. A kötegelt inferencia-rendszerek egyszerre több kérést dolgoznak fel a hatékonyság maximalizálásához. A streaming inferencia valós idős adatfolyamokat támogat.
Skálázás és optimalizálás
A horizontális skálázás párhuzamosan futó modellinferencia-példányokat futtat a forgalom kezeléséhez. A modelloptimalizációk — kvantálás, destilláció, ONNX konverzió — csökkentik az egy kérésre jutó számítási költséget. A GPU-megosztás lehetővé teszi több kisebb modell futtatását egy GPU-n az erőforrás-felhasználás javítása érdekében.