Mis on mudeli serveerimine?
Mudeli serveerimine on protsess, mille käigus ML mudelid muutuvad kättesaadavaks rakenduste poolt saadetavate päringute teenindamiseks. Erinevalt treenimisest, mis on partii arvutusülesanne, pakub serveerimine nõudmisel reaalajalist inferentsi, mis nõuab kõrget kättesaadavust, madalat latentsust ja piisavat läbilaskevõimet.
Serveerimise infrastruktuur
REST API serverid paljastavad HTTP/HTTPS lõpp-punktid inferentsipäringute vastuvõtmiseks. gRPC serverid pakuvad madalamat latentsust sisemsete mikroteenuste kommunikatsiooniks. Partiinferentsisüsteemid töötlevad korraga mitut päringut. Voogimis-inferents toetab reaalajas andmevoogusid.
Skaleerimis ja optimeerimine
Horisontaalne skaleerimine käivitab paralleelseid mudelite inferentsi eksemplare liikluse käsitlemiseks. Mudeli optimeerimised — kvantiseerimine, destilleerimine, ONNX konverteerimine — vähendavad arvutuslikke kulusid päring kohta.