Mudeli inferents ja serveerimine (Model Serving)

Mis on mudeli serveerimine?

Mudeli serveerimine on protsess, mille käigus ML mudelid muutuvad kättesaadavaks rakenduste poolt saadetavate päringute teenindamiseks. Erinevalt treenimisest, mis on partii arvutusülesanne, pakub serveerimine nõudmisel reaalajalist inferentsi, mis nõuab kõrget kättesaadavust, madalat latentsust ja piisavat läbilaskevõimet.

Serveerimise infrastruktuur

REST API serverid paljastavad HTTP/HTTPS lõpp-punktid inferentsipäringute vastuvõtmiseks. gRPC serverid pakuvad madalamat latentsust sisemsete mikroteenuste kommunikatsiooniks. Partiinferentsisüsteemid töötlevad korraga mitut päringut. Voogimis-inferents toetab reaalajas andmevoogusid.

Skaleerimis ja optimeerimine

Horisontaalne skaleerimine käivitab paralleelseid mudelite inferentsi eksemplare liikluse käsitlemiseks. Mudeli optimeerimised — kvantiseerimine, destilleerimine, ONNX konverteerimine — vähendavad arvutuslikke kulusid päring kohta.

Mis on mudeli serveerimine?

Serveerimise infrastruktuur

Skaleerimis ja optimeerimine

Seotud mõisted