Ce este model serving?
Model serving este procesul prin care modelele ML devin disponibile pentru a deservi cererile trimise de aplicații. Spre deosebire de antrenare, care este o sarcină de calcul batch, serving-ul oferă inferență la cerere, în timp real, care necesită disponibilitate ridicată, latență redusă și debite adecvate.
Infrastructura de serving
Serverele REST API expun endpoint-uri HTTP/HTTPS pentru primirea cererilor de inferență. Serverele gRPC oferă latență mai mică pentru comunicarea microserviciilor interne. Sistemele de inferență batch procesează mai multe cereri simultan. Inferența în streaming suportă fluxuri de date în timp real.
Scalare și optimizare
Scalarea orizontală rulează instanțe paralele de inferență a modelelor. Optimizările modelelor — cuantizare, distilare, conversie ONNX — reduc costul computațional per cerere. Partajarea GPU permite rularea mai multor modele mai mici pe un GPU.