Înapoi la glosar MLOps & Ciclul de viață

Inferența modelelor și serving (Model Serving)

Expunerea modelelor AI pentru a deservi solicitările de producție prin infrastructură eficientă și fiabilă care îndeplinește cerințele de producție privind latența, disponibilitatea și scalarea.

Ce este model serving?

Model serving este procesul prin care modelele ML devin disponibile pentru a deservi cererile trimise de aplicații. Spre deosebire de antrenare, care este o sarcină de calcul batch, serving-ul oferă inferență la cerere, în timp real, care necesită disponibilitate ridicată, latență redusă și debite adecvate.

Infrastructura de serving

Serverele REST API expun endpoint-uri HTTP/HTTPS pentru primirea cererilor de inferență. Serverele gRPC oferă latență mai mică pentru comunicarea microserviciilor interne. Sistemele de inferență batch procesează mai multe cereri simultan. Inferența în streaming suportă fluxuri de date în timp real.

Scalare și optimizare

Scalarea orizontală rulează instanțe paralele de inferență a modelelor. Optimizările modelelor — cuantizare, distilare, conversie ONNX — reduc costul computațional per cerere. Partajarea GPU permite rularea mai multor modele mai mici pe un GPU.