MI inference

Kas ir inference?

Inference ir process, kurā apmācīts MI modelis apstrādā ievades datus un ģenerē rezultātu (atbildi, klasifikāciju, prognozi). Tas ir modeļa "izmantošanas" posms — atšķirībā no apmācīšanas, kas to izveido.

Inference izmaksas un veiktspēja

Ražošanā inference ir dominējošās MI izmaksas: katrs pieprasījums = žetoni = API maksa. Optimizācija ietver: kvantizāciju (modeļa precizitātes samazināšana, piemēram, fp16 uz int8 — 2x ātrāk, 2x lētāk), partiju apstrādi (pieprasījumu grupēšana), spekulatīvu dekodēšanu un KV kešu.

Lokāla pret mākoņa inference

Lokāla inference (uz uzņēmuma serveriem) novērš API izmaksas un privātuma bažas, bet prasa GPU aparatūru. Mākoņa inference ir elastīga, bet rada izmaksas un atbilstības riskus. Daudzlīmeņu maršrutēšana apvieno abas pieejas.

Kas ir inference?

Inference izmaksas un veiktspēja

Lokāla pret mākoņa inference

Saistītie termini

Saistītie pakalpojumi un produkti