Kas ir inference?
Inference ir process, kurā apmācīts MI modelis apstrādā ievades datus un ģenerē rezultātu (atbildi, klasifikāciju, prognozi). Tas ir modeļa "izmantošanas" posms — atšķirībā no apmācīšanas, kas to izveido.
Inference izmaksas un veiktspēja
Ražošanā inference ir dominējošās MI izmaksas: katrs pieprasījums = žetoni = API maksa. Optimizācija ietver: kvantizāciju (modeļa precizitātes samazināšana, piemēram, fp16 uz int8 — 2x ātrāk, 2x lētāk), partiju apstrādi (pieprasījumu grupēšana), spekulatīvu dekodēšanu un KV kešu.
Lokāla pret mākoņa inference
Lokāla inference (uz uzņēmuma serveriem) novērš API izmaksas un privātuma bažas, bet prasa GPU aparatūru. Mākoņa inference ir elastīga, bet rada izmaksas un atbilstības riskus. Daudzlīmeņu maršrutēšana apvieno abas pieejas.