Kas yra inferencija?
Inferencija — tai procesas, kuriame apmokytas DI modelis apdoroja įvesties duomenis ir sugeneruoja rezultatą (atsakymą, klasifikaciją, prognozę). Tai modelio "naudojimo" etapas — priešingai nei mokymas, kuris jį sukuria.
Inferencijos išlaidos ir našumas
Gamyboje inferencija yra vyraujanti DI kaina: kiekviena užklausa = žetonai = API mokestis. Optimizavimas apima: kvantizavimą (modelio tikslumo sumažinimas, pvz., fp16 į int8 — 2x greičiau, 2x pigiau), paketinį apdorojimą (užklausų grupavimas), spekuliatyvinį dekodavimą ir KV talpyklą.
Vietinė ir debesijos inferencija
Vietinė inferencija (įmonės serveriuose) pašalina API išlaidas ir privatumo problemas, bet reikalauja GPU techninės įrangos. Debesijos inferencija yra lanksčiau, bet sukelia išlaidas ir atitikties rizikas. Daugiapakopis maršrutizavimas derina abu metodus.