Mis on inferents?
Inferents on protsess, kus treenitud tehisintellekti mudel töötleb sisendandmeid ja genereerib tulemuse (vastuse, klassifikatsiooni, ennustuse). See on mudeli "kasutamise" etapp — vastupidiselt treenimisele, mis mudeli loob.
Inferentsi kulud ja jõudlus
Tootmises on inferents tehisintellekti domineeriv kulu: iga päring = tokenid = API tasu. Optimeerimine hõlmab: kvantiseerimist (mudeli täpsuse vähendamine, nt fp16 int8-ks — 2x kiirem, 2x odavam), pakktöötlust (päringute grupeerimine), spekulatiivset dekodeerimist ja KV vahemälu.
Lokaalne vs pilve inferents
Lokaalne inferents (ettevõtte serverites) kõrvaldab API kulud ja privaatsusprobleemid, kuid nõuab GPU riistvara. Pilve inferents on paindlik, kuid tekitab kulusid ja vastavusriske. Mitmeastmeline suunamine ühendab mõlemad lähenemised.