Tagasi sõnastikku Tehnoloogia

Tehisintellekti inferents

Treenitud tehisintellekti mudeli vastuste genereerimise protsess — tootmisetapp, kus mudel töötleb sisendeid ja tagastab tulemusi.

Mis on inferents?

Inferents on protsess, kus treenitud tehisintellekti mudel töötleb sisendandmeid ja genereerib tulemuse (vastuse, klassifikatsiooni, ennustuse). See on mudeli "kasutamise" etapp — vastupidiselt treenimisele, mis mudeli loob.

Inferentsi kulud ja jõudlus

Tootmises on inferents tehisintellekti domineeriv kulu: iga päring = tokenid = API tasu. Optimeerimine hõlmab: kvantiseerimist (mudeli täpsuse vähendamine, nt fp16 int8-ks — 2x kiirem, 2x odavam), pakktöötlust (päringute grupeerimine), spekulatiivset dekodeerimist ja KV vahemälu.

Lokaalne vs pilve inferents

Lokaalne inferents (ettevõtte serverites) kõrvaldab API kulud ja privaatsusprobleemid, kuid nõuab GPU riistvara. Pilve inferents on paindlik, kuid tekitab kulusid ja vastavusriske. Mitmeastmeline suunamine ühendab mõlemad lähenemised.