Kaj je inferenca?
Inferenca je proces, v katerem naučeni model UI obdela vhodne podatke in ustvari rezultat (odgovor, klasifikacijo, napoved). To je faza "uporabe" modela — v nasprotju z učenjem, ki ga ustvari.
Stroški in zmogljivost inferencje
V produkciji je inferenca prevladujoči strošek UI: vsaka poizvedba = žetoni = taksa za API. Optimizacija vključuje: kvantizacijo (zmanjšanje natančnosti modela, npr. fp16 na int8 — 2-krat hitreje, 2-krat ceneje), paketiranje (združevanje poizvedb), spekulativno dekodiranje in KV cache.
Lokalna vs oblačna inferenca
Lokalna inferenca (na strežnikih podjetja) odpravi stroške API-jev in skrbi glede zasebnosti, a zahteva strojno opremo GPU. Oblačna inferenca je prilagodljiva, a ustvarja stroške in regulativna tveganja. Večstopenjsko usmerjanje združuje oba pristopa.