Co je inference?
Inference je proces, při kterém natrénovaný AI model zpracovává vstupní data a generuje výsledek (odpověď, klasifikaci, predikci). Jedná se o fázi „používání" modelu — na rozdíl od trénování, které ho vytváří.
Náklady a výkon inference
V produkci je inference dominantním nákladem AI: každý dotaz = tokeny = poplatek za API. Optimalizace zahrnuje: kvantizaci (snížení přesnosti modelu, např. z fp16 na int8 — 2× rychlejší, 2× levnější), batching (seskupování dotazů), spekulativní dekódování a KV cache.
Lokální vs cloudová inference
Lokální inference (na firemních serverech) eliminuje náklady na API a obavy o soukromí, ale vyžaduje GPU hardware. Cloudová inference je flexibilní, ale generuje náklady a rizika souladu. Víceúrovňové směrování kombinuje oba přístupy.