Inference AI

Co je inference?

Inference je proces, při kterém natrénovaný AI model zpracovává vstupní data a generuje výsledek (odpověď, klasifikaci, predikci). Jedná se o fázi „používání" modelu — na rozdíl od trénování, které ho vytváří.

Náklady a výkon inference

V produkci je inference dominantním nákladem AI: každý dotaz = tokeny = poplatek za API. Optimalizace zahrnuje: kvantizaci (snížení přesnosti modelu, např. z fp16 na int8 — 2× rychlejší, 2× levnější), batching (seskupování dotazů), spekulativní dekódování a KV cache.

Lokální vs cloudová inference

Lokální inference (na firemních serverech) eliminuje náklady na API a obavy o soukromí, ale vyžaduje GPU hardware. Cloudová inference je flexibilní, ale generuje náklady a rizika souladu. Víceúrovňové směrování kombinuje oba přístupy.

Co je inference?

Náklady a výkon inference

Lokální vs cloudová inference

Související pojmy

Související služby a produkty