Čo je inferencia?
Inferencia je proces, pri ktorom natrénovaný AI model spracúva vstupné dáta a generuje výsledok (odpoveď, klasifikáciu, predikciu). Ide o fázu „používania" modelu — na rozdiel od trénovania, ktoré ho vytvára.
Náklady a výkon inferencie
V produkcii je inferencia dominantným nákladom AI: každý dotaz = tokeny = poplatok za API. Optimalizácia zahŕňa: kvantizáciu (zníženie presnosti modelu, napr. z fp16 na int8 — 2× rýchlejšie, 2× lacnejšie), batching (zoskupovanie dotazov), špekulatívne dekódovanie a KV cache.
Lokálna vs cloudová inferencia
Lokálna inferencia (na firemných serveroch) eliminuje náklady na API a obavy o súkromie, ale vyžaduje GPU hardvér. Cloudová inferencia je flexibilná, ale generuje náklady a riziká súladu. Viacúrovňové smerovanie kombinuje oba prístupy.