Späť na slovník Technológie

Inferencia AI

Proces generovania odpovedí natrénovaným AI modelom — produkčná fáza, kde model spracúva vstupy a vracia výsledky.

Čo je inferencia?

Inferencia je proces, pri ktorom natrénovaný AI model spracúva vstupné dáta a generuje výsledok (odpoveď, klasifikáciu, predikciu). Ide o fázu „používania" modelu — na rozdiel od trénovania, ktoré ho vytvára.

Náklady a výkon inferencie

V produkcii je inferencia dominantným nákladom AI: každý dotaz = tokeny = poplatok za API. Optimalizácia zahŕňa: kvantizáciu (zníženie presnosti modelu, napr. z fp16 na int8 — 2× rýchlejšie, 2× lacnejšie), batching (zoskupovanie dotazov), špekulatívne dekódovanie a KV cache.

Lokálna vs cloudová inferencia

Lokálna inferencia (na firemných serveroch) eliminuje náklady na API a obavy o súkromie, ale vyžaduje GPU hardvér. Cloudová inferencia je flexibilná, ale generuje náklady a riziká súladu. Viacúrovňové smerovanie kombinuje oba prístupy.