Mi az inferencia?
Az inferencia az a folyamat, amelyben egy betanított AI-modell feldolgozza a bemeneti adatokat és eredményt generál (választ, osztályozást, előrejelzést). Ez a modell „használati" fázisa — szemben a betanítással, amely létrehozza azt.
Inferenciás költségek és teljesítmény
Éles környezetben az inferencia a domináns AI-költség: minden lekérdezés = tokenek = API-díj. Az optimalizálás magában foglalja: kvantálás (a modell pontosságának csökkentése, pl. fp16-ról int8-ra — 2-szer gyorsabb, 2-szer olcsóbb), kötegelés (lekérdezések csoportosítása), spekulatív dekódolás és KV cache.
Helyi vs felhőalapú inferencia
A helyi inferencia (vállalati szervereken) kiküszöböli az API-költségeket és adatvédelmi aggályokat, de GPU-hardvert igényel. A felhőalapú inferencia rugalmas, de költségeket és megfelelőségi kockázatokat generál. A többszintű routing mindkét megközelítést kombinálja.