Vissza a szójegyzékhez Technológia

AI-inferencia

A betanított AI-modell válaszgenerálásának folyamata — az éles szakasz, amelyben a modell feldolgozza a bemeneteket és visszaadja az eredményeket.

Mi az inferencia?

Az inferencia az a folyamat, amelyben egy betanított AI-modell feldolgozza a bemeneti adatokat és eredményt generál (választ, osztályozást, előrejelzést). Ez a modell „használati" fázisa — szemben a betanítással, amely létrehozza azt.

Inferenciás költségek és teljesítmény

Éles környezetben az inferencia a domináns AI-költség: minden lekérdezés = tokenek = API-díj. Az optimalizálás magában foglalja: kvantálás (a modell pontosságának csökkentése, pl. fp16-ról int8-ra — 2-szer gyorsabb, 2-szer olcsóbb), kötegelés (lekérdezések csoportosítása), spekulatív dekódolás és KV cache.

Helyi vs felhőalapú inferencia

A helyi inferencia (vállalati szervereken) kiküszöböli az API-költségeket és adatvédelmi aggályokat, de GPU-hardvert igényel. A felhőalapú inferencia rugalmas, de költségeket és megfelelőségi kockázatokat generál. A többszintű routing mindkét megközelítést kombinálja.

Kapcsolódó szolgáltatások és termékek