Czym jest inferencja?
Inferencja (ang. inference, wnioskowanie) to proces, w którym wytrenowany model AI przetwarza dane wejściowe i generuje wynik (odpowiedź, klasyfikację, predykcję). To etap "używania" modelu — w odróżnieniu od treningu, który go tworzy.
Koszty i wydajność inferencji
W środowisku produkcyjnym inferencja to dominujący koszt AI: każde zapytanie = tokeny = opłata API. Optymalizacja obejmuje: kwantyzację (zmniejszenie precyzji modelu np. z fp16 do int8 — 2x szybciej, 2x taniej), batching (grupowanie zapytań), speculative decoding (szybki model "zgaduje", duży weryfikuje) i KV cache (cache kluczy/wartości dla powtarzalnych kontekstów).
Inferencja lokalna vs chmurowa
Inferencja lokalna (na firmowych serwerach) eliminuje koszty API i problemy z prywatnością, ale wymaga sprzętu GPU. Inferencja chmurowa jest elastyczna, ale generuje koszty i ryzyka compliance. Routing wielopoziomowy łączy oba podejścia: proste zapytania lokalnie, złożone w chmurze.