Vad är inferens?
Inferens är processen där en tränad AI-modell bearbetar indata och genererar ett resultat (svar, klassificering, förutsägelse). Detta är modellens "användningsfas" — till skillnad från träning, som skapar den.
Inferenskostnader och prestanda
I produktion är inferens den dominerande AI-kostnaden: varje fråga = tokens = API-avgift. Optimering inkluderar: kvantisering (minskning av modellprecision, t.ex. fp16 till int8 — 2x snabbare, 2x billigare), batching (gruppering av frågor), speculative decoding och KV cache.
Lokal vs molnbaserad inferens
Lokal inferens (på företagsservrar) eliminerar API-kostnader och integritetsproblem men kräver GPU-hårdvara. Molnbaserad inferens är flexibel men genererar kostnader och efterlevnadsrisker. Flernivårouting kombinerar båda tillvägagångssätten.