Hvad er inferens?
Inferens er processen, hvor en trænet AI-model behandler inputdata og genererer et resultat (svar, klassificering, forudsigelse). Dette er modellens "brugsfase" — i modsætning til træning, der skaber den.
Inferensomkostninger og ydeevne
I produktion er inferens den dominerende AI-omkostning: hver forespørgsel = tokens = API-gebyr. Optimering inkluderer: kvantisering (reduktion af modelpræcision, f.eks. fp16 til int8 — 2x hurtigere, 2x billigere), batching (gruppering af forespørgsler), speculative decoding og KV cache.
Lokal vs cloud-inferens
Lokal inferens (på virksomhedsservere) eliminerer API-omkostninger og privatlivsbekymringer, men kræver GPU-hardware. Cloud-inferens er fleksibel, men genererer omkostninger og compliancerisici. Flerniveaurouting kombinerer begge tilgange.