Tillbaka till ordlistan Teknik

AI-inferens

Processen att generera svar med en tränad AI-modell — produktionsfasen där modellen bearbetar indata och returnerar resultat.

Vad är inferens?

Inferens är processen där en tränad AI-modell bearbetar indata och genererar ett resultat (svar, klassificering, förutsägelse). Detta är modellens "användningsfas" — till skillnad från träning, som skapar den.

Inferenskostnader och prestanda

I produktion är inferens den dominerande AI-kostnaden: varje fråga = tokens = API-avgift. Optimering inkluderar: kvantisering (minskning av modellprecision, t.ex. fp16 till int8 — 2x snabbare, 2x billigare), batching (gruppering av frågor), speculative decoding och KV cache.

Lokal vs molnbaserad inferens

Lokal inferens (på företagsservrar) eliminerar API-kostnader och integritetsproblem men kräver GPU-hårdvara. Molnbaserad inferens är flexibel men genererar kostnader och efterlevnadsrisker. Flernivårouting kombinerar båda tillvägagångssätten.

Relaterade tjänster och produkter