Wat is inferentie?
Inferentie is het proces waarbij een getraind AI-model invoerdata verwerkt en een resultaat genereert (antwoord, classificatie, voorspelling). Dit is de "gebruiksfase" van het model — in tegenstelling tot training, die het creëert.
Inferentiekosten en -prestaties
In productie is inferentie de dominante AI-kostenpost: elke query = tokens = API-tarief. Optimalisatie omvat: kwantisatie (verminderen van modelprecisie, bijv. fp16 naar int8 — 2x sneller, 2x goedkoper), batching (groeperen van queries), speculative decoding en KV cache.
Lokale vs cloud-inferentie
Lokale inferentie (op bedrijfsservers) elimineert API-kosten en privacyzorgen, maar vereist GPU-hardware. Cloud-inferentie is flexibel maar genereert kosten en compliancerisico's. Multi-tier routing combineert beide benaderingen.