Terug naar woordenlijst Technologie

AI-inferentie

Het proces van het genereren van antwoorden door een getraind AI-model — de productiefase waarin het model invoer verwerkt en resultaten retourneert.

Wat is inferentie?

Inferentie is het proces waarbij een getraind AI-model invoerdata verwerkt en een resultaat genereert (antwoord, classificatie, voorspelling). Dit is de "gebruiksfase" van het model — in tegenstelling tot training, die het creëert.

Inferentiekosten en -prestaties

In productie is inferentie de dominante AI-kostenpost: elke query = tokens = API-tarief. Optimalisatie omvat: kwantisatie (verminderen van modelprecisie, bijv. fp16 naar int8 — 2x sneller, 2x goedkoper), batching (groeperen van queries), speculative decoding en KV cache.

Lokale vs cloud-inferentie

Lokale inferentie (op bedrijfsservers) elimineert API-kosten en privacyzorgen, maar vereist GPU-hardware. Cloud-inferentie is flexibel maar genereert kosten en compliancerisico's. Multi-tier routing combineert beide benaderingen.

Gerelateerde diensten en producten