Was ist Inferenz?
Inferenz ist der Prozess, bei dem ein trainiertes KI-Modell Eingabedaten verarbeitet und ein Ergebnis generiert (Antwort, Klassifizierung, Vorhersage). Dies ist die „Nutzungs“-Phase des Modells — im Gegensatz zum Training, das es erstellt.
Inferenzkosten und -leistung
In der Produktion ist Inferenz der dominierende KI-Kostenfaktor: jede Anfrage = Token = API-Gebühr. Optimierungen umfassen: Quantisierung (Reduzierung der Modellpräzision, z. B. fp16 auf int8 — 2x schneller, 2x günstiger), Batching (Bündelung von Anfragen), Speculative Decoding und KV Cache.
Lokale vs. Cloud-Inferenz
Lokale Inferenz (auf Unternehmensservern) eliminiert API-Kosten und Datenschutzbedenken, erfordert aber GPU-Hardware. Cloud-Inferenz ist flexibel, generiert aber Kosten und Compliance-Risiken. Mehrstufiges Routing kombiniert beide Ansätze.