KI-Inferenz

Was ist Inferenz?

Inferenz ist der Prozess, bei dem ein trainiertes KI-Modell Eingabedaten verarbeitet und ein Ergebnis generiert (Antwort, Klassifizierung, Vorhersage). Dies ist die „Nutzungs“-Phase des Modells — im Gegensatz zum Training, das es erstellt.

Inferenzkosten und -leistung

In der Produktion ist Inferenz der dominierende KI-Kostenfaktor: jede Anfrage = Token = API-Gebühr. Optimierungen umfassen: Quantisierung (Reduzierung der Modellpräzision, z. B. fp16 auf int8 — 2x schneller, 2x günstiger), Batching (Bündelung von Anfragen), Speculative Decoding und KV Cache.

Lokale vs. Cloud-Inferenz

Lokale Inferenz (auf Unternehmensservern) eliminiert API-Kosten und Datenschutzbedenken, erfordert aber GPU-Hardware. Cloud-Inferenz ist flexibel, generiert aber Kosten und Compliance-Risiken. Mehrstufiges Routing kombiniert beide Ansätze.

Was ist Inferenz?

Inferenzkosten und -leistung

Lokale vs. Cloud-Inferenz

Verwandte Begriffe

Verwandte Dienstleistungen und Produkte