Zurueck zum Blog Technologie

8-Stufen-LLM-Routing: Wie wir AI-Kosten um 70 % gesenkt haben

Zespół ESKOM.AI 2026-03-05 Lesezeit: 6 min

Das Kostenproblem bei Enterprise-AI

Wenn Sie Dutzende von AI-Agenten betreiben, die taeglich Tausende von Anfragen verarbeiten, summieren sich die API-Kosten schnell. Ein einzelner Premium-Modell-Aufruf kann 10-50-mal mehr kosten als ein leichtgewichtiges lokales Modell. Bei ESKOM.AI haben wir dieses Problem mit 8-Stufen-LLM-Routing geloest - einem System, das jede Anfrage automatisch dem kosteneffizientesten Modell zuordnet. Das Ergebnis: 70 % Kostensenkung gegenueber der Weiterleitung aller Anfragen an ein Top-Tier-Modell.

So funktioniert das 8-Stufen-Routing

Jede eingehende Anfrage wird auf Komplexitaet, Domaenenanforderungen und erforderliche Ausgabequalitaet analysiert. Hier ist eine vereinfachte Uebersicht unserer Stufen:

  • Stufe 1 (Kostenlos) - leichtgewichtige Open-Source-Modelle, die lokal laufen. Verarbeitet einfache Klassifizierungen, Keyword-Extraktion. Null API-Kosten.
  • Stufen 2-3 (Guenstig) - groessere Open-Source-Modelle (8B-70B Parameter) auf lokaler GPU.
  • Stufen 4-5 (Mittel) - Mid-Tier-Cloud-Modelle fuer die meisten Geschaeftsaufgaben.
  • Stufen 6-7 (Hoch) - Fortgeschrittene Cloud-Modelle fuer komplexes Reasoning und Code-Generierung.
  • Stufe 8 (Premium) - Top-Tier-Premium-Modelle fuer kritische Entscheidungen: Rechtsanalyse, Finanzmodellierung.

Die Intelligenz hinter dem Routing

Die Routing-Entscheidung ist keine einfache Schluesselwortsuche. Unser Klassifizierer bewertet jede Anfrage in mehreren Dimensionen: Reasoning-Komplexitaet, faktische Praezision, Ausgabeformat und Geschaeftskritikalitaet. Agenten koennen den Router uebersteuern.

Das Wesentliche messen

Wir verfolgen die Routing-Effektivitaet anhand von drei Metriken: Kosten pro geloester Aufgabe, Qualitaetsscore und Eskalationsrate. Nach sechs Monaten in der Produktion liegt unsere Eskalationsrate unter 3 %.

#LLM #cost optimization #routing