Het Kostenprobleem bij Enterprise AI
Wanneer u tientallen AI-agenten hebt die dagelijks duizenden verzoeken verwerken, lopen API-kosten snel op. Een enkele premium-tier model-aanroep kan 10–50x meer kosten dan een lichtgewicht lokaal model. Toch routeren de meeste ondernemingen alles via een duur model (budget verbrandend) of gebruiken een goedkoop model voor alles (kwaliteit opofferend). Geen van beide benaderingen werkt op schaal.
Bij ESKOM.AI hebben we dit opgelost met 8-laags LLM-routing — een systeem dat elk verzoek automatisch koppelt aan het meest kosteneffectieve model dat het kan verwerken. Het resultaat: 70% kostenverlaging vergeleken met alles via een topmodel routeren, zonder meetbare daling in uitvoerkwaliteit voor productietaken.
Hoe 8-Laags Routing Werkt
Elk binnenkomend verzoek wordt geanalyseerd op complexiteit, domeinvereisten en vereiste uitvoerkwaliteit voordat het een LLM bereikt. De routeringsengine houdt rekening met factoren zoals tokenantal, redeneerdiepte, gereedschapsgebruikvereisten en de kwaliteitsdrempel van de verzoekende agent. Een vereenvoudigd overzicht van onze lagen:
- Laag 1 (Gratis) — lichtgewicht open-source modellen die lokaal draaien. Verwerkt eenvoudige classificaties, sleutelwoordextractie en dataopmaak. Nul API-kosten.
- Lagen 2–3 (Lage kosten) — grotere open-source modellen (8B–70B parameters) op lokale GPU. Goed voor samenvatting, vertaling en gestructureerde data-extractie.
- Lagen 4–5 (Gemiddeld) — middelmatige cloudmodellen. Gebalanceerde kosten-prestaties voor de meeste zakelijke taken.
- Lagen 6–7 (Hoog) — geavanceerde cloudmodellen. Complex redeneren, meerstapsanalyse, codegeneratie.
- Laag 8 (Premium) — toplaag premium modellen. Gereserveerd voor kritieke beslissingen: juridische analyse, financiële modellering, architectuurontwerp, CEO-gerichte outputs.
De Intelligentie Achter Routing
De routeringsbeslissing is geen eenvoudige sleutelwoordzoekopdracht. Onze classifier evalueert elk verzoek op meerdere dimensies: redenercomplexiteit, feitelijke precisie, uitvoerformaat en zakelijke kritiekheid. De classifier zelf draait op een lichtgewicht model, wat verwaarloosbare latentie toevoegt.
Cruciaal is dat agenten de router kunnen overschrijven. Wanneer onze CFO-agent een kwartaalfinancieelsrapport verwerkt, escaleert hij altijd naar Laag 7–8 ongeacht de schijnbare complexiteit. Domeinspecifieke overschrijvingen zorgen ervoor dat zakelijke context algoritmische classificatie overstijgt.
Meten wat Telt
We volgen routing-effectiviteit via drie metrics: kosten per opgeloste taak, kwaliteitsscore en escalatierate. Na zes maanden in productie zit onze escalatierate onder de 3%, wat betekent dat de router 97% van de tijd het juiste niveau correct identificeert. Voor ondernemingen die multi-modelstrategieën overwegen, is de les duidelijk: intelligente routing is niet optioneel — het is het verschil tussen duurzame AI-operaties en oncontroleerbare kosten.