8-niveau LLM-routing: Sådan reducerede vi AI-omkostningerne med 70 %

Omkostningsproblemet med enterprise-AI

Når du kører snesevis af AI-agenter, der behandler tusindvis af forespørgsler dagligt, løber API-omkostningerne hurtigt op. Et enkelt kald til en premium-model kan koste 10–50 gange mere end en letvægts lokal model. Alligevel vælger de fleste virksomheder enten at sende alt gennem en dyr model (brænde budgettet) eller bruge en billig model til alt (ofre kvaliteten). Ingen tilgang fungerer i stor skala.

Hos ESKOM.AI løste vi dette med 8-niveau LLM-routing — et system, der automatisk matcher hver forespørgsel med den mest omkostningseffektive model, der kan håndtere den. Resultatet: 70 % omkostningsreduktion sammenlignet med at sende alt gennem en topmodel, uden målbart fald i outputkvaliteten for produktionsopgaver.

Sådan fungerer 8-niveau-routing

Hver indkommende forespørgsel analyseres for kompleksitet, domænekrav og påkrævet outputkvalitet, før den når nogen sprogmodel. Routingmotoren tager højde for faktorer som tokenantal, ræsonnementsdybde, krav til brug af værktøjer og den anmodende agents kvalitetstærskel. Her er en forenklet oversigt over vores niveauer:

Niveau 1 (Gratis) — letvægts open source-modeller, der kører lokalt. Håndterer simple klassifikationer, søgeordsudtræk og dataformatering. Nul API-omkostninger.
Niveauer 2–3 (Lav pris) — større open source-modeller (8B–70B parametre) på lokal GPU. Gode til opsummering, oversættelse og udtræk af strukturerede data.
Niveauer 4–5 (Middel) — cloud-modeller på midterniveau. Afbalanceret pris-ydeevne til de fleste forretningsopgaver.
Niveauer 6–7 (Høj) — avancerede cloud-modeller. Kompleks ræsonnering, flertrins-analyse, kodegenerering.
Niveau 8 (Premium) — topklasse premium-modeller. Reserveret til kritiske beslutninger: juridisk analyse, finansiel modellering, arkitekturdesign, CEO-rettede output.

Intelligensen bag routing

Routingbeslutningen er ikke et simpelt søgeordsopslag. Vores klassifikator evaluerer hver forespørgsel på tværs af flere dimensioner: ræsonnementskompleksitet (kræver det chain-of-thought?), faktuel præcision (kan det hallucinere sikkert eller skal det være nøjagtigt?), outputformat (fri tekst vs. struktureret JSON) og forretningsmæssig kritikalitet (internt udkast vs. klientvendt dokument). Klassifikatoren kører selv på en letvægtsmodel, hvilket tilføjer ubetydelig latenstid.

Afgørende er det, at agenter kan tilsidesætte routeren. Når vores CFO-agent behandler en kvartalsvis finansiel rapport, eskalerer den altid til niveau 7–8 uanset tilsyneladende kompleksitet. Domænespecifikke tilsidesættelser sikrer, at forretningskontekst trumfer algoritmisk klassifikation.

At måle det der tæller

Vi sporer routingens effektivitet gennem tre målinger: pris pr. løst opgave (ikke pr. API-kald), kvalitetsscore (menneskevurderet stikprøve af output) og eskaleringsrate (hvor ofte et lavere niveausvar afvises og genroutes opad). Efter seks måneder i produktion ligger vores eskaleringsrate under 3 %, hvilket betyder, at routeren korrekt identificerer det rigtige niveau 97 % af tiden. For virksomheder, der overvejer multi-model-strategier, er lærdommen klar: intelligent routing er ikke valgfri — det er forskellen mellem bæredygtige AI-operationer og eskalerende omkostninger.

8-niveau LLM-routing: Sådan reducerede vi AI-omkostningerne med 70 %

Omkostningsproblemet med enterprise-AI

Sådan fungerer 8-niveau-routing

Intelligensen bag routing

At måle det der tæller

Relaterede tjenester og produkter