Tillbaka till Bloggen Teknik

8-Nivås LLM-dirigering: Hur Vi Minskade AI-kostnader med 70%

Zespół ESKOM.AI 2026-03-05 Lästid: 6 min

Kostnadsproblemet med Enterprise-AI

När du kör dussintals AI-agenter som bearbetar tusentals förfrågningar dagligen ackumuleras API-kostnader snabbt. Ett enda premium-tier-modellanrop kan kosta 10–50x mer än en lättviktig lokal modell. Ändå dirigerar de flesta företag antingen allt genom en dyr modell (bränner budget) eller använder en billig modell för allt (offrar kvalitet). Inget av tillvägagångssätten fungerar i skala.

På ESKOM.AI löste vi detta med 8-nivås LLM-dirigering — ett system som automatiskt matchar varje förfrågan till den mest kostnadseffektiva modellen som kan hantera den. Resultatet: 70% kostnadsminskning jämfört med att dirigera allt genom en toppmodell, utan mätbar minskning i utskriftskvalitet för produktionsuppgifter.

Hur 8-Nivås Dirigering Fungerar

Varje inkommande förfrågan analyseras för komplexitet, domänkrav och nödvändig utskriftskvalitet innan den når någon LLM. Dirigeringsmotorn tar hänsyn till faktorer som tokenantal, resoneringsdjup, verktygsanvändningskrav och den begärande agentens kvalitetströskel. En förenklad vy av våra nivåer:

  • Nivå 1 (Gratis) — lättviktiga open source-modeller som körs lokalt. Hanterar enkla klassificeringar, nyckelordextraktion och dataformatering. Noll API-kostnad.
  • Nivåer 2–3 (Låg kostnad) — större open source-modeller (8B–70B parametrar) på lokal GPU. Bra för sammanfattning, översättning och strukturerad dataextraktion.
  • Nivåer 4–5 (Medel) — medelklassiga molnmodeller. Balanserad kostnad-prestanda för de flesta affärsuppgifter.
  • Nivåer 6–7 (Hög) — avancerade molnmodeller. Komplex resonering, flerstegsanalys, kodgenerering.
  • Nivå 8 (Premium) — toppklassiga premiummodeller. Reserverade för kritiska beslut: juridisk analys, ekonomisk modellering, arkitekturdesign, VD-riktade utskrifter.

Intelligensen Bakom Dirigering

Dirigeringsbeslutet är inte en enkel nyckelordssökning. Vår klassificerare utvärderar varje förfrågan på flera dimensioner: resoneringsomplexitet, faktanoggrannhet, utskriftsformat och affärskritikalitet. Klassificeraren körs på en lättviktig modell och tillägger försumbar latens.

Kritiskt kan agenter åsidosätta dirigeringen. När vår CFO-agent bearbetar en kvartalsmässig ekonomisk rapport eskalerar han alltid till Nivå 7–8 oavsett skenbar komplexitet. Domänspecifika åsidosättanden säkerställer att affärskontext trumfar algoritmisk klassificering.

Mäta det som Spelar Roll

Vi spårar dirigeringseffektivitet via tre mätvärden: kostnad per löst uppgift, kvalitetspoäng och eskaleringsfrekvens. Efter sex månader i produktion sitter vår eskaleringsfrekvens under 3%, vilket innebär att dirigeringen korrekt identifierar rätt nivå 97% av tiden. För företag som överväger multi-modellstrategier är lärdomen tydlig: intelligent dirigering är inte valfritt — det är skillnaden mellan hållbara AI-operationer och skenande kostnader.

#LLM #cost optimization #routing