8-razinski LLM routing: Kako smo smanjili troškove AI-ja za 70%

Problem troškova u enterprise AI-ju

Kada pokrenete desetke AI agenata koji obrađuju tisuće zahtjeva dnevno, troškovi API-ja brzo rastu. Jedan poziv modela premium razine može koštati 10–50 puta više od laganog lokalnog modela. Ipak, većina poduzeća ili sve usmjerava kroz skupi model (troši proračun) ili za sve koristi jeftini model (žrtvuje kvalitetu). Nijedan pristup ne funkcionira u velikom obimu.

U ESKOM.AI-u smo to riješili 8-razinskim LLM routingom — sustavom koji automatski usklađuje svaki zahtjev s najisplativijim modelom koji ga može obraditi. Rezultat: smanjenje troškova za 70% u usporedbi s usmjeravanjem svega kroz model vrhunske razine, bez mjerljivog pada kvalitete izlaza za produkcijske zadatke.

Kako funkcionira 8-razinski routing

Svaki dolazni zahtjev analizira se za složenost, domenski zahtjev i potrebnu kvalitetu izlaza prije nego što dođe do bilo kojeg LLM-a. Motor za usmjeravanje razmatra faktore poput broja tokena, dubine zaključivanja, zahtjeva za korištenjem alata i praga kvalitete agenta koji traži. Evo pojednostavljenog prikaza naših razina:

Razina 1 (besplatno) — lagani modeli otvorenog koda koji rade lokalno. Obrađuje jednostavne klasifikacije, ekstrakciju ključnih riječi i formatiranje podataka. Nula troškova API-ja.
Razine 2–3 (nizak trošak) — veći modeli otvorenog koda (8B–70B parametara) na lokalnom GPU-u. Dobri za sažimanje, prevođenje i ekstrakciju strukturiranih podataka.
Razine 4–5 (srednji) — cloud modeli srednje razine. Uravnotežen omjer troška i performansi za većinu poslovnih zadataka.
Razine 6–7 (visoki) — napredni cloud modeli. Složeno zaključivanje, višekoračna analiza, generiranje koda.
Razina 8 (premium) — vrhunski premium modeli. Rezervirani za kritične odluke: pravna analiza, financijsko modeliranje, arhitekturalni dizajn, CEO-ovi materijali.

Inteligencija iza usmjeravanja

Odluka o usmjeravanju nije jednostavno pretraživanje ključnih riječi. Naš klasifikator procjenjuje svaki zahtjev kroz više dimenzija: složenost zaključivanja (treba li lanac misli?), preciznost činjenica (može li halucinirati bezopasno ili mora biti točno?), format izlaza (slobodni tekst vs. strukturirani JSON) i poslovna kritičnost (interni nacrt vs. dokument okrenut klijentu). Sam klasifikator radi na laganom modelu, dodajući zanemarivo kašnjenje.

Kritično, agenti mogu nadjačati router. Kada naš CFO agent obrađuje tromjesečno financijsko izvješće, uvijek eskalira na razinu 7–8 bez obzira na prividnu složenost. Domenski specifična nadjačavanja osiguravaju da poslovni kontekst nadjača algoritmičku klasifikaciju.

Mjerenje onoga što je važno

Pratimo učinkovitost usmjeravanja kroz tri metrike: trošak po riješenom zadatku (ne po pozivu API-ja), ocjena kvalitete (ljudski ocijenjen uzorak izlaza) i stopa eskalacije (koliko često odgovor niže razine biva odbijen i ponovno usmjeren gore). Nakon šest mjeseci u produkciji, naša stopa eskalacije je ispod 3%, što znači da router ispravno identificira pravu razinu u 97% slučajeva. Za poduzeća koja razmatraju strategije višestrukih modela, pouka je jasna: inteligentno usmjeravanje nije opcionalno — to je razlika između održivog AI poslovanja i troškova koji izmaknu kontroli.

8-razinski LLM routing: Kako smo smanjili troškove AI-ja za 70%

Problem troškova u enterprise AI-ju

Kako funkcionira 8-razinski routing

Inteligencija iza usmjeravanja

Mjerenje onoga što je važno

Povezane usluge i proizvodi