Problém nákladů v podnikovém AI
Když provozujete desítky AI agentů zpracovávajících tisíce požadavků denně, náklady na API se rychle sčítají. Jediné volání prémiového modelu může stát 10–50× více než lehký lokální model. Přesto většina podniků buď směruje vše přes drahý model (plýtvání rozpočtem), nebo používá levný model pro vše (obětování kvality). Ani jeden přístup nefunguje ve větším měřítku.
V ESKOM.AI jsme tento problém vyřešili pomocí 8-úrovňového směrování LLM — systému, který automaticky přiřazuje každý požadavek nákladově nejefektivnějšímu modelu schopnému ho zpracovat. Výsledek: 70% snížení nákladů oproti směrování všeho přes model nejvyšší úrovně, bez měřitelného poklesu kvality výstupu pro produkční úkoly.
Jak funguje 8-úrovňové směrování
Každý příchozí požadavek je analyzován z hlediska složitosti, doménových požadavků a požadované kvality výstupu před tím, než dosáhne jakéhokoli LLM. Směrovací engine zohledňuje počet tokenů, hloubku uvažování, požadavky na používání nástrojů a kvalitativní práh žádajícího agenta. Zde je zjednodušený přehled našich úrovní:
- Úroveň 1 (zdarma) — lehké open-source modely běžící lokálně. Zpracovává jednoduché klasifikace, extrakci klíčových slov a formátování dat. Nulové náklady na API.
- Úrovně 2–3 (nízké náklady) — větší open-source modely (8B–70B parametrů) na lokálním GPU. Vhodné pro sumarizaci, překlad a extrakci strukturovaných dat.
- Úrovně 4–5 (střední) — cloudové modely střední třídy. Vyvážený poměr ceny a výkonu pro většinu obchodních úkolů.
- Úrovně 6–7 (vysoké) — pokročilé cloudové modely. Komplexní uvažování, víceúrovňová analýza, generování kódu.
- Úroveň 8 (prémiová) — nejlepší prémiové modely. Vyhrazeno pro kritická rozhodnutí: právní analýza, finanční modelování, architektonický návrh, výstupy pro CEO.
Inteligence za směrováním
Rozhodnutí o směrování není jednoduché vyhledávání klíčových slov. Náš klasifikátor hodnotí každý požadavek napříč více dimenzemi: složitost uvažování, faktická přesnost, formát výstupu a obchodní kritičnost. Samotný klasifikátor běží na lehkém modelu a přidává zanedbatelnou latenci.
Agenti mohou přepsat router. Když náš CFO agent zpracovává čtvrtletní finanční zprávu, vždy eskaluje na úroveň 7–8 bez ohledu na zdánlivou složitost. Doménově specifická přepsání zajišťují, že obchodní kontext trumfuje algoritmickou klasifikaci.
Měření toho, na čem záleží
Efektivitu směrování sledujeme pomocí tří metrik: náklady na vyřešený úkol (ne na volání API), skóre kvality (lidsky hodnocený vzorek výstupů) a míra eskalace (jak často je odpověď nižší úrovně zamítnuta a přesměrována výše). Po šesti měsících v produkci je naše míra eskalace pod 3 %, což znamená, že router správně identifikuje správnou úroveň v 97 % případů. Pro podniky zvažující multi-modelové strategie je ponaučení jasné: inteligentní směrování není volitelné — je to rozdíl mezi udržitelným provozem AI a nekontrolovanými náklady.