8-poziomowy routing LLM: jak obniżyliśmy koszty AI o 70%

Problem kosztów w enterprise AI

Gdy dziesiątki agentów AI przetwarza tysiące zapytań dziennie, koszty API rosną błyskawicznie. Pojedyncze wywołanie modelu premium najwyższej klasy może kosztować 10–50 razy więcej niż lekki model lokalny. Mimo to większość przedsiębiorstw albo kieruje wszystko przez drogi model (przepalając budżet), albo używa taniego modelu do wszystkiego (poświęcając jakość). Żadne podejście nie sprawdza się na dużą skalę.

W ESKOM.AI rozwiązaliśmy to za pomocą 8-poziomowego routingu LLM — systemu, który automatycznie dopasowuje każde zapytanie do najbardziej opłacalnego modelu zdolnego je obsłużyć. Efekt: 70% redukcja kosztów w porównaniu z kierowaniem wszystkiego przez model najwyższej klasy, bez mierzalnego spadku jakości wyników dla zadań produkcyjnych.

Jak działa 8-poziomowy routing

Każde przychodzące zapytanie jest analizowane pod kątem złożoności, wymagań domenowych i oczekiwanej jakości odpowiedzi, zanim trafi do jakiegokolwiek LLM. Silnik routingu uwzględnia takie czynniki jak liczba tokenów, głębokość rozumowania, wymagania dotyczące użycia narzędzi i próg jakości agenta zlecającego. Oto uproszczony widok naszych poziomów:

Poziom 1 (Darmowy) — lekkie modele open-source uruchomione lokalnie. Obsługuje proste klasyfikacje, ekstrakcję słów kluczowych i formatowanie danych. Zero kosztów API.
Poziomy 2–3 (Niski koszt) — Większe modele open-source (8B–70B parametrów) na lokalnym GPU. Dobre do podsumowań, tłumaczeń i ekstrakcji danych strukturalnych.
Poziomy 4–5 (Średni) — Modele chmurowe jak modele chmurowe średniej klasy. Zbalansowany stosunek kosztów do wydajności dla większości zadań biznesowych.
Poziomy 6–7 (Wysoki) — zaawansowane modele chmurowe. Złożone rozumowanie, wieloetapowa analiza, generowanie kodu.
Poziom 8 (Premium) — Modele premium najwyższej klasy. Zarezerwowane dla krytycznych decyzji: analiza prawna, modelowanie finansowe, projektowanie architektury, materiały prezentowane CEO.

Inteligencja stojąca za routingiem

Decyzja routingowa to nie proste wyszukiwanie słów kluczowych. Nasz klasyfikator ocenia każde zapytanie w wielu wymiarach: złożoność rozumowania (czy wymaga chain-of-thought?), precyzja faktyczna (czy może bezpiecznie halucynować, czy musi być dokładny?), format wyjściowy (dowolny tekst vs. strukturalny JSON) i krytyczność biznesowa (wewnętrzny szkic vs. dokument dla klienta). Sam klasyfikator działa na lekkim modelu, dodając zaniedbywalną latencję.

Co kluczowe, agenci mogą nadpisywać decyzje routera. Gdy nasz agent CFO przetwarza kwartalny raport finansowy, zawsze eskaluje do poziomu 7–8, niezależnie od pozornej złożoności. Nadpisania specyficzne dla domeny zapewniają, że kontekst biznesowy ma pierwszeństwo przed klasyfikacją algorytmiczną.

Mierzenie tego, co się liczy

Skuteczność routingu śledzimy za pomocą trzech metryk: koszt na rozwiązane zadanie (nie na wywołanie API), ocena jakości (ludzka ocena próbki wyników) i współczynnik eskalacji (jak często odpowiedź z niższego poziomu jest odrzucana i kierowana wyżej). Po sześciu miesiącach w produkcji nasz współczynnik eskalacji wynosi poniżej 3%, co oznacza, że router prawidłowo identyfikuje właściwy poziom w 97% przypadków. Dla przedsiębiorstw rozważających strategie wielomodelowe lekcja jest jasna: inteligentny routing to nie opcja — to różnica między zrównoważonymi operacjami AI a wymykającymi się spod kontroli kosztami.

8-poziomowy routing LLM: jak obniżyliśmy koszty AI o 70%

Problem kosztów w enterprise AI

Jak działa 8-poziomowy routing

Inteligencja stojąca za routingiem

Mierzenie tego, co się liczy

Powiązane usługi i produkty