Vietiniai LLM modeliai įmonėje — Llama, Mistral, Bielik ar debesis?

Rinkos būklė 2026 metais

Prieš trejus metus kokybės skirtumas tarp geriausio debesies modelio (GPT-4, Claude Opus) ir geriausio atvirojo kodo modelio buvo milinis. 2026 metais šis atotrūkis praktikai užsidarė daugumoje verslo taikymų. Llama 3.1 405B, Mistral Large, lenkiškas Bielik 11B, Qwen 2.5 — tai modeliai, kurie reasoning, kodavimo, dokumentų analizės ar lenkų kalbos apdorojimo benchmarkuose pasiekia palyginimus su debesies modeliais.

Be to, daugeliui enterprise taikymų 8-13B modeliai yra ne tik pakankami, bet ir optimalūs. El. laiškų klasifikacija, duomenų ištraukimas iš sąskaitų, santraukų generavimas, baziniai atsakymai klientų aptarnavime — šiose užduotyse vietinis Bielik savame GPU serveryje duoda rezultatus, neatskiriamus nuo Claude Haiku, su nuline sąnaudo už tokeną.

Kada vietinis modelis apsimoka

Sprendimas vietinis vs debesies LLM turi kelias dimensijas. Svarbiausios:

Užklausų tūris — break-even taškas su dabartine infrastruktūra (serveris su GPU H100 80GB ~120 tūkst. PLN, arba spot DataCrunch ~3 tūkst. PLN/mėn.) yra apie 50-100 mln. tokenų per mėnesį. Aukščiau — on-prem pigesnis. Žemiau — debesis.
Duomenų jautrumas — duomenims, kuriems taikomas GDPR, profesinė paslaptis (advokatų kontoros, auditoriai, sveikatos apsauga) arba kliento konfidencialumo sąlyga, vietiniai LLM pašalina riziką, susijusią su duomenų siuntimu debesies tiekėjui.
Latencija — vietinis modelis tame pačiame duomenų centre kaip ir aplikacija: 50-200 ms. Debesis: 500-2000 ms (priklausomai nuo regiono ir eilės). Realaus laiko aplikacijoms skirtumas yra fundamentalus.
Compliance ir duomenų suverenumas — NIS2, ISO 27001, sektoriniai reglamentai (KNF, UODO) reikalavimai vis dažniau pirmenybę teikia ar reikalauja vietinio duomenų apdorojimo.

Modelių klasės ir jų taikymai

Atvirojo kodo modeliai nėra monolitas — jie skiriasi dydžiu, specializacija, gimtąja kalba, licencija. Praktinė apžvalga:

Maži modeliai (3-8B): Llama 3.2 3B, Phi-3 Mini, Gemma 7B. Veikia vienoje 16-24GB GPU kortoje arba net CPU. Klasifikacija, embeddingai, paprasta užklausų klasifikacija, rerouting.
Vidutiniai modeliai (8-15B): Llama 3.1 8B, Bielik 11B (geriausias lenkas modelis), Mistral 7B/Nemo. Veikia vienoje 24-48GB GPU kortoje. RAG, trumpų tekstų generavimas, dokumentų analizė, customer support.
Dideli modeliai (30-70B): Llama 3.1 70B, Mistral Large, Command-R+. Reikalauja 2x GPU arba 80GB kortų (H100, A100). Sudėtingas reasoning, kodavimas, ilgų dokumentų analizė, teisinis draftinimas.
Labai dideli modeliai (300B+): Llama 3.1 405B, DeepSeek V3 671B. Reikalauja klasterių 4-8x H100/H200. Dažniausiai pateisinami tik prie labai didelių tūrių arba sunkiausioms užduotims.

Infrastruktūra — ko konkrečiai reikia

Minimali produkcinė konfigūracija vidutinei įmonei (iki 1000 užklausų/dieną, 8-13B modelis):

Serveris su GPU — pvz. RTX 4090 24GB (~12 tūkst. PLN), L40S 48GB (~50 tūkst. PLN), arba dedikuotas serveris su H100 80GB. Spot DataCrunch ar Vast.ai — nuo 2-3 tūkst. PLN/mėn. už H100.
Runtime — Ollama (paprasiausias, bet nėra QoS), vLLM (produkcinis, batch processing), TGI iš HuggingFace (kompromisas). Ollama pakanka mažesnėms komandoms.
Proxy / routing — nuosavas LLM proxy, atsakingas už eilavimą, retry, fallback, metrikas. ESKOM AI naudoja nuosavą proxy su 8 lygių routingą (vietinis pigiausias → cloud Opus sunkiausiems).
Monitoring — Prometheus + Grafana GPU metrikoms (panaudojimas, temperatūra), latencijai, sąnaudai už užklausą, atsakymų kokybei.
Backup ir modelių rotacija — modeliai atsinaujina — reikia palaikyti fine-tuning procesą ar reguliarų naujų versijų atsisiuntimą.

Kada vis dar apsimoka debesis

Debesies modeliai neišnyko ir vis dar turi prasmingą vietą enterprise architektūroje:

Sunkiausios užduotys — Claude Opus ir GPT-5 (kai išeis) vis dar geresni labai sudėtingam reasoning, ilgam kontekstui (1M+ tokenų), „agentic” multistep užduotims.
Maži tūriai — startuoliui su 10 tūkst. užklausų/mėn. nereikia savo GPU. Pay-per-token debesyje kainuos pavienius tūkstančius zloty per mėnesį — pigiau nei infrastruktūros palaikymas.
Sezoniškumas — kai srautas labai nepastovus, autoskaling debesies LLM išvengs neaktyvių GPU sąnaudų.
Multimodalumas — naujausi multimodaliniai modeliai (vaizdas, garsas, video) dažnai prieinami pirmiau debesyje.

Hibridas — dažniausias atsakymas

Praktikoje dauguma įmonių, gerai įdiegiančių DI, kuria hibridinį stack:

Vietinis Llama 3.2 3B — klasifikacija, routing, paprastas duomenų ištraukimas. 80% tūrio.
Vietinis Bielik 11B arba Llama 3.1 8B — RAG, trumpų turiniu generavimas, customer support PL/EN. 15% tūrio.
Vietinis Llama 3.1 70B — sudėtingos analizės, kodavimas. 4% tūrio.
Cloud Claude Opus / Sonnet — sunkiausi klausimai, ilgas kontekstas, aukščiausia kokybė. 1% tūrio.

8 lygių routing automatiškai sprendžia, kuris modelis aptarnaus duotą užklausą, remdamasis aptiktu sudėtingumu, kalba, kontekstu. Mūsų HybridCrew platformoje toks routing leidžia sumažinti vidutinę užklausos sąnaudą 70%, palyginti su „viskas per Opus” sprendimu, išlaikant pilnaą kokybę ten, kur ji reikalinga.

Išvados sprendėjams

Klausimas „vietinis LLM ar debesis” 2026 metais nebepriklauso vien viena ar kita kategorijai. Geriausios architektūros yra hibridinės ir adaptyvios — naudoja vietinius modelius ten, kur apsimoka, debesies ten, kur būtina. Įmonės su jautriais duomenimis (advokatų kontoros, finansų sektorius, sveikatos apsauga, administracija) turėtų pradėti kurti vietinės DI kompetencijas jau dabar — per 12-24 mėnesius tai nustos būti konkurenciniu pranaumu ir taps higiena.

Vietiniai LLM modeliai įmonėje &mdash; Llama, Mistral, Bielik ar debesis?