Kohalikud LLM-mudelid ettevõttes — Llama, Mistral, Bielik või pilv?

Turu seis 2026. aastal

Kolm aastat tagasi oli kvaliteedivahe parima pilvemudeli (GPT-4, Claude Opus) ja parima open-source mudeli vahel tohutu. 2026. aastal on see vahe enamikus ärirakendustes praktiliselt sulgunud. Llama 3.1 405B, Mistral Large, Poola Bielik 11B, Qwen 2.5 — need on mudelid, mis reasoning’i, kodeerimise, dokumentide analüüsi või poola keele käsitlemise benchmark’idel saavutavad pilvemudelitega võrreldavaid tulemusi.

Veelgi enam, paljude ettevõtterakenduste jaoks on 8-13B mudelid mitte ainult piisavad, vaid optimaalsed. E-kirjade klassifitseerimine, andmete eraldamine arvetelt, kokkuvõtete genereerimine, klienditeeninduse põhivastused — nendes ülesannetes annab kohalik Bielik oma GPU-serveris tulemusi, mis ei ole eristatavad Claude Haiku omadest, nulli per-token kuludega.

Millal kohalik mudel tasub

Otsus kohalik vs pilve LLM omab mitu dimensiooni. Kõige olulisemad:

Päringute maht — break-even punkt praeguse infrastruktuuriga (server GPU H100 80GB ~120 tuh. PLN, või spot DataCrunch ~3 tuh. PLN/kuus) on umbes 50-100 mln tokenit kuus. Sellest üle — on-prem odavam. Sellest alla — pilv.
Andmete tundlikkus — andmete jaoks, mis on GDPR alusel, ametisaladuse (advokaadibürood, audiitorid, tervishoid) või kliendi konfidentsiaalsuse klausli all, kõrvaldavad kohalikud LLM-id riski andmete saatmisel pilvepakkujale.
Latentsus — kohalik mudel samas andmekeskuses, kus rakendus: 50-200 ms. Pilv: 500-2000 ms (sõltuvalt regioonist ja järjekorrast). Reaalajarakenduste jaoks on erinevus fundamentaalne.
Vastavus ja andmesuveräänsus — NIS2, ISO 27001 nõuded, sektoripõhised regulatsioonid eelistavad või nõuavad üha sagedamini andmete kohalikku töötlemist.

Mudelite klassid ja nende rakendused

Open-source mudelid pole monoliit — nad erinevad suuruse, spetsialiseerumise, emakeele, litsentsi poolest. Praktiline ülevaade:

Väikesed mudelid (3-8B): Llama 3.2 3B, Phi-3 Mini, Gemma 7B. Töötavad üksiku 16-24GB GPU-kaardil või isegi CPU-l. Klassifitseerimine, embedding’id, päringute lihtne klassifitseerimine, rerouting.
Keskmised mudelid (8-15B): Llama 3.1 8B, Bielik 11B (parim poola mudel), Mistral 7B/Nemo. Töötavad üksiku 24-48GB GPU-kaardil. RAG, lühikeste tekstide genereerimine, dokumentide analüüs, customer support.
Suured mudelid (30-70B): Llama 3.1 70B, Mistral Large, Command-R+. Nõuavad 2x GPU või 80GB kaarti (H100, A100). Keeruline reasoning, kodeerimine, pikkade dokumentide analüüs, juriidiline drafting.
Väga suured mudelid (300B+): Llama 3.1 405B, DeepSeek V3 671B. Nõuavad 4-8x H100/H200 klastrit. Kõige sagedamini õigustatud ainult väga suurte mahtude puhul või kõige raskemate ülesannete jaoks.

Infrastruktuur — mida konkreetselt vaja

Minimaalne produktsioonikonfiguratsioon keskmise ettevõtte jaoks (kuni 1000 päringut/päevas, 8-13B mudel):

Server GPU-ga — nt RTX 4090 24GB (~12 tuh. PLN), L40S 48GB (~50 tuh. PLN), või pühendatud server H100 80GB-ga. Spot DataCrunch’is või Vast.ai-s — alates 2-3 tuh. PLN/kuus H100 eest.
Runtime — Ollama (lihtsaim, kuid ilma QoS-ita), vLLM (produktsiooniline, batch processing), TGI HuggingFace’ilt (kompromiss). Ollama on piisav väiksematele meeskondadele.
Proxy / routing — oma LLM proxy, mis vastutab järjekorra, retry, fallback’i, meetrikate eest. ESKOM AI kasutab oma proxy’t 8-tasemelise routing’iga (kohalik odavaim → cloud Opus kõige raskemate jaoks).
Monitooring — Prometheus + Grafana GPU meetrikate (kasutus, temperatuur), latentsuse, päringu kulu, vastuse kvaliteedi jaoks.
Mudelite varundamine ja rotatsioon — mudelid uuenevad — fine-tuning’i protsessi või uute versioonide regulaarse allalaadimise hooldus.

Millal tasub endiselt pilv

Pilvemudelid pole kadunud ja neil on endiselt mõistlik koht ettevõttearhitektuuris:

Kõige raskemad ülesanded — Claude Opus ja GPT-5 (kui see välja tuleb) on endiselt paremad väga keerulises reasoning’is, pikas kontekstis (1M+ tokenit), „agentic” multistep ülesannetes.
Väikesed mahud — startup’il 10 tuh. päringuga/kuus pole oma GPU-d vaja. Pay-per-token pilves maksab paari tuhandet zlotit kuus — odavam kui infrastruktuuri hooldamine.
Sesoonsus — kui liiklus on väga ebastabiilne, väldib autoscaling pilve LLM seisva GPU kulusid.
Multimodaalsus — uusimad multimodaalsed mudelid (pilt, heli, video) on sageli varem saadaval pilves.

Hübriid — sagedaseim vastus

Praktikas ehitab enamik AI-d hästi juurutavaid ettevõtteid hübriidse stack’i:

Kohalik Llama 3.2 3B — klassifitseerimine, routing, andmete lihtne eraldamine. 80% mahust.
Kohalik Bielik 11B või Llama 3.1 8B — RAG, lühikeste tekstide genereerimine, customer support PL/EN. 15% mahust.
Kohalik Llama 3.1 70B — keerulised analüüsid, kodeerimine. 4% mahust.
Cloud Claude Opus / Sonnet — kõige raskemad küsimused, pikk kontekst, kõrgeim kvaliteet. 1% mahust.

8-tasemeline routing otsustab automaatselt, milline mudel käsitleb konkreetset päringut, tuvastatud keerukuse, keele, konteksti põhjal. Meie platvormil HybridCrew võimaldab selline routing alandada päringu keskmist kulu 70% võrra võrreldes lahendusega „kõik läbi Opus’i” — säilitades täiskvaliteedi seal, kus see vajalik on.

Järeldused otsustajatele

Küsimus „kohalik LLM või pilv” 2026. aastal ei ole enam null-üks küsimus. Parimad arhitektuurid on hübriidsed ja adaptiivsed — kasutavad kohalikke mudeleid seal, kus see tasub, pilve mudeleid seal, kus see vajalik on. Tundlike andmetega ettevõtted (advokaadibürood, finantssektor, tervishoid, haldus) peaksid alustama kohaliku AI kompetentside ülesehitamist juba praegu — 12-24 kuu jooksul ei ole see enam konkurentsieelis, vaid muutub hügieeniks.