Nazaj na Blog UI in strojno učenje

Lokalni modeli LLM v podjetju — Llama, Mistral, Bielik ali cloud?

Zespół ESKOM.AI 2026-06-09 Čas branja: 8 min

Stanje trga v letu 2026

Pred tremi leti je bila razlika v kakovosti med najboljšim cloud modelom (GPT-4, Claude Opus) in najboljšim odprtokodnim modelom ogromna. V letu 2026 se je ta vrzel praktično zaprla v večini poslovnih aplikacij. Llama 3.1 405B, Mistral Large, poljski Bielik 11B, Qwen 2.5 — to so modeli, ki v benchmarkih reasoning, kodiranja, analize dokumentov ali obravnave poljskega jezika dosegajo rezultate, primerljive z cloud modeli.

Še več, za številne enterprise aplikacije so modeli 8-13B ne le zadostni, temveč optimalni. Klasifikacija e-pošte, ekstrakcija podatkov iz računov, generiranje povzetkov, osnovni odgovori v podpori strankam — v teh nalogah lokalni Bielik na lastnem GPU strežniku daje rezultate, neločljive od Claude Haiku, pri ničelnih stroških per-token.

Kdaj se lokalni model splača

Odločitev lokalni vs cloud LLM ima več dimenzij. Najpomembnejše:

  • Obseg zahtev — točka break-even pri trenutni infrastrukturi (strežnik z GPU H100 80GB ~120 tisoč PLN ali spot DataCrunch ~3 tisoč PLN/mes.) je okoli 50-100 milijonov tokenov mesečno. Nad — on-prem cenejši. Pod — cloud.
  • Občutljivost podatkov — za podatke, ki jih pokriva GDPR, poklicna skrivnost (odvetniške pisarne, revizorji, zdravstvo) ali klavzula o zaupnosti stranke, lokalni LLM-ji odpravljajo tveganje, povezano s pošiljanjem podatkov cloud dobavitelju.
  • Latenca — lokalni model v istem datacentru kot aplikacija: 50-200 ms. Cloud: 500-2000 ms (odvisno od regije in čakalne vrste). Za real-time aplikacije je razlika temeljna.
  • Skladnost in suverenost podatkov — zahteve NIS2, ISO 27001, sektorske regulative (KNF, UODO) vse pogosteje dajejo prednost ali zahtevajo lokalno obdelavo podatkov.

Razredi modelov in njihove aplikacije

Odprtokodni modeli niso monolit — razlikujejo se po velikosti, specializaciji, materni jeziku, licenci. Praktični pregled:

  • Majhni modeli (3-8B): Llama 3.2 3B, Phi-3 Mini, Gemma 7B. Delujejo na eni GPU kartici 16-24GB ali celo na CPU. Klasifikacija, embeddings, preprosta klasifikacija zahtev, rerouting.
  • Srednji modeli (8-15B): Llama 3.1 8B, Bielik 11B (najboljši poljski model), Mistral 7B/Nemo. Delujejo na eni GPU kartici 24-48GB. RAG, generiranje kratkih besedil, analiza dokumentov, customer support.
  • Veliki modeli (30-70B): Llama 3.1 70B, Mistral Large, Command-R+. Zahtevajo 2x GPU ali kartico 80GB (H100, A100). Kompleksen reasoning, kodiranje, analiza dolgih dokumentov, pravno draftanje.
  • Zelo veliki modeli (300B+): Llama 3.1 405B, DeepSeek V3 671B. Zahtevajo klastre 4-8x H100/H200. Najpogosteje upravičeni le pri zelo velikih obsegih ali za najtežje naloge.

Infrastruktura — kaj konkretno potrebujete

Minimalna produkcijska konfiguracija za srednje veliko podjetje (do 1000 zahtev/dan, model 8-13B):

  • Strežnik z GPU — npr. RTX 4090 24GB (~12 tisoč PLN), L40S 48GB (~50 tisoč PLN) ali dedicirani strežnik s H100 80GB. Spot na DataCrunch ali Vast.ai — od 2-3 tisoč PLN/mes. za H100.
  • Runtime — Ollama (najpreprostejši, vendar brez QoS), vLLM (produkcijski, batch processing), TGI od HuggingFace (kompromis). Ollama zadošča za manjše ekipe.
  • Proxy / routing — lasten LLM proxy, odgovoren za uvrščanje v čakalno vrsto, retry, fallback, metrike. ESKOM AI uporablja lasten proxy z 8-stopenjskim routingom (lokalno najcenejše → cloud Opus za najtežje).
  • Monitoring — Prometheus + Grafana za GPU metrike (uporabljenost, temperatura), latenco, strošek na zahtevo, kakovost odgovorov.
  • Backup in rotacija modelov — modeli se posodabljajo — vzdrževanje procesa fine-tuninga ali rednega prenašanja novih različic.

Kdaj se cloud še vedno splača

Cloud modeli niso izginili in še vedno imajo smiselno mesto v enterprise arhitekturi:

  • Najtežje naloge — Claude Opus in GPT-5 (ko bo izšel) sta še vedno boljša v zelo kompleksnem reasoning, dolgem kontekstu (1M+ tokenov), „agentic” multistep nalogah.
  • Nizki obsegi — startup z 10 tisoč zahtevami/mes. ne potrebuje lastne GPU. Pay-per-token v cloudu bo stal posamezne tisočake zlotov mesečno — ceneje kot vzdrževanje infrastrukture.
  • Sezonskost — ko je promet zelo nestabilen, samodejno skalirajoč cloud LLM se bo izognil stroškom nedelujoče GPU.
  • Multimodalnost — najnovejši multimodalni modeli (slika, avdio, video) so pogosto na voljo prej v cloudu.

Hibrid — najpogostejši odgovor

V praksi večina podjetij, ki uspešno uvajajo AI, gradi hibridni stack:

  • Lokalni Llama 3.2 3B — klasifikacija, routing, preprosta ekstrakcija podatkov. 80% obsega.
  • Lokalni Bielik 11B ali Llama 3.1 8B — RAG, generiranje krajših vsebin, customer support PL/EN. 15% obsega.
  • Lokalni Llama 3.1 70B — kompleksne analize, kodiranje. 4% obsega.
  • Cloud Claude Opus / Sonnet — najtežja vprašanja, dolg kontekst, najvišja kakovost. 1% obsega.

8-stopenjski routing samodejno odloča, kateri model bo obravnaval dano zahtevo, na podlagi zaznane kompleksnosti, jezika, konteksta. V naši platformi HybridCrew tak routing omogoča znižanje povprečnega stroška zahteve za 70% v primerjavi z rešitvijo „vse preko Opus” — ob ohranjanju polne kakovosti tam, kjer je potrebna.

Sklepi za odločevalce

Vprašanje „lokalni LLM ali cloud” v letu 2026 ni več vprašanje ničla-ena. Najboljše arhitekture so hibridne in adaptivne — uporabljajo lokalne modele tam, kjer je smiselno, cloud tam, kjer je nujno. Podjetja z občutljivimi podatki (odvetniške pisarne, finančni sektor, zdravstvo, administracija) bi morala začeti graditi kompetence lokalne AI že zdaj — v 12-24 mesecih bo to prenehalo biti konkurenčna prednost in postalo higiena.

#LLM #Llama #Mistral #Bielik #on-prem #open-source #GPU