Stanje trga v letu 2026
Pred tremi leti je bila razlika v kakovosti med najboljšim cloud modelom (GPT-4, Claude Opus) in najboljšim odprtokodnim modelom ogromna. V letu 2026 se je ta vrzel praktično zaprla v večini poslovnih aplikacij. Llama 3.1 405B, Mistral Large, poljski Bielik 11B, Qwen 2.5 — to so modeli, ki v benchmarkih reasoning, kodiranja, analize dokumentov ali obravnave poljskega jezika dosegajo rezultate, primerljive z cloud modeli.
Še več, za številne enterprise aplikacije so modeli 8-13B ne le zadostni, temveč optimalni. Klasifikacija e-pošte, ekstrakcija podatkov iz računov, generiranje povzetkov, osnovni odgovori v podpori strankam — v teh nalogah lokalni Bielik na lastnem GPU strežniku daje rezultate, neločljive od Claude Haiku, pri ničelnih stroških per-token.
Kdaj se lokalni model splača
Odločitev lokalni vs cloud LLM ima več dimenzij. Najpomembnejše:
- Obseg zahtev — točka break-even pri trenutni infrastrukturi (strežnik z GPU H100 80GB ~120 tisoč PLN ali spot DataCrunch ~3 tisoč PLN/mes.) je okoli 50-100 milijonov tokenov mesečno. Nad — on-prem cenejši. Pod — cloud.
- Občutljivost podatkov — za podatke, ki jih pokriva GDPR, poklicna skrivnost (odvetniške pisarne, revizorji, zdravstvo) ali klavzula o zaupnosti stranke, lokalni LLM-ji odpravljajo tveganje, povezano s pošiljanjem podatkov cloud dobavitelju.
- Latenca — lokalni model v istem datacentru kot aplikacija: 50-200 ms. Cloud: 500-2000 ms (odvisno od regije in čakalne vrste). Za real-time aplikacije je razlika temeljna.
- Skladnost in suverenost podatkov — zahteve NIS2, ISO 27001, sektorske regulative (KNF, UODO) vse pogosteje dajejo prednost ali zahtevajo lokalno obdelavo podatkov.
Razredi modelov in njihove aplikacije
Odprtokodni modeli niso monolit — razlikujejo se po velikosti, specializaciji, materni jeziku, licenci. Praktični pregled:
- Majhni modeli (3-8B): Llama 3.2 3B, Phi-3 Mini, Gemma 7B. Delujejo na eni GPU kartici 16-24GB ali celo na CPU. Klasifikacija, embeddings, preprosta klasifikacija zahtev, rerouting.
- Srednji modeli (8-15B): Llama 3.1 8B, Bielik 11B (najboljši poljski model), Mistral 7B/Nemo. Delujejo na eni GPU kartici 24-48GB. RAG, generiranje kratkih besedil, analiza dokumentov, customer support.
- Veliki modeli (30-70B): Llama 3.1 70B, Mistral Large, Command-R+. Zahtevajo 2x GPU ali kartico 80GB (H100, A100). Kompleksen reasoning, kodiranje, analiza dolgih dokumentov, pravno draftanje.
- Zelo veliki modeli (300B+): Llama 3.1 405B, DeepSeek V3 671B. Zahtevajo klastre 4-8x H100/H200. Najpogosteje upravičeni le pri zelo velikih obsegih ali za najtežje naloge.
Infrastruktura — kaj konkretno potrebujete
Minimalna produkcijska konfiguracija za srednje veliko podjetje (do 1000 zahtev/dan, model 8-13B):
- Strežnik z GPU — npr. RTX 4090 24GB (~12 tisoč PLN), L40S 48GB (~50 tisoč PLN) ali dedicirani strežnik s H100 80GB. Spot na DataCrunch ali Vast.ai — od 2-3 tisoč PLN/mes. za H100.
- Runtime — Ollama (najpreprostejši, vendar brez QoS), vLLM (produkcijski, batch processing), TGI od HuggingFace (kompromis). Ollama zadošča za manjše ekipe.
- Proxy / routing — lasten LLM proxy, odgovoren za uvrščanje v čakalno vrsto, retry, fallback, metrike. ESKOM AI uporablja lasten proxy z 8-stopenjskim routingom (lokalno najcenejše → cloud Opus za najtežje).
- Monitoring — Prometheus + Grafana za GPU metrike (uporabljenost, temperatura), latenco, strošek na zahtevo, kakovost odgovorov.
- Backup in rotacija modelov — modeli se posodabljajo — vzdrževanje procesa fine-tuninga ali rednega prenašanja novih različic.
Kdaj se cloud še vedno splača
Cloud modeli niso izginili in še vedno imajo smiselno mesto v enterprise arhitekturi:
- Najtežje naloge — Claude Opus in GPT-5 (ko bo izšel) sta še vedno boljša v zelo kompleksnem reasoning, dolgem kontekstu (1M+ tokenov), „agentic” multistep nalogah.
- Nizki obsegi — startup z 10 tisoč zahtevami/mes. ne potrebuje lastne GPU. Pay-per-token v cloudu bo stal posamezne tisočake zlotov mesečno — ceneje kot vzdrževanje infrastrukture.
- Sezonskost — ko je promet zelo nestabilen, samodejno skalirajoč cloud LLM se bo izognil stroškom nedelujoče GPU.
- Multimodalnost — najnovejši multimodalni modeli (slika, avdio, video) so pogosto na voljo prej v cloudu.
Hibrid — najpogostejši odgovor
V praksi večina podjetij, ki uspešno uvajajo AI, gradi hibridni stack:
- Lokalni Llama 3.2 3B — klasifikacija, routing, preprosta ekstrakcija podatkov. 80% obsega.
- Lokalni Bielik 11B ali Llama 3.1 8B — RAG, generiranje krajših vsebin, customer support PL/EN. 15% obsega.
- Lokalni Llama 3.1 70B — kompleksne analize, kodiranje. 4% obsega.
- Cloud Claude Opus / Sonnet — najtežja vprašanja, dolg kontekst, najvišja kakovost. 1% obsega.
8-stopenjski routing samodejno odloča, kateri model bo obravnaval dano zahtevo, na podlagi zaznane kompleksnosti, jezika, konteksta. V naši platformi HybridCrew tak routing omogoča znižanje povprečnega stroška zahteve za 70% v primerjavi z rešitvijo „vse preko Opus” — ob ohranjanju polne kakovosti tam, kjer je potrebna.
Sklepi za odločevalce
Vprašanje „lokalni LLM ali cloud” v letu 2026 ni več vprašanje ničla-ena. Najboljše arhitekture so hibridne in adaptivne — uporabljajo lokalne modele tam, kjer je smiselno, cloud tam, kjer je nujno. Podjetja z občutljivimi podatki (odvetniške pisarne, finančni sektor, zdravstvo, administracija) bi morala začeti graditi kompetence lokalne AI že zdaj — v 12-24 mesecih bo to prenehalo biti konkurenčna prednost in postalo higiena.