Stanje tržišta u 2026.
Prije tri godine razlika u kvaliteti između najboljeg cloud modela (GPT-4, Claude Opus) i najboljeg open-source modela bila je golema. U 2026. ta se praznina praktički zatvorila u većini poslovnih primjena. Llama 3.1 405B, Mistral Large, poljski Bielik 11B, Qwen 2.5 — to su modeli koji u benchmarkovima razmišljanja, kodiranja, analize dokumenata ili rada na poljskom jeziku postižu rezultate usporedive s cloud modelima.
Štoviše, za mnoge enterprise primjene modeli od 8-13B nisu samo dovoljni, već optimalni. Klasifikacija e-mailova, ekstrakcija podataka iz računa, generiranje sažetaka, osnovni odgovori u korisničkoj podršci — u tim zadacima lokalni Bielik na vlastitom GPU serveru daje rezultate nerazlučive od Claude Haikua, uz nula troškova po tokenu.
Kada se lokalni model isplati
Odluka lokalni vs cloud LLM ima nekoliko dimenzija. Najvažnije:
- Volumen upita — točka break-evena uz trenutnu infrastrukturu (server s GPU H100 80GB ~120 tis. PLN, ili spot DataCrunch ~3 tis. PLN/mjesec) pada oko 50-100 milijuna tokena mjesečno. Iznad — on-premise je jeftiniji. Ispod — cloud.
- Osjetljivost podataka — za podatke obuhvaćene GDPR-om, profesionalnom tajnom (odvjetnička društva, revizori, zdravstvo) ili klauzulom povjerljivosti klijenta, lokalni LLM-ovi eliminiraju rizik povezan sa slanjem podataka dobavljaču clouda.
- Latencija — lokalni model u istom datacentru kao aplikacija: 50-200 ms. Cloud: 500-2000 ms (ovisno o regiji i redu). Za real-time aplikacije razlika je fundamentalna.
- Compliance i suverenitet podataka — zahtjevi NIS2, ISO 27001, sektorske regulative sve češće preferiraju ili zahtijevaju lokalnu obradu podataka.
Klase modela i njihove primjene
Open-source modeli nisu monolit — razlikuju se po veličini, specijalizaciji, izvornom jeziku, licenci. Praktičan pregled:
- Mali modeli (3-8B): Llama 3.2 3B, Phi-3 Mini, Gemma 7B. Rade na jednoj GPU kartici 16-24GB ili čak na CPU-u. Klasifikacija, embeddings, jednostavno usmjeravanje upita, rerouting.
- Srednji modeli (8-15B): Llama 3.1 8B, Bielik 11B (najbolji poljski model), Mistral 7B/Nemo. Rade na jednoj GPU kartici 24-48GB. RAG, generiranje kratkih tekstova, analiza dokumenata, customer support.
- Veliki modeli (30-70B): Llama 3.1 70B, Mistral Large, Command-R+. Zahtijevaju 2x GPU ili karticu od 80GB (H100, A100). Složeno razmišljanje, kodiranje, analiza dugih dokumenata, pravno sastavljanje.
- Vrlo veliki modeli (300B+): Llama 3.1 405B, DeepSeek V3 671B. Zahtijevaju klastere 4-8x H100/H200. Najčešće opravdani samo pri vrlo velikim volumenima ili za najteže zadatke.
Infrastruktura — što konkretno treba
Minimalna produkcijska konfiguracija za srednju tvrtku (do 1000 upita/dan, model 8-13B):
- Server s GPU — npr. RTX 4090 24GB (~12 tis. PLN), L40S 48GB (~50 tis. PLN), ili dedicirani server s H100 80GB. Spot na DataCrunchu ili Vast.aiju — od 2-3 tis. PLN/mjesec za H100.
- Runtime — Ollama (najjednostavniji, ali bez QoS-a), vLLM (produkcijski, batch processing), TGI od HuggingFacea (kompromis). Ollama je dovoljna za manje timove.
- Proxy / routing — vlastiti LLM proxy odgovoran za reda čekanja, retry, fallback, metrike. ESKOM AI koristi vlastiti proxy s 8-razinskim routingom (lokalni najjeftiniji → cloud Opus za najteže).
- Monitoring — Prometheus + Grafana za GPU metrike (iskoristivost, temperatura), latenciju, trošak po upitu, kvalitetu odgovora.
- Backup i rotacija modela — modeli se ažuriraju — održavanje procesa fine-tuninga ili redovnog preuzimanja novih verzija.
Kada se cloud i dalje isplati
Cloud modeli nisu nestali i i dalje imaju smisleno mjesto u enterprise arhitekturi:
- Najteži zadaci — Claude Opus i GPT-5 (kada izađe) i dalje su bolji u vrlo složenom razmišljanju, dugom kontekstu (1M+ tokena), „agentic” višestepenim zadacima.
- Niski volumeni — startup s 10 tis. upita/mjesec ne treba vlastiti GPU. Pay-per-token u cloudu koštat će pojedinačne tisuće zlota mjesečno — jeftinije od održavanja infrastrukture.
- Sezonalnost — kada je promet vrlo nestabilan, autoskalirajući cloud LLM izbjeći će troškove neaktivnog GPU-a.
- Multimodalnost — najnoviji multimodalni modeli (slika, audio, video) često su ranije dostupni u cloudu.
Hibrid — najčešći odgovor
U praksi, većina tvrtki koje dobro implementiraju AI gradi hibridni stack:
- Lokalna Llama 3.2 3B — klasifikacija, routing, jednostavna ekstrakcija podataka. 80% volumena.
- Lokalni Bielik 11B ili Llama 3.1 8B — RAG, generiranje kratkih sadržaja, customer support PL/EN. 15% volumena.
- Lokalna Llama 3.1 70B — složene analize, kodiranje. 4% volumena.
- Cloud Claude Opus / Sonnet — najteža pitanja, dugi kontekst, najviša kvaliteta. 1% volumena.
8-razinski routing automatski odlučuje koji će model obraditi pojedini upit, na temelju otkrivene složenosti, jezika, konteksta. Na našoj platformi HybridCrew takav routing omogućuje smanjenje prosječnog troška upita za 70% u odnosu na rješenje „sve preko Opusa” — uz očuvanje pune kvalitete tamo gdje je potrebna.
Zaključci za donositelje odluka
Pitanje „lokalni LLM ili cloud” u 2026. više nije nula-jedan pitanje. Najbolje arhitekture su hibridne i prilagodljive — koriste lokalne modele tamo gdje se to isplati, cloud tamo gdje je to nužno. Tvrtke s osjetljivim podacima (odvjetnička društva, financijski sektor, zdravstvo, javna uprava) trebale bi započeti izgradnju lokalnih AI kompetencija već sada — za 12-24 mjeseca to više neće biti konkurentska prednost, već higijena.