Stav trhu v roce 2026
Před třemi lety byl rozdíl v kvalitě mezi nejlepším cloudovým modelem (GPT-4, Claude Opus) a nejlepším open-source modelem obrovský. V roce 2026 se tato propast prakticky uzavřela ve většině podnikových aplikací. Llama 3.1 405B, Mistral Large, polský Bielik 11B, Qwen 2.5 — to jsou modely, které v benchmarcích reasoning, kódování, analýzy dokumentů nebo zpracování polského jazyka dosahují výsledků srovnatelných s cloudovými modely.
Navíc pro mnoho enterprise aplikací jsou modely 8-13B nejen dostatečné, ale optimální. Klasifikace e-mailů, extrakce dat z faktur, generování shrnutí, základní odpovědi v zákaznické podpoře — v těchto úlohách dává lokální Bielik na vlastním GPU serveru výsledky nerozlišitelné od Claude Haiku, při nulových nákladech per-token.
Kdy se lokální model vyplatí
Rozhodnutí lokální vs cloudový LLM má několik dimenzí. Nejdůležitější:
- Objem dotazů — bod break-even při současné infrastruktuře (server s GPU H100 80GB ~120 tis. PLN, nebo spot DataCrunch ~3 tis. PLN/měs.) vychází okolo 50-100 mil. tokenů měsíčně. Nad — on-prem levnější. Pod — cloud.
- Citlivost dat — pro data podléhající GDPR, profesnímu tajemství (advokátní kanceláře, auditoři, zdravotnictví) nebo klauzulím důvěrnosti klienta lokální LLM eliminují riziko spojené s odesíláním dat cloudovému poskytovateli.
- Latence — lokální model ve stejném datacentru jako aplikace: 50-200 ms. Cloud: 500-2000 ms (v závislosti na regionu a frontě). Pro real-time aplikace je rozdíl fundamentální.
- Compliance a suverenita dat — požadavky NIS2, ISO 27001, sektorové regulace stále častěji preferují nebo vyžadují lokální zpracování dat.
Třídy modelů a jejich použití
Open-source modely nejsou monolit — liší se velikostí, specializací, nativním jazykem, licencí. Praktický přehled:
- Malé modely (3-8B): Llama 3.2 3B, Phi-3 Mini, Gemma 7B. Fungují na jediné GPU kartě 16-24GB nebo i na CPU. Klasifikace, embeddings, jednoduchá klasifikace dotazů, rerouting.
- Střední modely (8-15B): Llama 3.1 8B, Bielik 11B (nejlepší polský model), Mistral 7B/Nemo. Fungují na jediné GPU kartě 24-48GB. RAG, generování krátkých textů, analýza dokumentů, customer support.
- Velké modely (30-70B): Llama 3.1 70B, Mistral Large, Command-R+. Vyžadují 2x GPU nebo kartu 80GB (H100, A100). Komplexní reasoning, kódování, analýza dlouhých dokumentů, právní drafting.
- Velmi velké modely (300B+): Llama 3.1 405B, DeepSeek V3 671B. Vyžadují klastry 4-8x H100/H200. Nejčastěji opodstatněné pouze při velmi velkých objemech nebo pro nejtěžší úlohy.
Infrastruktura — co konkrétně je potřeba
Minimální produkční konfigurace pro střední firmu (do 1000 dotazů/den, model 8-13B):
- Server s GPU — např. RTX 4090 24GB (~12 tis. PLN), L40S 48GB (~50 tis. PLN), nebo dedikovaný server s H100 80GB. Spot na DataCrunch nebo Vast.ai — od 2-3 tis. PLN/měs. za H100.
- Runtime — Ollama (nejjednodušší, ale bez QoS), vLLM (produkční, batch processing), TGI od HuggingFace (kompromis). Ollama postačuje pro menší týmy.
- Proxy / routing — vlastní LLM proxy odpovědný za frontu, retry, fallback, metriky. ESKOM AI používá vlastní proxy s 8-úrovňovým routingem (lokální nejlevnější → cloud Opus pro nejtěžší).
- Monitoring — Prometheus + Grafana pro metriky GPU (utilizace, teplota), latence, náklady per dotaz, kvalita odpovědí.
- Backup a rotace modelů — modely se aktualizují — udržování procesu fine-tuningu nebo pravidelného stahování nových verzí.
Kdy se cloud stále vyplatí
Cloudové modely nezmizely a stále mají rozumné místo v enterprise architektuře:
- Nejtěžší úlohy — Claude Opus a GPT-5 (až vyjde) jsou stále lepší ve velmi komplexním reasoning, dlouhém kontextu (1M+ tokenů), „agentic” multistep úlohách.
- Nízké objemy — startup s 10 tis. dotazů/měs. nepotřebuje vlastní GPU. Pay-per-token v cloudu bude stát jednotky tisíců PLN měsíčně — levněji než udržování infrastruktury.
- Sezónnost — když je provoz velmi nestabilní, autoškálovací cloudový LLM se vyhne nákladům na GPU stojící bez práce.
- Multimodalita — nejnovější multimodální modely (obraz, audio, video) jsou často dostupné dříve v cloudu.
Hybrid — nejčastější odpověď
V praxi většina firem, která dobře nasazuje AI, buduje hybridní stack:
- Lokální Llama 3.2 3B — klasifikace, routing, jednoduchá extrakce dat. 80 % objemu.
- Lokální Bielik 11B nebo Llama 3.1 8B — RAG, generování krátkého obsahu, customer support PL/EN. 15 % objemu.
- Lokální Llama 3.1 70B — komplexní analýzy, kódování. 4 % objemu.
- Cloud Claude Opus / Sonnet — nejtěžší otázky, dlouhý kontext, nejvyšší kvalita. 1 % objemu.
8-úrovňový routing automaticky rozhoduje, který model obslouží daný dotaz, na základě detekované komplexity, jazyka, kontextu. V naší platformě HybridCrew umožňuje takový routing snížit průměrné náklady na dotaz o 70 % oproti řešení „vše přes Opus” — při zachování plné kvality tam, kde je potřebná.
Závěry pro rozhodující osoby
Otázka „lokální LLM nebo cloud” v roce 2026 už není otázkou ano/ne. Nejlepší architektury jsou hybridní a adaptivní — používají lokální modely tam, kde je to výhodné, cloudové tam, kde je to nutné. Firmy s citlivými daty (advokátní kanceláře, finanční sektor, zdravotnictví, státní správa) by měly začít budovat kompetence lokální AI už nyní — během 12-24 měsíců to přestane být konkurenční výhodou a stane se to hygienou.