A piac állapota 2026-ban
Három évvel ezelőtt a legjobb cloud modell (GPT-4, Claude Opus) és a legjobb open-source modell közötti minőségi különbség hatalmas volt. 2026-ban ez a szakadék gyakorlatilag bezárult a legtöbb üzleti felhasználásban. A Llama 3.1 405B, Mistral Large, a lengyel Bielik 11B, Qwen 2.5 — ezek olyan modellek, amelyek a reasoning, kódolás, dokumentumelemzés vagy lengyel nyelvi feldolgozás benchmarkjaiban a cloud modellekkel összehasonlítható eredményeket érnek el.
Sőt, sok enterprise felhasználáshoz a 8-13B modellek nemcsak elegendőek, hanem optimálisak. E-mail osztályozás, számlákból való adatkinyerés, összefoglalók generálása, alapvető válaszok az ügyfélszolgálatban — ezekben a feladatokban a saját GPU szerveren futó helyi Bielik a Claude Haikuval megkülönböztethetetlen eredményeket ad, nulla tokenenkénti költség mellett.
Mikor éri meg a lokális modell
A lokális vs cloud LLM döntésnek több dimenziója van. A legfontosabbak:
- Lekérdezési volumen — a break-even pont a jelenlegi infrastruktúra mellett (H100 80GB GPU-val rendelkező szerver ~120 ezer PLN, vagy spot DataCrunch ~3 ezer PLN/hó) havi 50-100 millió token körül van. Felette — az on-premise olcsóbb. Alatta — a cloud.
- Adatérzékenység — a GDPR alá tartozó adatokhoz, szakmai titokhoz (ügyvédi irodák, könyvvizsgálók, egészségügy) vagy ügyféltitoktartási záradékhoz a lokális LLM-ek kiküszöbölik a cloud szolgáltatóhoz való adatküldés kockázatát.
- Latencia — lokális modell az alkalmazással azonos adatközpontban: 50-200 ms. Cloud: 500-2000 ms (régiótól és sortól függően). Real-time alkalmazásoknál a különbség alapvető.
- Compliance és adatszuverenitás — a NIS2, ISO 27001 követelmények, ágazati szabályozások egyre gyakrabban preferálják vagy követelik a lokális adatfeldolgozást.
Modellosztályok és felhasználásaik
Az open-source modellek nem monolitikusak — méretben, specializációban, natív nyelvben, licencben különböznek. Gyakorlati áttekintés:
- Kis modellek (3-8B): Llama 3.2 3B, Phi-3 Mini, Gemma 7B. Egyetlen 16-24GB GPU kártyán vagy akár CPU-n is futnak. Osztályozás, embeddings, egyszerű lekérdezésirányítás, rerouting.
- Közepes modellek (8-15B): Llama 3.1 8B, Bielik 11B (a legjobb lengyel modell), Mistral 7B/Nemo. Egyetlen 24-48GB GPU kártyán futnak. RAG, rövid szövegek generálása, dokumentumelemzés, customer support.
- Nagy modellek (30-70B): Llama 3.1 70B, Mistral Large, Command-R+. 2x GPU-t vagy 80GB-os kártyát igényelnek (H100, A100). Komplex reasoning, kódolás, hosszú dokumentumok elemzése, jogi fogalmazás.
- Nagyon nagy modellek (300B+): Llama 3.1 405B, DeepSeek V3 671B. 4-8x H100/H200 klasztereket igényelnek. Legtöbbször csak nagyon nagy volumen vagy a legnehezebb feladatok esetén indokoltak.
Infrastruktúra — mire van konkrétan szükség
Minimális produkciós konfiguráció középvállalat számára (napi 1000 lekérdezésig, 8-13B modell):
- GPU szerver — pl. RTX 4090 24GB (~12 ezer PLN), L40S 48GB (~50 ezer PLN), vagy dedikált szerver H100 80GB-tal. Spot DataCrunchon vagy Vast.ai-n — H100-ért 2-3 ezer PLN/hó-tól.
- Runtime — Ollama (legegyszerűbb, de nincs QoS), vLLM (produkciós, batch processing), TGI a HuggingFace-től (kompromisszum). Az Ollama elég a kisebb csapatoknak.
- Proxy / routing — saját LLM proxy, amely felelős a sorbaállításért, retry-ért, fallbackért, metrikákért. Az ESKOM AI saját proxyt használ 8 szintű routinggel (lokális legolcsóbb → cloud Opus a legnehezebbekhez).
- Monitoring — Prometheus + Grafana GPU metrikákhoz (kihasználtság, hőmérséklet), latenciához, lekérdezésenkénti költséghez, válaszminőséghez.
- Backup és modellrotáció — a modellek frissülnek — fine-tuning folyamat fenntartása vagy új verziók rendszeres letöltése.
Mikor éri meg még mindig a cloud
A cloud modellek nem tűntek el, és továbbra is van értelmes helyük az enterprise architektúrában:
- A legnehezebb feladatok — a Claude Opus és GPT-5 (amikor megjelenik) továbbra is jobbak nagyon komplex reasoningban, hosszú kontextusban (1M+ token), „agentic” többlépcsős feladatokban.
- Alacsony volumen — egy 10 ezer havi lekérdezésű startupnak nincs szüksége saját GPU-ra. A pay-per-token a cloudban havonta pár ezer zlotyba kerül — olcsóbb, mint az infrastruktúra fenntartása.
- Szezonalitás — ha a forgalom nagyon instabil, az autoscale cloud LLM elkerüli a tétlenül álló GPU költségeit.
- Multimodalitás — a legújabb multimodális modellek (kép, audio, videó) gyakran korábban elérhetők a cloudban.
Hibrid — a leggyakoribb válasz
A gyakorlatban a legtöbb AI-t jól bevezető vállalat hibrid stacket épít:
- Lokális Llama 3.2 3B — osztályozás, routing, egyszerű adatkinyerés. A volumen 80%-a.
- Lokális Bielik 11B vagy Llama 3.1 8B — RAG, rövid tartalmak generálása, customer support PL/EN. A volumen 15%-a.
- Lokális Llama 3.1 70B — komplex elemzések, kódolás. A volumen 4%-a.
- Cloud Claude Opus / Sonnet — legnehezebb kérdések, hosszú kontextus, legmagasabb minőség. A volumen 1%-a.
A 8 szintű routing automatikusan eldönti, melyik modell kezeli az adott lekérdezést, az észlelt komplexitás, nyelv, kontextus alapján. HybridCrew platformunkon ez a fajta routing 70%-kal csökkenti az átlagos lekérdezési költséget a „mindent Opuson” megoldáshoz képest — megőrizve a teljes minőséget ott, ahol szükséges.
Következtetések a döntéshozóknak
A „lokális LLM vagy cloud” kérdés 2026-ban már nem nulla-egy kérdés. A legjobb architektúrák hibridek és adaptívak — lokális modelleket használnak ott, ahol az kifizetődő, cloudot ott, ahol az szükséges. Az érzékeny adatokkal rendelkező vállalatoknak (ügyvédi irodák, pénzügyi szektor, egészségügy, közigazgatás) már most el kellene kezdeniük a lokális AI kompetenciák kiépítését — 12-24 hónapon belül ez már nem versenyelőny lesz, hanem higiénia.