LLM eredu lokalak enpresan — Llama, Mistral, Bielik ala hodeia?

Merkatuaren egoera 2026an

Duela hiru urte, hodeiko eredu onenaren (GPT-4, Claude Opus) eta open-source eredu onenaren arteko kalitate-aldea izugarria zen. 2026an alde hori praktikoki itxi da negozio-aplikazio gehienetan. Llama 3.1 405B, Mistral Large, Poloniako Bielik 11B, Qwen 2.5 — reasoning, kodetze, dokumentu-analisi edo poloniera tratamenduko benchmark-etan hodeiko ereduen pareko emaitzak lortzen dituzten ereduak dira.

Gainera, enpresa-aplikazio askotan, 8-13B ereduak ez dira nahikoak bakarrik, baita optimoak ere. Posta elektronikoaren sailkapena, fakturetatik datuak ateratzea, laburpenak sortzea, bezeroarentzako arretarako oinarrizko erantzunak — zeregin horietan, zure GPU-zerbitzariko Bielik lokalak Claude Haiku-renetik bereizezinak diren emaitzak ematen ditu, token bakoitzeko zero kosturekin.

Noiz merezi duen eredu lokalak

LLM lokala vs hodeia erabakiak hainbat dimentsio ditu. Garrantzitsuenak:

Kontsulta-bolumena — egungo azpiegiturarekin break-even puntua (H100 80GB GPU duen zerbitzaria ~120 mila PLN, edo spot DataCrunch ~3 mila PLN/hilabete) hilean 50-100 milioi tokenen inguruan dago. Horren gainetik — on-prem merkeagoa. Horren azpitik — hodeia.
Datuen sentikortasuna — GDPR menpeko, lanbide-sekretu (abokatu-bulegoak, auditoreak, osasuna) edo bezeroaren konfidentzialtasun-klausulapean dauden datuetarako, LLM lokalek hodeiko hornitzaileari datuak bidaltzeari lotutako arriskua kentzen dute.
Latentzia — aplikazioaren datacenter berean dagoen eredu lokala: 50-200 ms. Hodeia: 500-2000 ms (eskualdearen eta ilararen arabera). Denbora errealeko aplikazioetarako, aldea funtsezkoa da.
Betetzea eta datu-subiranotasuna — NIS2, ISO 27001 eskakizunek, sektoreko erregulazioek gero eta gehiagotan datuen tokiko prozesamendua nahiago dute edo eskatzen dute.

Ereduen klaseak eta beren aplikazioak

Open-source ereduak ez dira monolito bat — tamainaz, espezializazioz, jatorrizko hizkuntzaz, lizentziaz desberdintzen dira. Ikuspegi praktikoa:

Eredu txikiak (3-8B): Llama 3.2 3B, Phi-3 Mini, Gemma 7B. 16-24GB-ko GPU txartel bakarrean edo CPU-an ere funtzionatzen dute. Sailkapena, embedding-ak, kontsulten sailkapen sinplea, rerouting.
Eredu ertainak (8-15B): Llama 3.1 8B, Bielik 11B (poloniar eredurik onena), Mistral 7B/Nemo. 24-48GB-ko GPU txartel bakarrean funtzionatzen dute. RAG, testu motzen sorrera, dokumentu-analisia, customer support.
Eredu handiak (30-70B): Llama 3.1 70B, Mistral Large, Command-R+. 2x GPU edo 80GB-ko txartela behar dute (H100, A100). Reasoning konplexua, kodetzea, dokumentu luzeen analisia, legezko drafting.
Eredu oso handiak (300B+): Llama 3.1 405B, DeepSeek V3 671B. 4-8x H100/H200 cluster behar dute. Sarriago bolumen oso handietan edo zeregin zailenetarako bakarrik justifikatzen dira.

Azpiegitura — zehazki zer behar den

Enpresa ertainentzako produkzioko konfigurazio minimoa (1000 kontsulta/eguneko, 8-13B eredua):

GPU duen zerbitzaria — adib. RTX 4090 24GB (~12 mila PLN), L40S 48GB (~50 mila PLN), edo H100 80GB-duen zerbitzari dedikatua. Spot DataCrunch-en edo Vast.ai-n — 2-3 mila PLN/hilabetetik aurrera H100rako.
Runtime — Ollama (sinpleena, baina QoS gabe), vLLM (produkzioko, batch processing), TGI HuggingFace-tik (konpromisoa). Ollama nahikoa da talde txikiagoetarako.
Proxy / routing — zure LLM proxy ilararatze, retry, fallback, metriken arduradunak. ESKOM AI-k bere proxy propioa erabiltzen du 8 mailako routing-arekin (lokala merkeena → cloud Opus zailenetarako).
Monitorizazioa — Prometheus + Grafana GPU metriketarako (erabilera, tenperatura), latentzia, kontsultako kostua, erantzunaren kalitatea.
Ereduen babeskopia eta errotazioa — ereduak eguneratzen dira — fine-tuning prozesuaren mantentzea edo bertsio berrien deskarga erregularra.

Noiz merezi duen oraindik hodeiak

Hodeiko ereduak ez dira desagertu eta oraindik leku zentzuduna dute enpresa-arkitekturan:

Zeregin zailenak — Claude Opus eta GPT-5 (atera dadinean) oraindik hobeak dira reasoning oso konplexuan, testuinguru luzean (1M+ token), „agentic” multistep zereginetan.
Bolumen txikiak — hilean 10 mila kontsulta dituen startup-ek ez du bere GPUrik behar. Hodeiko pay-per-token-ek hilean zlotyetan milaka batzuk kostatuko du — azpiegitura mantentzea baino merkeagoa.
Sasoikotasuna — trafikoa oso egonkortua ez denean, autoeskalatzen den hodeiko LLM-ak GPU geldituaren kostuak saihestuko ditu.
Multimodaltasuna — eredu multimodal berrienak (irudia, audioa, bideoa) sarritan lehenago daude eskuragarri hodeian.

Hibridoa — erantzun ohikoena

Praktikan, AI ondo ezartzen duten enpresa gehienek stack hibrido bat eraikitzen dute:

Lokala Llama 3.2 3B — sailkapena, routing, datuen erauzketa sinplea. Bolumenaren %80.
Lokala Bielik 11B edo Llama 3.1 8B — RAG, eduki motzen sorrera, customer support PL/EN. Bolumenaren %15.
Lokala Llama 3.1 70B — analisi konplexuak, kodetzea. Bolumenaren %4.
Cloud Claude Opus / Sonnet — galderarik zailenak, testuinguru luzea, kalitate gorena. Bolumenaren %1.

8 mailako routing-ak automatikoki erabakitzen du ze eredu erabiliko den kontsulta jakin batean, hautemandako konplexutasuna, hizkuntza, testuingurua oinarri hartuta. Gure HybridCrew plataforman, routing horrek kontsultaren batez besteko kostua %70 jaisteko aukera ematen du „dena Opus bidez” soluzioarekin alderatuta — kalitate osoa mantenduz behar den lekuetan.

Erabakitzaileentzako ondorioak

„LLM lokala ala hodeia” galdera 2026an jada ez da zero-bat galdera bat. Arkitektura onenak hibridoak eta egokitzaileak dira — eredu lokalak erabiltzen dituzte errentagarri den lekuetan, hodeikoak beharrezkoa den lekuetan. Datu sentikorrak dituzten enpresek (bulegoak, finantza-sektorea, osasuna, administrazioa) IA lokaleko gaitasunak orain bertan eraikitzen hasi beharko lukete — 12-24 hilabeteren buruan hori ez da jada lehia-abantaila izango eta higienea bihurtuko da.