Models LLM locals a l'empresa — Llama, Mistral, Bielik o núvol?

Estat del mercat el 2026

Fa tres anys, la diferència de qualitat entre el millor model en núvol (GPT-4, Claude Opus) i el millor model open-source era enorme. El 2026, aquesta bretxa s'ha tancat pràcticament en la majoria d'aplicacions empresarials. Llama 3.1 405B, Mistral Large, el polonès Bielik 11B, Qwen 2.5 — són models que en benchmarks de reasoning, codificació, anàlisi de documents o processament del llenguatge polonès assoleixen resultats comparables als models en núvol.

A més, per a moltes aplicacions enterprise, els models 8-13B són no només suficients, sinó òptims. Classificació de correus electrònics, extracció de dades de factures, generació de resums, respostes bàsiques en atenció al client — en aquestes tasques, un Bielik local en un servidor GPU propi dóna resultats indistingibles de Claude Haiku, amb cost zero per token.

Quan compensa un model local

La decisió local vs núvol LLM té diverses dimensions. Les més importants:

Volum de consultes — el punt de break-even amb la infraestructura actual (servidor amb GPU H100 80GB ~120 mil PLN, o spot DataCrunch ~3 mil PLN/mes) cau al voltant dels 50-100 milions de tokens mensuals. Per sobre — on-prem més barat. Per sota — núvol.
Sensibilitat de les dades — per a dades cobertes pel GDPR, secret professional (despatxos d'advocats, auditors, sanitat) o clàusules de confidencialitat del client, els LLM locals eliminen el risc associat a l'enviament de dades a un proveïdor de núvol.
Latència — un model local al mateix datacenter que l'aplicació: 50-200 ms. Núvol: 500-2000 ms (depenent de la regió i la cua). Per a aplicacions real-time, la diferència és fonamental.
Compliance i sobirania de les dades — els requisits de NIS2, ISO 27001, regulacions sectorials prefereixen o exigeixen cada cop més el processament local de dades.

Classes de models i les seves aplicacions

Els models open-source no són un monòlit — difereixen en mida, especialització, llengua nativa, llicència. Visió pràctica:

Models petits (3-8B): Llama 3.2 3B, Phi-3 Mini, Gemma 7B. Funcionen en una sola targeta GPU 16-24GB o fins i tot en CPU. Classificació, embeddings, classificació simple de consultes, rerouting.
Models mitjans (8-15B): Llama 3.1 8B, Bielik 11B (el millor model polonès), Mistral 7B/Nemo. Funcionen en una sola targeta GPU 24-48GB. RAG, generació de textos curts, anàlisi de documents, customer support.
Models grans (30-70B): Llama 3.1 70B, Mistral Large, Command-R+. Requereixen 2x GPU o una targeta de 80GB (H100, A100). Reasoning complex, codificació, anàlisi de documents llargs, drafting jurídic.
Models molt grans (300B+): Llama 3.1 405B, DeepSeek V3 671B. Requereixen clústers de 4-8x H100/H200. Normalment justificats només amb volums molt grans o per a les tasques més difícils.

Infraestructura — què cal concretament

Configuració mínima de producció per a una empresa mitjana (fins a 1000 consultes/dia, model 8-13B):

Servidor amb GPU — per exemple RTX 4090 24GB (~12 mil PLN), L40S 48GB (~50 mil PLN), o servidor dedicat amb H100 80GB. Spot a DataCrunch o Vast.ai — des de 2-3 mil PLN/mes per H100.
Runtime — Ollama (el més simple, però sense QoS), vLLM (de producció, batch processing), TGI de HuggingFace (compromís). Ollama és suficient per a equips més petits.
Proxy / routing — un LLM proxy propi responsable de la cua, retry, fallback, mètriques. ESKOM AI utilitza un proxy propi amb routing de 8 nivells (locals més barats → cloud Opus per als més difícils).
Monitorització — Prometheus + Grafana per a mètriques de GPU (utilització, temperatura), latència, cost per consulta, qualitat de les respostes.
Backup i rotació de models — els models s'actualitzen — manteniment d'un procés de fine-tuning o descàrrega regular de noves versions.

Quan encara val la pena el núvol

Els models en núvol no han desaparegut i encara tenen un lloc raonable en l'arquitectura enterprise:

Les tasques més difícils — Claude Opus i GPT-5 (quan surti) són encara millors en reasoning molt complex, context llarg (1M+ tokens), tasques „agentic” multistep.
Volums baixos — una startup amb 10 mil consultes/mes no necessita una GPU pròpia. Pay-per-token al núvol costarà uns milers de PLN al mes — més barat que mantenir infraestructura.
Estacionalitat — quan el trànsit és molt inestable, un LLM en núvol amb autoscaling evitarà els costos d'una GPU aturada.
Multimodalitat — els models multimodals més recents (imatge, àudio, vídeo) sovint estan disponibles abans al núvol.

Híbrid — la resposta més freqüent

A la pràctica, la majoria d'empreses que implementen bé la IA construeixen un stack híbrid:

Llama 3.2 3B local — classificació, routing, extracció simple de dades. 80% del volum.
Bielik 11B o Llama 3.1 8B local — RAG, generació de continguts curts, customer support PL/EN. 15% del volum.
Llama 3.1 70B local — anàlisis complexes, codificació. 4% del volum.
Cloud Claude Opus / Sonnet — preguntes més difícils, context llarg, màxima qualitat. 1% del volum.

Un routing de 8 nivells decideix automàticament quin model atendrà una consulta donada, segons la complexitat detectada, l'idioma, el context. A la nostra plataforma HybridCrew, aquest routing permet reduir el cost mitjà per consulta en un 70% respecte a una solució „tot a través d'Opus” — mantenint la qualitat plena allà on cal.

Conclusions per als decisors

La pregunta „LLM local o núvol” el 2026 ja no és una pregunta binària. Les millors arquitectures són híbrides i adaptatives — utilitzen models locals allà on és rendible, models en núvol allà on és necessari. Les empreses amb dades sensibles (despatxos d'advocats, sector financer, sanitat, administració) haurien de començar a construir competències d'IA local ara mateix — en 12-24 mesos això deixarà de ser un avantatge competitiu i es convertirà en higiene.