Modelos LLM locais na empresa — Llama, Mistral, Bielik ou cloud?

Estado do mercado en 2026

Hai tres anos a diferenza de calidade entre o mellor modelo cloud (GPT-4, Claude Opus) e o mellor modelo open source era enorme. En 2026 esa fenda pechouse practicamente na maioría dos usos empresariais. Llama 3.1 405B, Mistral Large, o polaco Bielik 11B, Qwen 2.5 — son modelos que en benchmarks de razoamento, codificación, análise de documentos ou tratamento do polaco acadan resultados comparables aos modelos cloud.

Aínda máis, para moitos usos enterprise os modelos 8-13B non son só suficientes, senón óptimos. Clasificación de correos, extracción de datos de facturas, xeración de resumos, respostas básicas de atención ao cliente — nestas tarefas un Bielik local no propio servidor GPU dá resultados indistinguibles de Claude Haiku, con custo cero por token.

Cando vale a pena o modelo local

A decisión LLM local vs cloud ten varias dimensións. As máis importantes:

Volume de consultas — o punto de break-even coa infraestrutura actual (servidor con GPU H100 80GB ~120 mil PLN, ou spot DataCrunch ~3 mil PLN/mes) cae arredor de 50-100 millóns de tokens ao mes. Por riba — on-premise máis barato. Por baixo — cloud.
Sensibilidade dos datos — para datos sometidos ao RGPD, segredo profesional (despachos de avogados, auditores, sanidade) ou cláusula de confidencialidade do cliente, os LLM locais eliminan o risco de enviar datos a un provedor cloud.
Latencia — modelo local no mesmo datacenter que a aplicación: 50-200 ms. Cloud: 500-2000 ms (segundo rexión e cola). Para aplicacións en tempo real, a diferenza é fundamental.
Compliance e soberanía dos datos — os requisitos de NIS2, ISO 27001, regulacións sectoriais cada vez con máis frecuencia prefiren ou requiren o procesamento local de datos.

Clases de modelos e os seus usos

Os modelos open source non son un monolito — difiren en tamaño, especialización, lingua nativa, licenza. Visión práctica:

Modelos pequenos (3-8B): Llama 3.2 3B, Phi-3 Mini, Gemma 7B. Funcionan nunha soa GPU de 16-24GB ou mesmo en CPU. Clasificación, embeddings, enrutamento simple de consultas, rerouting.
Modelos medios (8-15B): Llama 3.1 8B, Bielik 11B (o mellor modelo polaco), Mistral 7B/Nemo. Funcionan nunha soa GPU de 24-48GB. RAG, xeración de textos curtos, análise de documentos, customer support.
Modelos grandes (30-70B): Llama 3.1 70B, Mistral Large, Command-R+. Requiren 2x GPU ou tarxeta de 80GB (H100, A100). Razoamento complexo, codificación, análise de documentos longos, redacción xurídica.
Modelos moi grandes (300B+): Llama 3.1 405B, DeepSeek V3 671B. Requiren clusters 4-8x H100/H200. Adoita estar xustificado só con volumes moi altos ou para as tarefas máis difíciles.

Infraestrutura — que se precisa concretamente

Configuración mínima de produción para unha empresa mediana (ata 1000 consultas/día, modelo 8-13B):

Servidor con GPU — por exemplo RTX 4090 24GB (~12 mil PLN), L40S 48GB (~50 mil PLN), ou servidor dedicado con H100 80GB. Spot en DataCrunch ou Vast.ai — desde 2-3 mil PLN/mes por H100.
Runtime — Ollama (o máis simple, pero sen QoS), vLLM (de produción, batch processing), TGI de HuggingFace (compromiso). Ollama abonda para equipos pequenos.
Proxy / routing — LLM proxy propio responsable de cola, retry, fallback, métricas. ESKOM AI usa o seu propio proxy cun routing de 8 niveis (local máis barato → cloud Opus para os máis difíciles).
Monitoring — Prometheus + Grafana para métricas de GPU (uso, temperatura), latencia, custo por consulta, calidade da resposta.
Backup e rotación de modelos — os modelos actualízanse — mantemento dun proceso de fine-tuning ou descarga regular de novas versións.

Cando segue valendo a pena o cloud

Os modelos cloud non desapareceron e seguen tendo un lugar razoable na arquitectura empresarial:

As tarefas máis difíciles — Claude Opus e GPT-5 (cando saia) seguen sendo mellores en razoamento moi complexo, contexto longo (1M+ tokens), tarefas „agentic” de varios pasos.
Volumes baixos — unha startup con 10 mil consultas/mes non precisa GPU propia. O pay-per-token no cloud custará uns poucos miles de PLN ao mes — máis barato que manter infraestrutura.
Estacionalidade — cando o tráfico é moi inestable, un LLM cloud con autoscaling evita custos dunha GPU ociosa.
Multimodalidade — os modelos multimodais máis recentes (imaxe, audio, vídeo) adoitan estar dispoñibles antes no cloud.

Híbrido — a resposta máis frecuente

Na práctica, a maioría das empresas que implementan ben a IA constrúen un stack híbrido:

Llama 3.2 3B local — clasificación, routing, extracción simple de datos. 80% do volume.
Bielik 11B ou Llama 3.1 8B local — RAG, xeración de contidos curtos, customer support PL/EN. 15% do volume.
Llama 3.1 70B local — análises complexas, codificación. 4% do volume.
Cloud Claude Opus / Sonnet — preguntas máis difíciles, contexto longo, calidade máxima. 1% do volume.

Un routing de 8 niveis decide automaticamente que modelo procesará cada consulta, baseado na complexidade detectada, idioma, contexto. Na nosa plataforma HybridCrew este tipo de routing permite reducir o custo medio dunha consulta nun 70% respecto a unha solución „todo por Opus” — conservando a calidade completa onde se necesita.

Conclusións para os decisores

A pregunta „LLM local ou cloud” en 2026 xa non é unha pregunta de cero-un. As mellores arquitecturas son híbridas e adaptativas — usan modelos locais onde resulta rendible, modelos cloud onde é necesario. As empresas con datos sensibles (despachos, sector financeiro, sanidade, administración) deberían comezar a construír competencias de IA local xa — en 12-24 meses deixará de ser vantaxe competitiva e pasará a ser hixiene.

Modelos LLM locais na empresa &mdash; Llama, Mistral, Bielik ou cloud?