Estado do mercado en 2026
Hai tres anos a diferenza de calidade entre o mellor modelo cloud (GPT-4, Claude Opus) e o mellor modelo open source era enorme. En 2026 esa fenda pechouse practicamente na maioría dos usos empresariais. Llama 3.1 405B, Mistral Large, o polaco Bielik 11B, Qwen 2.5 — son modelos que en benchmarks de razoamento, codificación, análise de documentos ou tratamento do polaco acadan resultados comparables aos modelos cloud.
Aínda máis, para moitos usos enterprise os modelos 8-13B non son só suficientes, senón óptimos. Clasificación de correos, extracción de datos de facturas, xeración de resumos, respostas básicas de atención ao cliente — nestas tarefas un Bielik local no propio servidor GPU dá resultados indistinguibles de Claude Haiku, con custo cero por token.
Cando vale a pena o modelo local
A decisión LLM local vs cloud ten varias dimensións. As máis importantes:
- Volume de consultas — o punto de break-even coa infraestrutura actual (servidor con GPU H100 80GB ~120 mil PLN, ou spot DataCrunch ~3 mil PLN/mes) cae arredor de 50-100 millóns de tokens ao mes. Por riba — on-premise máis barato. Por baixo — cloud.
- Sensibilidade dos datos — para datos sometidos ao RGPD, segredo profesional (despachos de avogados, auditores, sanidade) ou cláusula de confidencialidade do cliente, os LLM locais eliminan o risco de enviar datos a un provedor cloud.
- Latencia — modelo local no mesmo datacenter que a aplicación: 50-200 ms. Cloud: 500-2000 ms (segundo rexión e cola). Para aplicacións en tempo real, a diferenza é fundamental.
- Compliance e soberanía dos datos — os requisitos de NIS2, ISO 27001, regulacións sectoriais cada vez con máis frecuencia prefiren ou requiren o procesamento local de datos.
Clases de modelos e os seus usos
Os modelos open source non son un monolito — difiren en tamaño, especialización, lingua nativa, licenza. Visión práctica:
- Modelos pequenos (3-8B): Llama 3.2 3B, Phi-3 Mini, Gemma 7B. Funcionan nunha soa GPU de 16-24GB ou mesmo en CPU. Clasificación, embeddings, enrutamento simple de consultas, rerouting.
- Modelos medios (8-15B): Llama 3.1 8B, Bielik 11B (o mellor modelo polaco), Mistral 7B/Nemo. Funcionan nunha soa GPU de 24-48GB. RAG, xeración de textos curtos, análise de documentos, customer support.
- Modelos grandes (30-70B): Llama 3.1 70B, Mistral Large, Command-R+. Requiren 2x GPU ou tarxeta de 80GB (H100, A100). Razoamento complexo, codificación, análise de documentos longos, redacción xurídica.
- Modelos moi grandes (300B+): Llama 3.1 405B, DeepSeek V3 671B. Requiren clusters 4-8x H100/H200. Adoita estar xustificado só con volumes moi altos ou para as tarefas máis difíciles.
Infraestrutura — que se precisa concretamente
Configuración mínima de produción para unha empresa mediana (ata 1000 consultas/día, modelo 8-13B):
- Servidor con GPU — por exemplo RTX 4090 24GB (~12 mil PLN), L40S 48GB (~50 mil PLN), ou servidor dedicado con H100 80GB. Spot en DataCrunch ou Vast.ai — desde 2-3 mil PLN/mes por H100.
- Runtime — Ollama (o máis simple, pero sen QoS), vLLM (de produción, batch processing), TGI de HuggingFace (compromiso). Ollama abonda para equipos pequenos.
- Proxy / routing — LLM proxy propio responsable de cola, retry, fallback, métricas. ESKOM AI usa o seu propio proxy cun routing de 8 niveis (local máis barato → cloud Opus para os máis difíciles).
- Monitoring — Prometheus + Grafana para métricas de GPU (uso, temperatura), latencia, custo por consulta, calidade da resposta.
- Backup e rotación de modelos — os modelos actualízanse — mantemento dun proceso de fine-tuning ou descarga regular de novas versións.
Cando segue valendo a pena o cloud
Os modelos cloud non desapareceron e seguen tendo un lugar razoable na arquitectura empresarial:
- As tarefas máis difíciles — Claude Opus e GPT-5 (cando saia) seguen sendo mellores en razoamento moi complexo, contexto longo (1M+ tokens), tarefas „agentic” de varios pasos.
- Volumes baixos — unha startup con 10 mil consultas/mes non precisa GPU propia. O pay-per-token no cloud custará uns poucos miles de PLN ao mes — máis barato que manter infraestrutura.
- Estacionalidade — cando o tráfico é moi inestable, un LLM cloud con autoscaling evita custos dunha GPU ociosa.
- Multimodalidade — os modelos multimodais máis recentes (imaxe, audio, vídeo) adoitan estar dispoñibles antes no cloud.
Híbrido — a resposta máis frecuente
Na práctica, a maioría das empresas que implementan ben a IA constrúen un stack híbrido:
- Llama 3.2 3B local — clasificación, routing, extracción simple de datos. 80% do volume.
- Bielik 11B ou Llama 3.1 8B local — RAG, xeración de contidos curtos, customer support PL/EN. 15% do volume.
- Llama 3.1 70B local — análises complexas, codificación. 4% do volume.
- Cloud Claude Opus / Sonnet — preguntas máis difíciles, contexto longo, calidade máxima. 1% do volume.
Un routing de 8 niveis decide automaticamente que modelo procesará cada consulta, baseado na complexidade detectada, idioma, contexto. Na nosa plataforma HybridCrew este tipo de routing permite reducir o custo medio dunha consulta nun 70% respecto a unha solución „todo por Opus” — conservando a calidade completa onde se necesita.
Conclusións para os decisores
A pregunta „LLM local ou cloud” en 2026 xa non é unha pregunta de cero-un. As mellores arquitecturas son híbridas e adaptativas — usan modelos locais onde resulta rendible, modelos cloud onde é necesario. As empresas con datos sensibles (despachos, sector financeiro, sanidade, administración) deberían comezar a construír competencias de IA local xa — en 12-24 meses deixará de ser vantaxe competitiva e pasará a ser hixiene.