Modelos LLM locales en la empresa: ¿Llama, Mistral, Bielik o nube?

Estado del mercado en 2026

Hace tres años, la diferencia de calidad entre el mejor modelo en la nube (GPT-4, Claude Opus) y el mejor modelo open-source era enorme. En 2026, esta brecha prácticamente se ha cerrado en la mayoría de aplicaciones empresariales. Llama 3.1 405B, Mistral Large, el polaco Bielik 11B, Qwen 2.5: son modelos que en benchmarks de reasoning, codificación, análisis de documentos o manejo del idioma polaco alcanzan resultados comparables con los modelos en la nube.

Además, para muchas aplicaciones empresariales, los modelos de 8-13B no solo son suficientes, sino óptimos. Clasificación de correos, extracción de datos de facturas, generación de resúmenes, respuestas básicas en atención al cliente: en estas tareas, un Bielik local en tu propio servidor GPU ofrece resultados indistinguibles de Claude Haiku, con cero costes por token.

Cuándo merece la pena el modelo local

La decisión LLM local vs nube tiene varias dimensiones. Las más importantes:

Volumen de consultas: el punto de break-even con la infraestructura actual (servidor con GPU H100 80GB ~120 mil PLN, o spot DataCrunch ~3 mil PLN/mes) se sitúa alrededor de 50-100 millones de tokens mensuales. Por encima: on-prem más barato. Por debajo: nube.
Sensibilidad de datos: para datos sujetos a RGPD, secreto profesional (bufetes de abogados, auditores, sanidad) o cláusula de confidencialidad del cliente, los LLM locales eliminan el riesgo asociado al envío de datos a un proveedor en la nube.
Latencia: modelo local en el mismo datacenter que la aplicación: 50-200 ms. Nube: 500-2000 ms (dependiendo de la región y la cola). Para aplicaciones en tiempo real, la diferencia es fundamental.
Cumplimiento y soberanía de datos: los requisitos NIS2, ISO 27001, regulaciones sectoriales prefieren o requieren cada vez más el procesamiento local de datos.

Clases de modelos y sus aplicaciones

Los modelos open-source no son un monolito: difieren en tamaño, especialización, idioma nativo, licencia. Resumen práctico:

Modelos pequeños (3-8B): Llama 3.2 3B, Phi-3 Mini, Gemma 7B. Funcionan en una única tarjeta GPU de 16-24GB o incluso en CPU. Clasificación, embeddings, clasificación simple de consultas, rerouting.
Modelos medianos (8-15B): Llama 3.1 8B, Bielik 11B (el mejor modelo polaco), Mistral 7B/Nemo. Funcionan en una única tarjeta GPU de 24-48GB. RAG, generación de textos cortos, análisis de documentos, customer support.
Modelos grandes (30-70B): Llama 3.1 70B, Mistral Large, Command-R+. Requieren 2x GPU o tarjeta de 80GB (H100, A100). Reasoning complejo, codificación, análisis de documentos largos, drafting legal.
Modelos muy grandes (300B+): Llama 3.1 405B, DeepSeek V3 671B. Requieren clusters de 4-8x H100/H200. Más frecuentemente justificados solo con volúmenes muy grandes o para las tareas más difíciles.

Infraestructura: qué se necesita concretamente

Configuración mínima de producción para una empresa mediana (hasta 1000 consultas/día, modelo de 8-13B):

Servidor con GPU: p. ej., RTX 4090 24GB (~12 mil PLN), L40S 48GB (~50 mil PLN), o servidor dedicado con H100 80GB. Spot en DataCrunch o Vast.ai: desde 2-3 mil PLN/mes por H100.
Runtime: Ollama (el más simple, pero sin QoS), vLLM (de producción, batch processing), TGI de HuggingFace (compromiso). Ollama es suficiente para equipos más pequeños.
Proxy / routing: LLM proxy propio responsable del queueing, retry, fallback, métricas. ESKOM AI utiliza su propio proxy con routing de 8 niveles (local más barato → cloud Opus para los más difíciles).
Monitoreo: Prometheus + Grafana para métricas de GPU (utilización, temperatura), latencia, coste por consulta, calidad de respuesta.
Backup y rotación de modelos: los modelos se actualizan: mantenimiento del proceso de fine-tuning o descarga regular de nuevas versiones.

Cuándo sigue mereciendo la pena la nube

Los modelos en la nube no han desaparecido y siguen teniendo un lugar sensato en la arquitectura empresarial:

Las tareas más difíciles: Claude Opus y GPT-5 (cuando salga) siguen siendo mejores en reasoning muy complejo, contexto largo (1M+ tokens), tareas „agentic” multistep.
Volúmenes bajos: una startup con 10 mil consultas/mes no necesita su propia GPU. Pay-per-token en la nube costará unos pocos miles de zlotys mensuales: más barato que mantener infraestructura.
Estacionalidad: cuando el tráfico es muy inestable, un LLM en la nube con autoescalado evitará los costes de una GPU inactiva.
Multimodalidad: los modelos multimodales más recientes (imagen, audio, vídeo) suelen estar disponibles antes en la nube.

Híbrido: la respuesta más frecuente

En la práctica, la mayoría de empresas que implementan bien la IA construyen un stack híbrido:

Llama 3.2 3B local: clasificación, routing, extracción simple de datos. 80% del volumen.
Bielik 11B local o Llama 3.1 8B: RAG, generación de contenido corto, customer support PL/EN. 15% del volumen.
Llama 3.1 70B local: análisis complejos, codificación. 4% del volumen.
Cloud Claude Opus / Sonnet: las preguntas más difíciles, contexto largo, máxima calidad. 1% del volumen.

El routing de 8 niveles decide automáticamente qué modelo procesará cada consulta, basándose en la complejidad detectada, idioma, contexto. En nuestra plataforma HybridCrew, este routing permite reducir el coste promedio de consulta en un 70% en comparación con la solución „todo a través de Opus”, manteniendo la calidad completa donde es necesaria.

Conclusiones para los responsables de decisiones

La pregunta „LLM local o nube” en 2026 ya no es una pregunta de blanco o negro. Las mejores arquitecturas son híbridas y adaptativas: usan modelos locales donde es rentable, en la nube donde es necesario. Las empresas con datos sensibles (bufetes, sector financiero, sanidad, administración) deberían empezar a construir competencias en IA local ahora mismo: en 12-24 meses dejará de ser una ventaja competitiva y se convertirá en higiene básica.