Retour au Blog IA & Machine Learning

LLM locaux en entreprise — Llama, Mistral, Bielik ou le cloud ?

Zespół ESKOM.AI 2026-06-09 Temps de lecture: 8 min

État du marché en 2026

Il y a trois ans, l’écart de qualité entre le meilleur modèle cloud (GPT-4, Claude Opus) et le meilleur modèle open source était énorme. En 2026, cet écart s’est pratiquement comblé pour la plupart des cas d’usage métier. Llama 3.1 405B, Mistral Large, le polonais Bielik 11B, Qwen 2.5 — ce sont des modèles qui, dans les benchmarks de raisonnement, de codage, d’analyse de documents ou de traitement du polonais, atteignent des résultats comparables aux modèles cloud.

Plus encore, pour de nombreux cas d’usage entreprise, les modèles 8-13B sont non seulement suffisants, mais optimaux. Classification d’emails, extraction de données depuis des factures, génération de résumés, réponses basiques de support client — dans ces tâches, un Bielik local sur votre propre serveur GPU donne des résultats indiscernables de Claude Haiku, à coût zéro par token.

Quand un modèle local est rentable

La décision LLM local vs cloud a plusieurs dimensions. Les plus importantes :

  • Volume de requêtes — le point d’équilibre avec l’infrastructure actuelle (serveur avec GPU H100 80GB ~120 000 PLN, ou spot DataCrunch ~3 000 PLN/mois) se situe autour de 50-100 millions de tokens par mois. Au-dessus — l’on-premise est moins cher. En dessous — le cloud.
  • Sensibilité des données — pour les données soumises au RGPD, au secret professionnel (cabinets juridiques, auditeurs, santé) ou à des clauses de confidentialité client, les LLM locaux éliminent le risque lié à l’envoi des données vers un fournisseur cloud.
  • Latence — modèle local dans le même datacenter que l’application : 50-200 ms. Cloud : 500-2000 ms (selon la région et la file d’attente). Pour les applications temps réel, la différence est fondamentale.
  • Conformité et souveraineté des données — les exigences NIS2, ISO 27001, les réglementations sectorielles préfèrent ou exigent de plus en plus le traitement local des données.

Classes de modèles et leurs cas d’usage

Les modèles open source ne forment pas un monolithe — ils diffèrent par leur taille, leur spécialisation, leur langue native, leur licence. Aperçu pratique :

  • Petits modèles (3-8B) : Llama 3.2 3B, Phi-3 Mini, Gemma 7B. Fonctionnent sur un seul GPU 16-24GB ou même sur CPU. Classification, embeddings, routage simple de requêtes, rerouting.
  • Modèles moyens (8-15B) : Llama 3.1 8B, Bielik 11B (le meilleur modèle polonais), Mistral 7B/Nemo. Fonctionnent sur un seul GPU 24-48GB. RAG, génération de textes courts, analyse de documents, support client.
  • Grands modèles (30-70B) : Llama 3.1 70B, Mistral Large, Command-R+. Nécessitent 2x GPU ou une carte 80GB (H100, A100). Raisonnement complexe, codage, analyse de longs documents, rédaction juridique.
  • Très grands modèles (300B+) : Llama 3.1 405B, DeepSeek V3 671B. Nécessitent des clusters 4-8x H100/H200. Le plus souvent justifiés uniquement pour de très gros volumes ou pour les tâches les plus difficiles.

Infrastructure — ce qu’il faut concrètement

Configuration de production minimale pour une PME (jusqu’à 1000 requêtes/jour, modèle 8-13B) :

  • Serveur avec GPU — par exemple RTX 4090 24GB (~12 000 PLN), L40S 48GB (~50 000 PLN), ou serveur dédié avec H100 80GB. Spot sur DataCrunch ou Vast.ai — à partir de 2-3 000 PLN/mois pour un H100.
  • Runtime — Ollama (le plus simple, mais sans QoS), vLLM (production, batch processing), TGI de HuggingFace (compromis). Ollama suffit pour les petites équipes.
  • Proxy / routage — un LLM proxy maison responsable de la mise en file d’attente, du retry, du fallback, des métriques. ESKOM AI utilise son propre proxy avec un routage à 8 niveaux (le plus économique local → cloud Opus pour les plus difficiles).
  • Monitoring — Prometheus + Grafana pour les métriques GPU (utilisation, température), latence, coût par requête, qualité des réponses.
  • Sauvegarde et rotation des modèles — les modèles se mettent à jour — maintien d’un processus de fine-tuning ou de téléchargement régulier de nouvelles versions.

Quand le cloud reste rentable

Les modèles cloud n’ont pas disparu et ont toujours leur place pertinente dans l’architecture entreprise :

  • Tâches les plus difficiles — Claude Opus et GPT-5 (quand il sortira) restent meilleurs en raisonnement très complexe, contexte long (1M+ tokens), tâches « agentiques » multistep.
  • Faibles volumes — une startup avec 10 000 requêtes/mois n’a pas besoin de son propre GPU. Le pay-per-token dans le cloud coûtera quelques milliers de PLN par mois — moins cher que la maintenance de l’infrastructure.
  • Saisonnalité — quand le trafic est très instable, un LLM cloud autoscaling évite les coûts d’un GPU inactif.
  • Multimodalité — les modèles multimodaux les plus récents (image, audio, vidéo) sont souvent disponibles plus tôt dans le cloud.

Hybride — la réponse la plus fréquente

En pratique, la plupart des entreprises qui déploient bien l’IA construisent un stack hybride :

  • Llama 3.2 3B local — classification, routage, extraction simple de données. 80 % du volume.
  • Bielik 11B ou Llama 3.1 8B local — RAG, génération de contenu court, support client PL/EN. 15 % du volume.
  • Llama 3.1 70B local — analyses complexes, codage. 4 % du volume.
  • Cloud Claude Opus / Sonnet — questions les plus difficiles, contexte long, qualité maximale. 1 % du volume.

Un routage à 8 niveaux décide automatiquement quel modèle traitera une requête donnée, en fonction de la complexité détectée, de la langue, du contexte. Sur notre plateforme HybridCrew, ce type de routage permet de réduire le coût moyen d’une requête de 70 % par rapport à une solution « tout par Opus » — tout en préservant la pleine qualité là où elle est nécessaire.

Conclusions pour les décideurs

La question « LLM local ou cloud » en 2026 n’est plus une question binaire. Les meilleures architectures sont hybrides et adaptatives — elles utilisent les modèles locaux quand c’est rentable, les modèles cloud quand c’est nécessaire. Les entreprises avec des données sensibles (cabinets juridiques, secteur financier, santé, administration) devraient commencer à développer leurs compétences en IA locale dès maintenant — dans 12 à 24 mois, ce ne sera plus un avantage compétitif mais une question d’hygiène.

#LLM #Llama #Mistral #Bielik #on-prem #open-source #GPU