De staat van de markt in 2026
Drie jaar geleden was het kwaliteitsverschil tussen het beste cloudmodel (GPT-4, Claude Opus) en het beste open-source model enorm. In 2026 is deze kloof in de meeste zakelijke toepassingen praktisch gesloten. Llama 3.1 405B, Mistral Large, het Poolse Bielik 11B, Qwen 2.5 — dit zijn modellen die in benchmarks voor reasoning, coderen, documentanalyse of verwerking van de Poolse taal vergelijkbare resultaten behalen als cloudmodellen.
Bovendien zijn voor veel enterprise-toepassingen 8-13B modellen niet alleen voldoende, maar optimaal. E-mailclassificatie, gegevensextractie uit facturen, samenvattingsgeneratie, basisantwoorden in klantenservice — in deze taken levert een lokale Bielik op een eigen GPU-server resultaten die niet te onderscheiden zijn van Claude Haiku, tegen nul per-token kosten.
Wanneer een lokaal model loont
De beslissing lokaal vs cloud LLM heeft meerdere dimensies. De belangrijkste:
- Volume aan verzoeken — het break-even punt met de huidige infrastructuur (server met GPU H100 80GB ~120 duizend PLN, of spot DataCrunch ~3 duizend PLN/maand) ligt rond de 50-100 miljoen tokens per maand. Daarboven — on-prem goedkoper. Daaronder — cloud.
- Gevoeligheid van data — voor data die onder GDPR valt, beroepsgeheim (advocatenkantoren, auditors, zorg) of vertrouwelijkheidsclausule van de klant, elimineren lokale LLM’s het risico van het verzenden van data naar de cloudleverancier.
- Latency — lokaal model in hetzelfde datacenter als de applicatie: 50-200 ms. Cloud: 500-2000 ms (afhankelijk van regio en queue). Voor real-time applicaties is het verschil fundamenteel.
- Compliance en datasoevereiniteit — NIS2-, ISO 27001-vereisten en sectorale regelgeving (KNF, UODO) geven steeds vaker de voorkeur aan of vereisen lokale dataverwerking.
Modelklassen en hun toepassingen
Open-source modellen zijn geen monoliet — ze verschillen in omvang, specialisatie, native taal, licentie. Praktisch overzicht:
- Kleine modellen (3-8B): Llama 3.2 3B, Phi-3 Mini, Gemma 7B. Draaien op een enkele GPU 16-24GB of zelfs op CPU. Classificatie, embeddings, eenvoudige queryclassificatie, rerouting.
- Middelgrote modellen (8-15B): Llama 3.1 8B, Bielik 11B (beste Poolse model), Mistral 7B/Nemo. Draaien op een enkele GPU 24-48GB. RAG, generatie van korte teksten, documentanalyse, customer support.
- Grote modellen (30-70B): Llama 3.1 70B, Mistral Large, Command-R+. Vereisen 2x GPU of kaarten van 80GB (H100, A100). Complex reasoning, coderen, analyse van lange documenten, juridische drafting.
- Zeer grote modellen (300B+): Llama 3.1 405B, DeepSeek V3 671B. Vereisen clusters van 4-8x H100/H200. Meestal alleen gerechtvaardigd bij zeer grote volumes of voor de moeilijkste taken.
Infrastructuur — wat is er concreet nodig
Minimale productieconfiguratie voor een middelgroot bedrijf (tot 1000 verzoeken/dag, 8-13B model):
- Server met GPU — bijvoorbeeld RTX 4090 24GB (~12 duizend PLN), L40S 48GB (~50 duizend PLN), of dedicated server met H100 80GB. Spot op DataCrunch of Vast.ai — vanaf 2-3 duizend PLN/maand voor H100.
- Runtime — Ollama (de eenvoudigste, maar zonder QoS), vLLM (productie, batch processing), TGI van HuggingFace (compromis). Ollama volstaat voor kleinere teams.
- Proxy / routing — een eigen LLM-proxy verantwoordelijk voor queueing, retry, fallback, metrics. ESKOM AI gebruikt een eigen proxy met 8-laagse routing (lokaal goedkoopste → cloud Opus voor de moeilijkste).
- Monitoring — Prometheus + Grafana voor GPU-metrics (utilisatie, temperatuur), latency, kosten per verzoek, kwaliteit van antwoorden.
- Backup en modelrotatie — modellen worden bijgewerkt — onderhoud van een fine-tuning proces of regelmatig downloaden van nieuwe versies.
Wanneer de cloud nog steeds loont
Cloudmodellen zijn niet verdwenen en hebben nog steeds een zinvolle plek in enterprise-architectuur:
- De moeilijkste taken — Claude Opus en GPT-5 (wanneer het uitkomt) zijn nog steeds beter in zeer complex reasoning, lange context (1M+ tokens), „agentic” multistep taken.
- Lage volumes — een startup met 10 duizend verzoeken/maand heeft geen eigen GPU nodig. Pay-per-token in de cloud zal enkele duizenden zloty per maand kosten — goedkoper dan infrastructuuronderhoud.
- Seizoensgebondenheid — wanneer verkeer zeer onstabiel is, voorkomt een autoscalende cloud-LLM de kosten van een inactieve GPU.
- Multimodaliteit — de nieuwste multimodale modellen (beeld, audio, video) zijn vaak eerder beschikbaar in de cloud.
Hybride — het meest voorkomende antwoord
In de praktijk bouwt de meerderheid van de bedrijven die AI goed implementeren een hybride stack:
- Lokale Llama 3.2 3B — classificatie, routing, eenvoudige data-extractie. 80% van het volume.
- Lokale Bielik 11B of Llama 3.1 8B — RAG, generatie van korte content, customer support PL/EN. 15% van het volume.
- Lokale Llama 3.1 70B — complexe analyses, coderen. 4% van het volume.
- Cloud Claude Opus / Sonnet — moeilijkste vragen, lange context, hoogste kwaliteit. 1% van het volume.
De 8-laagse routing beslist automatisch welk model een gegeven verzoek afhandelt, op basis van gedetecteerde complexiteit, taal, context. In ons HybridCrew-platform laat zo’n routing toe de gemiddelde kosten per verzoek met 70% te verlagen ten opzichte van een „alles via Opus” oplossing — met behoud van volledige kwaliteit waar nodig.
Conclusies voor beslissers
De vraag „lokale LLM of cloud” in 2026 is niet langer binair. De beste architecturen zijn hybride en adaptief — ze gebruiken lokale modellen waar het loont, cloud waar het noodzakelijk is. Bedrijven met gevoelige data (advocatenkantoren, financiële sector, zorg, overheid) zouden nu al moeten beginnen met het opbouwen van lokale AI-competenties — binnen 12-24 maanden zal dit ophouden een concurrentievoordeel te zijn en hygiëne worden.