Lokale LLM-modeller i virksomheden — Llama, Mistral, Bielik eller cloud?

Markedstilstand i 2026

For tre år siden var kvalitetsforskellen mellem den bedste cloud-model (GPT-4, Claude Opus) og den bedste open source-model enorm. I 2026 er denne kløft praktisk talt lukket i de fleste forretningsanvendelser. Llama 3.1 405B, Mistral Large, polske Bielik 11B, Qwen 2.5 — det er modeller, der i benchmarks for reasoning, kodning, dokumentanalyse eller behandling af det polske sprog opnår resultater sammenlignelige med cloud-modeller.

Desuden er 8-13B modeller for mange enterprise-anvendelser ikke kun tilstrækkelige, men optimale. Klassificering af e-mails, dataudtrækning fra fakturaer, generering af resuméer, grundlæggende svar i kundeservice — i disse opgaver giver lokal Bielik på en egen GPU-server resultater, der ikke kan skelnes fra Claude Haiku, med nul omkostninger per token.

Hvornår betaler den lokale model sig

Beslutningen lokal vs cloud LLM har flere dimensioner. De vigtigste:

Forespørgselsvolumen — break-even-punktet med nuværende infrastruktur (server med GPU H100 80GB ~120 tusind PLN, eller spot DataCrunch ~3 tusind PLN/måned) falder omkring 50-100 mio. tokens månedligt. Derover — on-prem billigere. Derunder — cloud.
Datafølsomhed — for data omfattet af GDPR, professionel tavshedspligt (advokatkontorer, revisorer, sundhedsvæsen) eller kundens fortrolighedsklausuler eliminerer lokale LLM'er risikoen forbundet med at sende data til en cloud-leverandør.
Latens — lokal model i samme datacenter som applikationen: 50-200 ms. Cloud: 500-2000 ms (afhængigt af region og kø). For realtidsapplikationer er forskellen fundamental.
Compliance og datasuverænitet — kravene fra NIS2, ISO 27001, sektorspecifikke reguleringer foretrækker eller kræver i stigende grad lokal databehandling.

Modelklasser og deres anvendelser

Open source-modeller er ikke en monolit — de adskiller sig i størrelse, specialisering, modersmål, licens. Praktisk oversigt:

Små modeller (3-8B): Llama 3.2 3B, Phi-3 Mini, Gemma 7B. Fungerer på et enkelt GPU-kort 16-24GB eller endda på CPU. Klassificering, embeddings, simpel forespørgselsklassificering, rerouting.
Mellemstore modeller (8-15B): Llama 3.1 8B, Bielik 11B (den bedste polske model), Mistral 7B/Nemo. Fungerer på et enkelt GPU-kort 24-48GB. RAG, generering af korte tekster, dokumentanalyse, customer support.
Store modeller (30-70B): Llama 3.1 70B, Mistral Large, Command-R+. Kræver 2x GPU eller et 80GB-kort (H100, A100). Kompleks reasoning, kodning, analyse af lange dokumenter, juridisk drafting.
Meget store modeller (300B+): Llama 3.1 405B, DeepSeek V3 671B. Kræver klynger på 4-8x H100/H200. Som regel kun retfærdiggjort ved meget store volumener eller for de sværeste opgaver.

Infrastruktur — hvad der konkret er brug for

Minimal produktionskonfiguration for en mellemstor virksomhed (op til 1000 forespørgsler/dag, model 8-13B):

Server med GPU — f.eks. RTX 4090 24GB (~12 tusind PLN), L40S 48GB (~50 tusind PLN), eller dedikeret server med H100 80GB. Spot på DataCrunch eller Vast.ai — fra 2-3 tusind PLN/måned for H100.
Runtime — Ollama (enklest, men uden QoS), vLLM (produktion, batch processing), TGI fra HuggingFace (kompromis). Ollama er tilstrækkeligt for mindre teams.
Proxy / routing — egen LLM-proxy ansvarlig for kø, retry, fallback, metrikker. ESKOM AI bruger en egen proxy med 8-niveau routing (lokale billigste → cloud Opus for de sværeste).
Monitorering — Prometheus + Grafana for GPU-metrikker (udnyttelse, temperatur), latens, omkostning per forespørgsel, svarkvalitet.
Backup og modelrotation — modeller opdateres — vedligeholdelse af en fine-tuning-proces eller regelmæssig download af nye versioner.

Hvornår betaler cloud sig stadig

Cloud-modeller er ikke forsvundet og har stadig en fornuftig plads i enterprise-arkitekturen:

De sværeste opgaver — Claude Opus og GPT-5 (når den udkommer) er stadig bedre til meget kompleks reasoning, lang kontekst (1M+ tokens), „agentic” multistep-opgaver.
Lave volumener — startup med 10 tusind forespørgsler/måned har ikke brug for en egen GPU. Pay-per-token i cloud koster enkelte tusinder PLN månedligt — billigere end at vedligeholde infrastruktur.
Sæsonbestemt — når trafikken er meget ustabil, vil en autoskalerende cloud-LLM undgå omkostninger ved en GPU der står stille.
Multimodalitet — de nyeste multimodale modeller (billede, lyd, video) er ofte tilgængelige tidligere i cloud.

Hybrid — det hyppigste svar

I praksis bygger de fleste virksomheder, der implementerer AI godt, en hybrid stack:

Lokal Llama 3.2 3B — klassificering, routing, simpel dataudtrækning. 80 % af volumen.
Lokal Bielik 11B eller Llama 3.1 8B — RAG, generering af korte tekster, customer support PL/EN. 15 % af volumen.
Lokal Llama 3.1 70B — komplekse analyser, kodning. 4 % af volumen.
Cloud Claude Opus / Sonnet — sværeste spørgsmål, lang kontekst, højeste kvalitet. 1 % af volumen.

En 8-niveau routing beslutter automatisk, hvilken model der skal håndtere en given forespørgsel, baseret på detekteret kompleksitet, sprog, kontekst. På vores HybridCrew-platform tillader sådan routing at reducere de gennemsnitlige omkostninger per forespørgsel med 70 % i forhold til en „alt gennem Opus”-løsning — samtidig med at den fulde kvalitet bevares, hvor det er nødvendigt.

Konklusioner for beslutningstagere

Spørgsmålet „lokal LLM eller cloud” i 2026 er ikke længere et binært spørgsmål. De bedste arkitekturer er hybride og adaptive — de bruger lokale modeller, hvor det er rentabelt, cloud-modeller, hvor det er nødvendigt. Virksomheder med følsomme data (advokatkontorer, finanssektor, sundhedsvæsen, administration) bør begynde at opbygge lokale AI-kompetencer allerede nu — inden for 12-24 måneder vil dette ophøre med at være en konkurrencefordel og blive til hygiejne.