Tillbaka till Bloggen AI & Maskininlärning

Lokala LLM-modeller i företaget — Llama, Mistral, Bielik eller molnet?

Zespół ESKOM.AI 2026-06-09 Lästid: 8 min

Marknadens tillstånd 2026

För tre år sedan var kvalitetsskillnaden mellan den bästa molnmodellen (GPT-4, Claude Opus) och den bästa open source-modellen enorm. 2026 har detta gap praktiskt taget stängts i de flesta affärstillämpningar. Llama 3.1 405B, Mistral Large, polska Bielik 11B, Qwen 2.5 — det är modeller som i benchmarks för reasoning, kodning, dokumentanalys eller hantering av polska språket uppnår resultat jämförbara med molnmodeller.

Dessutom är 8-13B-modeller för många enterprise-tillämpningar inte bara tillräckliga, utan optimala. E-postklassificering, dataextraktion från fakturor, generering av sammanfattningar, grundläggande svar i kundsupport — i dessa uppgifter ger lokala Bielik på en egen GPU-server resultat som inte kan skiljas från Claude Haiku, vid noll kostnader per token.

När lönar sig en lokal modell

Beslutet lokal vs molnLLM har flera dimensioner. De viktigaste:

  • Volym av förfrågningar — break-even-punkten med dagens infrastruktur (server med GPU H100 80GB ~120 tusen PLN, eller spot DataCrunch ~3 tusen PLN/månad) hamnar runt 50-100 miljoner tokens per månad. Över — on-prem billigare. Under — moln.
  • Datakänslighet — för data som omfattas av GDPR, yrkesmässig sekretess (advokatbyråer, revisorer, sjukvård) eller klientens sekretessklausul, eliminerar lokala LLM:er risken förknippad med att skicka data till en molnleverantör.
  • Latens — lokal modell i samma datacenter som applikationen: 50-200 ms. Moln: 500-2000 ms (beroende på region och kö). För real-time-applikationer är skillnaden fundamental.
  • Compliance och datasuveränitet — krav från NIS2, ISO 27001, sektorsregler (KNF, UODO) föredrar eller kräver allt oftare lokal databehandling.

Modellklasser och deras tillämpningar

Open source-modeller är inte en monolit — de skiljer sig åt i storlek, specialisering, modersmål, licens. Praktisk översikt:

  • Små modeller (3-8B): Llama 3.2 3B, Phi-3 Mini, Gemma 7B. Körs på ett enstaka GPU-kort 16-24GB eller till och med på CPU. Klassificering, embeddings, enkel klassificering av förfrågningar, rerouting.
  • Medelstora modeller (8-15B): Llama 3.1 8B, Bielik 11B (bästa polska modellen), Mistral 7B/Nemo. Körs på ett enstaka GPU-kort 24-48GB. RAG, generering av korta texter, dokumentanalys, customer support.
  • Stora modeller (30-70B): Llama 3.1 70B, Mistral Large, Command-R+. Kräver 2x GPU eller kort på 80GB (H100, A100). Komplex reasoning, kodning, analys av långa dokument, juridisk drafting.
  • Mycket stora modeller (300B+): Llama 3.1 405B, DeepSeek V3 671B. Kräver kluster av 4-8x H100/H200. Oftast motiverade endast vid mycket stora volymer eller för de svåraste uppgifterna.

Infrastruktur — vad behövs konkret

Minimal produktionskonfiguration för ett medelstort företag (upp till 1000 förfrågningar/dag, 8-13B-modell):

  • Server med GPU — t.ex. RTX 4090 24GB (~12 tusen PLN), L40S 48GB (~50 tusen PLN) eller dedikerad server med H100 80GB. Spot på DataCrunch eller Vast.ai — från 2-3 tusen PLN/månad för H100.
  • Runtime — Ollama (enklast, men utan QoS), vLLM (produktionsmässig, batch processing), TGI från HuggingFace (kompromiss). Ollama räcker för mindre team.
  • Proxy / routing — egen LLM-proxy ansvarig för köhantering, retry, fallback, mätningar. ESKOM AI använder en egen proxy med 8-nivåers routing (lokalt billigast → moln Opus för de svåraste).
  • Monitoring — Prometheus + Grafana för GPU-mätningar (utnyttjande, temperatur), latens, kostnad per förfrågan, svarens kvalitet.
  • Backup och modellrotation — modeller uppdateras — underhåll av fine-tuning-processen eller regelbunden nedladdning av nya versioner.

När lönar sig molnet fortfarande

Molnmodeller har inte försvunnit och har fortfarande en meningsfull plats i enterprise-arkitekturen:

  • De svåraste uppgifterna — Claude Opus och GPT-5 (när det kommer) är fortfarande bättre på mycket komplex reasoning, lång kontext (1M+ tokens), „agentic” multistep-uppgifter.
  • Låga volymer — en startup med 10 tusen förfrågningar/månad behöver ingen egen GPU. Pay-per-token i molnet kommer att kosta enstaka tusen zloty per månad — billigare än att underhålla infrastruktur.
  • Säsongsvariationer — när trafiken är mycket instabil undviker en autoskalande moln-LLM kostnader för en GPU som står still.
  • Multimodalitet — de senaste multimodala modellerna (bild, ljud, video) är ofta tillgängliga tidigare i molnet.

Hybrid — det vanligaste svaret

I praktiken bygger de flesta företag som inför AI väl en hybrid stack:

  • Lokal Llama 3.2 3B — klassificering, routing, enkel dataextraktion. 80% av volymen.
  • Lokal Bielik 11B eller Llama 3.1 8B — RAG, generering av kortare innehåll, customer support PL/EN. 15% av volymen.
  • Lokal Llama 3.1 70B — komplexa analyser, kodning. 4% av volymen.
  • Moln Claude Opus / Sonnet — svåraste frågorna, lång kontext, högsta kvaliteten. 1% av volymen.

8-nivåers routing beslutar automatiskt vilken modell som ska hantera en given förfrågan, baserat på upptäckt komplexitet, språk, kontext. På vår HybridCrew-plattform tillåter sådan routing att den genomsnittliga kostnaden per förfrågan minskas med 70% jämfört med en „allt via Opus”-lösning — samtidigt som full kvalitet bibehålls där den behövs.

Slutsatser för beslutsfattare

Frågan „lokal LLM eller moln” 2026 är inte längre en noll-ett-fråga. De bästa arkitekturerna är hybrider och adaptiva — använder lokala modeller där det är lönsamt, moln där det är nödvändigt. Företag med känsliga data (advokatbyråer, finanssektorn, sjukvård, administration) bör börja bygga lokala AI-kompetenser redan nu — under 12-24 månader kommer detta att sluta vara en konkurrensfördel och bli hygien.

#LLM #Llama #Mistral #Bielik #on-prem #open-source #GPU