Paikalliset LLM-mallit yrityksessä — Llama, Mistral, Bielik vai pilvi?

Markkinatilanne vuonna 2026

Kolme vuotta sitten ero parhaan pilvimallin (GPT-4, Claude Opus) ja parhaan open-source-mallin laadussa oli valtava. Vuonna 2026 tämä kuilu on käytännössä sulkeutunut useimmissa liiketoimintasovelluksissa. Llama 3.1 405B, Mistral Large, puolalainen Bielik 11B, Qwen 2.5 — nämä ovat malleja, jotka reasoning-, koodaus-, dokumenttianalyysi- tai puolan kielen käsittelyn benchmarkeissä saavuttavat pilvimalleihin verrattavia tuloksia.

Lisäksi monille enterprise-sovelluksille 8-13B-mallit eivät ole vain riittäviä, vaan optimaalisia. Sähköpostien luokittelu, datan poiminta laskuista, yhteenvetojen generointi, perusvastauksia asiakaspalvelussa — näissä tehtävissä paikallinen Bielik omalla GPU-palvelimella antaa tuloksia, joita ei voi erottaa Claude Haikun antamista, nollalla per-token-kustannuksilla.

Milloin paikallinen malli kannattaa

Päätös paikallinen vs pilvi-LLM sisältää useita ulottuvuuksia. Tärkeimmät:

Kyselyiden volyymi — break-even-piste nykyisellä infrastruktuurilla (palvelin GPU H100 80GB ~120 tuhatta PLN, tai spot DataCrunch ~3 tuhatta PLN/kk) sijoittuu noin 50-100 miljoonan tokenin kohdalle kuukaudessa. Yli — on-prem halvempi. Alle — pilvi.
Datan herkkyys — GDPR:n alaisille tiedoille, ammattisalaisuuden (lakitoimistot, tilintarkastajat, terveydenhuolto) tai asiakkaan luottamuksellisuuslausekkeen alaisille tiedoille paikalliset LLM:t eliminoivat datan lähettämiseen pilvipalveluntarjoajalle liittyvän riskin.
Latenssi — paikallinen malli samassa datacenterissa sovelluksen kanssa: 50-200 ms. Pilvi: 500-2000 ms (alueesta ja jonosta riippuen). Reaaliaikasovelluksille ero on perustavanlaatuinen.
Compliance ja datan suvereniteetti — NIS2:n, ISO 27001:n vaatimukset, toimialakohtaiset säädökset suosivat tai vaativat yhä useammin datan paikallista käsittelyä.

Malliluokat ja niiden sovellukset

Open-source-mallit eivät ole monoliitti — ne eroavat koossa, erikoistumisessa, äidinkielessä, lisenssissä. Käytännön katsaus:

Pienet mallit (3-8B): Llama 3.2 3B, Phi-3 Mini, Gemma 7B. Toimivat yksittäisellä GPU-kortilla 16-24GB tai jopa CPU:lla. Luokittelu, embeddingit, kyselyiden yksinkertainen luokittelu, rerouting.
Keskikokoiset mallit (8-15B): Llama 3.1 8B, Bielik 11B (paras puolalainen malli), Mistral 7B/Nemo. Toimivat yksittäisellä GPU-kortilla 24-48GB. RAG, lyhyiden tekstien generointi, dokumenttianalyysi, customer support.
Suuret mallit (30-70B): Llama 3.1 70B, Mistral Large, Command-R+. Vaativat 2x GPU tai 80GB-kortin (H100, A100). Monimutkainen reasoning, koodaus, pitkien dokumenttien analyysi, oikeudellinen drafting.
Erittäin suuret mallit (300B+): Llama 3.1 405B, DeepSeek V3 671B. Vaativat 4-8x H100/H200 -klusterit. Useimmiten perusteltuja vain erittäin suurilla volyymeillä tai vaikeimmille tehtäville.

Infrastruktuuri — mitä konkreettisesti tarvitaan

Minimituotantokokoonpano keskikokoiselle yritykselle (jopa 1000 kyselyä/päivä, 8-13B-malli):

Palvelin GPU:lla — esim. RTX 4090 24GB (~12 tuhatta PLN), L40S 48GB (~50 tuhatta PLN), tai dedikoitu palvelin H100 80GB:n kanssa. Spot DataCrunchissa tai Vast.ai:ssa — alkaen 2-3 tuhatta PLN/kk H100:sta.
Runtime — Ollama (yksinkertaisin, mutta ilman QoS:ää), vLLM (tuotantoluokka, batch processing), TGI HuggingFacelta (kompromissi). Ollama riittää pienemmille tiimeille.
Proxy / routing — oma LLM proxy vastuussa jonotuksesta, retrystä, fallbackistä, metriikoista. ESKOM AI käyttää omaa proxya 8-tasoisella routingilla (paikallinen halvin → cloud Opus vaikeimmille).
Monitorointi — Prometheus + Grafana GPU-metriikoille (käyttöaste, lämpötila), latenssille, kyselyn kustannukselle, vastauksen laadulle.
Mallien varmuuskopiointi ja kierrätys — mallit päivittyvät — fine-tuning-prosessin tai uusien versioiden säännöllisen lataamisen ylläpito.

Milloin pilvi vielä kannattaa

Pilvimallit eivät ole kadonneet ja niillä on edelleen järkevä paikka enterprise-arkkitehtuurissa:

Vaikeimmat tehtävät — Claude Opus ja GPT-5 (kun se julkaistaan) ovat edelleen parempia hyvin monimutkaisessa reasoningissa, pitkässä kontekstissa (1M+ tokenia), „agentic” multistep-tehtävissä.
Matalat volyymit — startup, jolla on 10 tuhatta kyselyä/kk, ei tarvitse omaa GPU:ta. Pay-per-token pilvessä maksaa muutaman tuhatta zlotya kuukaudessa — halvempi kuin infrastruktuurin ylläpito.
Kausiluonteisuus — kun liikenne on hyvin epävakaata, autoskaalautuva pilvi-LLM välttää tyhjäkäynnissä olevan GPU:n kustannukset.
Multimodaalisuus — uusimmat multimodaaliset mallit (kuva, ääni, video) ovat usein saatavilla aikaisemmin pilvessä.

Hybridi — yleisin vastaus

Käytännössä useimmat yritykset, jotka ottavat tekoälyä hyvin käyttöön, rakentavat hybridi-stackin:

Paikallinen Llama 3.2 3B — luokittelu, routing, datan yksinkertainen poiminta. 80% volyymistä.
Paikallinen Bielik 11B tai Llama 3.1 8B — RAG, lyhyen sisällön generointi, customer support PL/EN. 15% volyymistä.
Paikallinen Llama 3.1 70B — monimutkaiset analyysit, koodaus. 4% volyymistä.
Cloud Claude Opus / Sonnet — vaikeimmat kysymykset, pitkä konteksti, korkein laatu. 1% volyymistä.

8-tasoinen routing päättää automaattisesti, mikä malli käsittelee tietyn kyselyn, havaitun monimutkaisuuden, kielen, kontekstin perusteella. HybridCrew-alustallamme tällainen routing mahdollistaa kyselyn keskimääräisen kustannuksen alentamisen 70% verrattuna ratkaisuun „kaikki Opusin kautta” — säilyttäen täyden laadun siellä missä sitä tarvitaan.

Johtopäätökset päättäjille

Kysymys „paikallinen LLM vai pilvi” vuonna 2026 ei ole enää nolla-yksi-kysymys. Parhaat arkkitehtuurit ovat hybridejä ja adaptiivisia — käyttävät paikallisia malleja siellä missä se kannattaa, pilvimalleja siellä missä se on välttämätöntä. Yritysten, joilla on herkkää dataa (lakitoimistot, finanssisektori, terveydenhuolto, hallinto), tulisi alkaa rakentaa paikallisen tekoälyn kompetensseja jo nyt — 12-24 kuukauden sisällä se lakkaa olemasta kilpailuetu ja siitä tulee hygieniaa.