Mitä on päättely?
Päättely (inferenssi) on prosessi, jossa koulutettu tekoälymalli käsittelee syötetietoja ja tuottaa tuloksen (vastaus, luokittelu, ennuste). Tämä on mallin "käyttövaihe" — toisin kuin koulutus, joka luo sen.
Päättelykustannukset ja suorituskyky
Tuotannossa päättely on hallitseva tekoälykustannus: jokainen kysely = tokeneita = API-maksu. Optimointi sisältää: kvantisoinnin (mallin tarkkuuden vähentäminen, esim. fp16:sta int8:aan — 2x nopeampi, 2x halvempi), eräkäsittelyn (kyselyjen ryhmittely), speculative decoding ja KV cache.
Paikallinen vs pilvipäättely
Paikallinen päättely (yrityksen palvelimilla) eliminoi API-kustannukset ja yksityisyyshuolet, mutta vaatii GPU-laitteistoa. Pilvipäättely on joustavaa, mutta aiheuttaa kustannuksia ja säädöstenmukaisuusriskejä. Monitasoreititys yhdistää molemmat lähestymistavat.