Kaj je kvantizacija?
Kvantizacija je tehnika stiskanja modela UI, ki zmanjša natančnost numeričnih reprezentacij uteži — od standardnih 32-bitnih na 16-bitne, 8-bitne ali celo 4-bitne reprezentacije.
Tehnike kvantizacije
Kvantizacija po usposabljanju (PTQ): kvantizacija naučenega modela — hitro, a večja izguba natančnosti. Kvantizacija zavedna pri usposabljanju (QAT): model se usposablja s kvantizacijo — boljša natančnost. GPTQ, AWQ, GGUF: moderni algoritmi za kvantizacijo LLM-ov.
Poslovne prednosti
Kvantizacija zagotavlja: 2–4-kratno zmanjšanje pomnilniškega odtisa, 2–3-kratno pospešitev inference in možnost zaganjanja LLM-ov na potrošniški strojni opremi.