Nazaj na slovar Tehnologija

Kvantizacija modela

Tehnika zmanjševanja velikosti modela UI z zmanjšanjem natančnosti uteži — od 32-bitnih vrednosti na 8-bitne ali 4-bitne za hitrejše in cenejše izvajanje.

Kaj je kvantizacija?

Kvantizacija je tehnika stiskanja modela UI, ki zmanjša natančnost numeričnih reprezentacij uteži — od standardnih 32-bitnih na 16-bitne, 8-bitne ali celo 4-bitne reprezentacije.

Tehnike kvantizacije

Kvantizacija po usposabljanju (PTQ): kvantizacija naučenega modela — hitro, a večja izguba natančnosti. Kvantizacija zavedna pri usposabljanju (QAT): model se usposablja s kvantizacijo — boljša natančnost. GPTQ, AWQ, GGUF: moderni algoritmi za kvantizacijo LLM-ov.

Poslovne prednosti

Kvantizacija zagotavlja: 2–4-kratno zmanjšanje pomnilniškega odtisa, 2–3-kratno pospešitev inference in možnost zaganjanja LLM-ov na potrošniški strojni opremi.

Povezane storitve in izdelki