Mis on mudeli kvantiseerimine?
Kvantiseerimine on protsess, millega vähendatakse närvivõrgu kaalude ja aktivatsioonide täpsust (tavaliselt 32-bitistest ujukomaarv väärtustest 8-bitistele või 4-bitistele täisarvväärtustele), et vähendada mudeli suurust ja arvutuskulusid, säilitades samal ajal mudeli jõudluse.
Kvantiseerimistüübid
Post-Training Quantization (PTQ) kvantiseerib treenitud mudeli väikese kalibreerimilisandmete kogusega. Quantization-Aware Training (QAT) lisab kvantiseerimise treenimisprotsessi. Weight-Only Quantization kvantiseerib ainult kaalud.
Ettevõtte rakendused
Kvantiseerimine mängib kriitilise rolli suurte LLM-ide kohapeal käitamises. 70 miljardi parameetriga mudel 16-bitise täpsusega nõuab umbes 140 GB mälu; 4-bitise kvantiselimistega väheneb see umbes 35 GB-ni.