Mudeli kvantiseerimine (Quantization)

Mis on mudeli kvantiseerimine?

Kvantiseerimine on protsess, millega vähendatakse närvivõrgu kaalude ja aktivatsioonide täpsust (tavaliselt 32-bitistest ujukomaarv väärtustest 8-bitistele või 4-bitistele täisarvväärtustele), et vähendada mudeli suurust ja arvutuskulusid, säilitades samal ajal mudeli jõudluse.

Kvantiseerimistüübid

Post-Training Quantization (PTQ) kvantiseerib treenitud mudeli väikese kalibreerimilisandmete kogusega. Quantization-Aware Training (QAT) lisab kvantiseerimise treenimisprotsessi. Weight-Only Quantization kvantiseerib ainult kaalud.

Ettevõtte rakendused

Kvantiseerimine mängib kriitilise rolli suurte LLM-ide kohapeal käitamises. 70 miljardi parameetriga mudel 16-bitise täpsusega nõuab umbes 140 GB mälu; 4-bitise kvantiselimistega väheneb see umbes 35 GB-ni.

Mis on mudeli kvantiseerimine?

Kvantiseerimistüübid

Ettevõtte rakendused

Seotud mõisted

Seotud teenused ja tooted