Tagasi sõnastikku Tehnoloogia

Mudeli kvantiseerimine (Quantization)

Tehnika tehisintellekti mudeli mälunõuete ja arvutusliku koormuse vähendamiseks väiksema täpsusega esituste kasutamisega, võimaldades tõhusat kohapealset juurutamist.

Mis on mudeli kvantiseerimine?

Kvantiseerimine on protsess, millega vähendatakse närvivõrgu kaalude ja aktivatsioonide täpsust (tavaliselt 32-bitistest ujukomaarv väärtustest 8-bitistele või 4-bitistele täisarvväärtustele), et vähendada mudeli suurust ja arvutuskulusid, säilitades samal ajal mudeli jõudluse.

Kvantiseerimistüübid

Post-Training Quantization (PTQ) kvantiseerib treenitud mudeli väikese kalibreerimilisandmete kogusega. Quantization-Aware Training (QAT) lisab kvantiseerimise treenimisprotsessi. Weight-Only Quantization kvantiseerib ainult kaalud.

Ettevõtte rakendused

Kvantiseerimine mängib kriitilise rolli suurte LLM-ide kohapeal käitamises. 70 miljardi parameetriga mudel 16-bitise täpsusega nõuab umbes 140 GB mälu; 4-bitise kvantiselimistega väheneb see umbes 35 GB-ni.

Seotud teenused ja tooted