Lura lejn il-glossarju Teknoloġija

Kwantizzazzjoni tal-Mudelli (Model Quantization)

Teknika biex jitnaqqsu d-daqs tal-mudell tal-AI u r-rekwiżiti komputazzjonali billi jintużaw rappreżentazzjonijiet numeriċi ta' preċiżjoni aktar baxxa.

X'Inhi l-Kwantizzazzjoni tal-Mudelli?

Il-kwantizzazzjoni tal-mudelli hija teknika ta' kompressjoni li tnaqqas il-preċiżjoni tal-piżijiet u l-attivazzjonijiet ta' netwerk newrali minn formati standard ta' floating point ta' 32-bit jew 16-bit għal formati ta' preċiżjoni aktar baxxa bħal INT8 (integer ta' 8-bit) jew INT4 (integer ta' 4-bit). Dan jista' jnaqqas id-daqs tal-mudell b'2-8 darbiet u jaċċellera b'mod sinifikanti l-inferenza, spiss b'impatt minimu fuq il-kwalità tal-output.

Diversi approċċi ta' kwantizzazzjoni żviluppaw. Post-training quantization (PTQ) tikkonverti mudell diġà mħarreġ mingħajr riħarriġ. Quantization-aware training (QAT) tissimula preċiżjoni baxxa matul-taħriġ għal preċiżjoni aħjar. Metodi avvanzati bħal GPTQ u AWQ jużaw data ta' kalibrazzjoni biex jottimizzaw liema piżijiet jistgħu jtolleraw preċiżjoni aktar baxxa, li jiksbu kompressjoni notevoli b'telf ta' kwalità negliġibbli.

Għaliex il-Kwantizzazzjoni hija Importanti għall-Implimentazzjoni

It-tħaddim ta' mudelli kbar tal-lingwa bi preċiżjoni sħiħa jirrikjedi hardware tal-GPU għali b'memorja sostanzjali. Il-kwantizzazzjoni tippermetti lill-organizzazzjonijiet jiskjeraw mudelli b'saħħithom fuq infrastruttura aktar modesta, inkluż GPUs għall-konsumaturi jew saħansitra CPUs. Mudell ta' 70 biljun parametru li normalment jirrikjedi diversi GPUs ta' livell għoli jista' jitħaddem fuq GPU wieħed meta jkun kwantizzat għal preċiżjoni ta' 4-bit.

Trade-offs u l-Aħjar Prattiki

It-trade-off ewlieni hija bejn il-kompressjoni u l-kwalità. Il-kwantizzazzjoni INT8 tipikament tippreserva aktar minn 99% tal-kwalità tal-mudell, filwaqt li INT4 tista' tintroduċi degradazzjoni aktar notevoli fuq kompiti ta' raġunament kumpless. L-implimentazzjonijiet fl-intrapriżi għandhom jibbenċmarkjaw mudelli kwantizzati kontra baselines ta' preċiżjoni sħiħa fuq il-każijiet ta' użu speċifiċi tagħhom biex isibu l-bilanċ ottimali bejn l-ispiża u l-prestazzjoni.

Servizzi u prodotti relatati