Kas yra modelių kvantizacija?
Modelių kvantizacija yra suspaudimo technika, mažinanti neuroninio tinklo svorių ir aktyvacijų tikslumą nuo standartinių 32 bitų arba 16 bitų slankiojo kablelio formatų iki žemesnio tikslumo formatų, tokiu kaip INT8 (8 bitų sveikas skaičius) arba INT4 (4 bitų sveikas skaičius). Tai gali sumažinti modelio dydį 2–8 kartus ir žymiai pagreitinti išvadą, dažnai su minimaliu poveikiu išvesties kokybei.
Atsirado keletas kvantizacijos metodų. Kvantizacija po apmokymo (PTQ) konvertuoja jau apmokytą modelį be pakartotinio apmokymo. Kvantizacijai jautrus apmokymas (QAT) simuliuoja žemą tikslumą apmokymo metu, siekiant geresnio tikslumo. Pažangūs metodai, tokie kaip GPTQ ir AWQ, naudoja kalibravimo duomenis optimizuoti, kurie svoriai gali toleruoti žemesnį tikslumą, pasiekdami įspūdingą suspaudimą su nepastebimu kokybės praradimu.
Kodėl kvantizacija svarbi diegimui
Didelių kalbos modelių vykdymas visu tikslumu reikalauja brangios GPU aparatūros su didele atmintimi. Kvantizacija leidžia organizacijoms diegti galingus modelius kuklesnei infrastruktūrai, įskaitant vartotojams skirtas GPU arba net CPU. 70 milijardų parametrų modelis, kuris įprastai reikalauja kelių aukštos klasės GPU, gali veikti viename GPU, kai kvantizuojamas iki 4 bitų tikslumo.
Kompromisai ir geriausia praktika
Pagrindinis kompromisas yra tarp suspaudimo ir kokybės. INT8 kvantizacija paprastai išlaiko daugiau nei 99 % modelio kokybės, o INT4 gali įvesti labiau pastebimai pablogėjimą sudėtingose samprotavimo užduotyse. Įmonės turėtų lyginti kvantizuotus modelius su viso tikslumo etalonų palyginimais savo konkretiems naudojimo atvejams, kad rastų optimalų balansą tarp kainos ir našumo.