Ce este cuantizarea modelelor?
Cuantizarea este procesul de reducere a preciziei greutăților și activărilor unui rețele neuronale (de obicei de la valori float pe 32 de biți la int pe 8 biți sau 4 biți) pentru a reduce dimensiunea modelului și costurile computaționale, menținând în același timp performanța modelului.
Tipuri de cuantizare
Post-Training Quantization (PTQ) cuantizează un model antrenat cu puține sau deloc date de calibrare. Quantization-Aware Training (QAT) introduce cuantizarea în procesul de antrenare. Weight-Only Quantization cuantizează exclusiv greutățile.
Aplicații enterprise
Cuantizarea joacă un rol critic în rularea LLM-urilor mari pe hardware on-premises. Un model cu 70 de miliarde de parametri la precizie pe 16 biți necesită aproximativ 140 GB memorie; cu cuantizare pe 4 biți, aceasta scade la aproximativ 35 GB.