Cuantizarea modelelor (Quantization)

Ce este cuantizarea modelelor?

Cuantizarea este procesul de reducere a preciziei greutăților și activărilor unui rețele neuronale (de obicei de la valori float pe 32 de biți la int pe 8 biți sau 4 biți) pentru a reduce dimensiunea modelului și costurile computaționale, menținând în același timp performanța modelului.

Tipuri de cuantizare

Post-Training Quantization (PTQ) cuantizează un model antrenat cu puține sau deloc date de calibrare. Quantization-Aware Training (QAT) introduce cuantizarea în procesul de antrenare. Weight-Only Quantization cuantizează exclusiv greutățile.

Aplicații enterprise

Cuantizarea joacă un rol critic în rularea LLM-urilor mari pe hardware on-premises. Un model cu 70 de miliarde de parametri la precizie pe 16 biți necesită aproximativ 140 GB memorie; cu cuantizare pe 4 biți, aceasta scade la aproximativ 35 GB.

Ce este cuantizarea modelelor?

Tipuri de cuantizare

Aplicații enterprise

Termeni înrudiți

Servicii și produse conexe