Modellkvantálás (Quantization)

Mi a modellkvantálás?

A kvantálás az a folyamat, amelynek során egy neurális hálózat súlyainak és aktivációinak pontosságát csökkentik (általában 32 bites lebegőpontos értékről 8 bites vagy 4 bites egész típusra) a modellméret és a számítási költségek csökkentése céljából, miközben megőrzik a modell teljesítményét.

Kvantálási típusok

A Post-Training Quantization (PTQ) egy betanított modellt kvantál kis vagy semmi kalibrációs adatot felhasználva. A Quantization-Aware Training (QAT) a kvantálást a betanítási folyamatba illeszti, így a modell megtanul ellenállóan viselkedni a kvantálási hibákkal szemben. A Weight-Only Quantization kizárólag a súlyokat kvantálja, az aktivációkat nem.

Vállalati alkalmazások

A kvantálás kritikus szerepet játszik a nagyméretű LLM-ek helyszíni és peremhálózati hardveren való futtatásában. Egy 70 milliárdos paraméterű modell 16 bites precizitással körülbelül 140 GB memóriát igényel; 4 bites kvantálással ez körülbelül 35 GB-ra csökken, ami a valósidejű CPU-alapú inferenciát is lehetővé teszi.

Mi a modellkvantálás?

Kvantálási típusok

Vállalati alkalmazások

Kapcsolódó fogalmak

Kapcsolódó szolgáltatások és termékek