Τι είναι η Κβαντοποίηση;
Η κβαντοποίηση μοντέλων ΤΝ είναι μια τεχνική βελτιστοποίησης που μειώνει τον αριθμό bits που χρησιμοποιούνται για αποθήκευση βαρών μοντέλου. Αντί για 32-bit floating point (FP32), τα βάρη αποθηκεύονται σε 16-bit (FP16), 8-bit (INT8) ή ακόμα και 4-bit μορφή.
Αυτό μειώνει δραστικά τις απαιτήσεις μνήμης GPU και επιταχύνει την εξαγωγή συμπερασμάτων με μικρή απώλεια ακρίβειας.
Τεχνικές Κβαντοποίησης
Post-training quantization (PTQ) εφαρμόζεται μετά την εκπαίδευση χωρίς επιπλέον εκπαίδευση. Quantization-aware training (QAT) ενσωματώνει κβαντοποίηση κατά την εκπαίδευση για καλύτερη ακρίβεια. Τεχνικές όπως GPTQ, AWQ και GGUF χρησιμοποιούνται ευρέως για LLMs.
Πρακτικά Οφέλη
Ένα μοντέλο 70B παραμέτρων απαιτεί ~140GB στο FP16. Με 4-bit κβαντοποίηση, μειώνεται σε ~35GB — επιτρέποντας εκτέλεση σε φθηνότερο hardware. Αυτό είναι κρίσιμο για on-premise ανάπτυξη μεγάλων μοντέλων.