Cos'è la quantizzazione?
La quantizzazione è una tecnica di ottimizzazione in cui i pesi e le attivazioni di una rete neurale vengono convertiti da numeri in virgola mobile ad alta precisione (es. float32) a formati a precisione ridotta (es. int8, int4). Questo riduce i requisiti di memoria e accelera significativamente l'inferenza.
Metodi di quantizzazione
La quantizzazione post-addestramento (PTQ) applica la quantizzazione dopo l'addestramento ed è facile da implementare, ma può causare perdite di qualità. L'addestramento consapevole della quantizzazione (QAT) tiene conto degli effetti della quantizzazione durante l'addestramento e ottiene tipicamente risultati migliori. Approcci moderni come GPTQ e AWQ consentono una quantizzazione aggressiva a 4 bit di grandi modelli linguistici con perdita minima di qualità.
Rilevanza pratica
La quantizzazione è fondamentale per il dispiegamento efficiente di grandi modelli di IA su hardware con risorse limitate. Un LLM quantizzato può funzionare con 4× meno memoria, consentendo il dispiegamento su hardware consumer, dispositivi edge e istanze cloud più economiche.