Torna al glossario Tecnologia

Quantizzazione

Una tecnica per ridurre le dimensioni del modello e accelerare l'inferenza utilizzando formati numerici a precisione ridotta.

Cos'è la quantizzazione?

La quantizzazione è una tecnica di ottimizzazione in cui i pesi e le attivazioni di una rete neurale vengono convertiti da numeri in virgola mobile ad alta precisione (es. float32) a formati a precisione ridotta (es. int8, int4). Questo riduce i requisiti di memoria e accelera significativamente l'inferenza.

Metodi di quantizzazione

La quantizzazione post-addestramento (PTQ) applica la quantizzazione dopo l'addestramento ed è facile da implementare, ma può causare perdite di qualità. L'addestramento consapevole della quantizzazione (QAT) tiene conto degli effetti della quantizzazione durante l'addestramento e ottiene tipicamente risultati migliori. Approcci moderni come GPTQ e AWQ consentono una quantizzazione aggressiva a 4 bit di grandi modelli linguistici con perdita minima di qualità.

Rilevanza pratica

La quantizzazione è fondamentale per il dispiegamento efficiente di grandi modelli di IA su hardware con risorse limitate. Un LLM quantizzato può funzionare con 4× meno memoria, consentendo il dispiegamento su hardware consumer, dispositivi edge e istanze cloud più economiche.

Servizi e prodotti correlati