Qu'est-ce que la quantification ?
La quantification est une technique d'optimisation dans laquelle les poids et activations d'un réseau de neurones sont convertis de nombres à virgule flottante haute précision (p. ex. float32) vers des formats de précision réduite (p. ex. int8, int4). Cela réduit les besoins en mémoire et accélère considérablement l'inférence.
Méthodes de quantification
La quantification post-entraînement (PTQ) applique la quantification après l'entraînement et est facile à implémenter, mais peut entraîner des pertes de qualité. L'entraînement conscient de la quantification (QAT) prend en compte les effets de la quantification pendant l'entraînement et obtient généralement de meilleurs résultats. Des approches modernes comme GPTQ et AWQ permettent une quantification agressive à 4 bits des grands modèles de langage avec une perte de qualité minimale.
Pertinence pratique
La quantification est cruciale pour un déploiement efficace des grands modèles d'IA sur du matériel aux ressources limitées. Un LLM quantifié peut fonctionner avec 4× moins de mémoire, permettant un déploiement sur du matériel grand public, des appareils edge et des instances cloud moins coûteuses.