Retour au glossaire Technologie

Quantification

Une technique pour réduire la taille du modèle et accélérer l'inférence en utilisant des formats numériques de précision réduite.

Qu'est-ce que la quantification ?

La quantification est une technique d'optimisation dans laquelle les poids et activations d'un réseau de neurones sont convertis de nombres à virgule flottante haute précision (p. ex. float32) vers des formats de précision réduite (p. ex. int8, int4). Cela réduit les besoins en mémoire et accélère considérablement l'inférence.

Méthodes de quantification

La quantification post-entraînement (PTQ) applique la quantification après l'entraînement et est facile à implémenter, mais peut entraîner des pertes de qualité. L'entraînement conscient de la quantification (QAT) prend en compte les effets de la quantification pendant l'entraînement et obtient généralement de meilleurs résultats. Des approches modernes comme GPTQ et AWQ permettent une quantification agressive à 4 bits des grands modèles de langage avec une perte de qualité minimale.

Pertinence pratique

La quantification est cruciale pour un déploiement efficace des grands modèles d'IA sur du matériel aux ressources limitées. Un LLM quantifié peut fonctionner avec 4× moins de mémoire, permettant un déploiement sur du matériel grand public, des appareils edge et des instances cloud moins coûteuses.

Services et produits associés