Volver al glosario Tecnología

Cuantización

Una técnica para reducir el tamaño del modelo y acelerar la inferencia mediante el uso de formatos numéricos de menor precisión.

¿Qué es la cuantización?

La cuantización es una técnica de optimización en la que los pesos y activaciones de una red neuronal se convierten de números de punto flotante de alta precisión (p. ej., float32) a formatos de menor precisión (p. ej., int8, int4). Esto reduce los requisitos de memoria y acelera significativamente la inferencia.

Métodos de cuantización

La cuantización post-entrenamiento (PTQ) aplica la cuantización después del entrenamiento y es fácil de implementar, pero puede producir pérdidas de calidad. El entrenamiento consciente de la cuantización (QAT) tiene en cuenta los efectos de la cuantización durante el entrenamiento y normalmente logra mejores resultados. Enfoques modernos como GPTQ y AWQ permiten la cuantización agresiva de 4 bits de grandes modelos de lenguaje con una pérdida mínima de calidad.

Relevancia práctica

La cuantización es crucial para el despliegue eficiente de grandes modelos de IA en hardware con recursos limitados. Un LLM cuantizado puede ejecutarse con 4× menos memoria, lo que permite el despliegue en hardware de consumidor, dispositivos edge e instancias cloud más económicas.

Servicios y productos relacionados