O que é a Quantização?
A quantização de modelos é uma técnica de compressão que reduz o requisito de memória e a carga computacional dos modelos de IA ao representar os parâmetros do modelo com tipos de dados de menor precisão. Os modelos padrão usam ponto flutuante de 32 bits (FP32). A quantização converte-os para FP16, INT8, INT4 ou até representações de menor bit — reduzindo dramaticamente os requisitos de memória (muitas vezes em 2-8x) e frequentemente acelerando a inferência.
Tipos de Quantização
A quantização pós-treino (PTQ) aplica-se a um modelo já treinado sem re-treino. É rápida e fácil de implementar mas pode introduzir alguma degradação de precisão, especialmente a baixas precisões (INT4 e abaixo). O treino consciente da quantização (QAT) simula a quantização durante o treino, permitindo que o modelo se adapte às restrições de precisão mais baixa. O GPTQ e o GGUF são formatos de quantização especializados populares para LLMs que equilibram tamanho, velocidade e qualidade.
Casos de Uso Práticos
A quantização torna práticas as implantações de LLM on-device e on-premise que de outra forma requeririam hardware de nível de datacenter. Um LLM de 70B que requer mais de 140 GB de VRAM em FP16 pode ser executado em GPUs de consumo mais modestas com 4-8 bits de quantização. Para produção, avalie o trade-off qualidade-desempenho especificamente para a sua aplicação — algumas tarefas são robustas à quantização enquanto outras sofrem degradação de qualidade significativa.