Как работи квантизацията
Моделите съхраняват тегла обикновено като 32-битови числа с плаваща запетая (float32). Квантизацията намалява тези числа до 16-битови (float16 или bfloat16), 8-битови (int8) или дори 4-битови представяния, губейки прецизност, но печелейки значително по размер и скорост.
Компромиси
Int8 квантизацията е широко разпространена за големи LLM с минимална загуба на качество - под 1% в повечето случаи. 4-битовата квантизация създава по-значителна загуба, но намалява размера на модела с 75% и позволява инференция на по-малки GPU.
Съвременни практики
Техники за квантизация като GPTQ и AWQ напреднаха значително, като квантизацията се извършва като отделна стъпка за оптимизация. Системи като llama.cpp и Ollama позволяват инференция на квантизирани модели на потребителски хардуер.