Квантизация на модела

Квантизацията на модела намалява точността на представяне на стойностите на теглата - обикновено от 32-битова плаваща запетая до 8-битова или по-малка - намалявайки размера на модела и ускорявайки инференцията при намаляване на качеството.

Как работи квантизацията

Моделите съхраняват тегла обикновено като 32-битови числа с плаваща запетая (float32). Квантизацията намалява тези числа до 16-битови (float16 или bfloat16), 8-битови (int8) или дори 4-битови представяния, губейки прецизност, но печелейки значително по размер и скорост.

Компромиси

Int8 квантизацията е широко разпространена за големи LLM с минимална загуба на качество - под 1% в повечето случаи. 4-битовата квантизация създава по-значителна загуба, но намалява размера на модела с 75% и позволява инференция на по-малки GPU.

Съвременни практики

Техники за квантизация като GPTQ и AWQ напреднаха значително, като квантизацията се извършва като отделна стъпка за оптимизация. Системи като llama.cpp и Ollama позволяват инференция на квантизирани модели на потребителски хардуер.

Квантизация на модела

Как работи квантизацията

Компромиси

Съвременни практики

Свързани термини

Свързани услуги и продукти