Što je kvantizacija?
Kvantizacija je tehnika kompresije AI modela koja smanjuje preciznost numeričkih reprezentacija težina i aktivacija — od standardnih 32-bitnih floating-point (fp32) na 16-bitne (fp16/bf16), 8-bitne (int8) ili čak 4-bitne (int4) reprezentacije. Ova kompresija dramatično smanjuje veličinu modela i ubrzava inferenciju uz prihvatljiv gubitak preciznosti.
Tehnike kvantizacije
Post-training quantization (PTQ): kvantizacija treniranog modela — brzo, ali veći gubitak preciznosti. Quantization-aware training (QAT): model trenira s kvantizacijom u petlji — bolja preciznost. GPTQ, AWQ, GGUF: moderni algoritmi za LLM kvantizaciju s minimalnim gubitkom. Llama.cpp i Ollama koriste GGUF format za pokretanje LLM-ova na CPU-ima i Macovima.
Poslovne prednosti
Kvantizacija pruža: 2-4x smanjenje memorijskog otiska, 2-3x ubrzanje inferencije, mogućnost pokretanja LLM-ova na consumer hardveru (16GB RAM Mac umjesto $30K A100). Kritična za Edge AI i self-hosted LLM scenarije.