Czym jest kwantyzacja?
Kwantyzacja modeli to technika optymalizacji, w której wagi sieci neuronowej są konwertowane z wysokiej precyzji (zazwyczaj 32-bitowej zmiennoprzecinkowej, FP32) do niższej — najczęściej INT8 (8-bitowa całkowitoliczbowa) lub INT4 (4-bitowa). Pozwala to drastycznie zmniejszyć rozmiar modelu i przyspieszyć inferencję, przy relatywnie niewielkiej utracie jakości odpowiedzi.
Metody kwantyzacji
Istnieją dwa główne podejścia: kwantyzacja po treningu (Post-Training Quantization, PTQ) — stosowana do gotowego modelu bez ponownego uczenia, oraz kwantyzacja świadoma treningu (Quantization-Aware Training, QAT) — uwzględniająca obniżoną precyzję już w procesie uczenia. Popularne formaty to GPTQ, GGUF i AWQ, różniące się kompromisem między jakością a wydajnością. Model 70B parametrów w formacie INT4 może zajmować nawet czterokrotnie mniej pamięci niż oryginał.
Znaczenie biznesowe
Kwantyzacja jest kluczowa dla wdrożeń korporacyjnych, ponieważ umożliwia uruchamianie zaawansowanych modeli AI na lokalnej infrastrukturze — bez konieczności kosztownych kart GPU klasy A100. W wielopoziomowym routingu LLM kwantyzowane modele lokalne obsługują prostsze zapytania przy zerowym koszcie API, a bardziej złożone zadania kierowane są do modeli chmurowych pełnej precyzji.