Wróć do słownika Technologia

Kwantyzacja modeli

Technika zmniejszania rozmiaru modeli AI poprzez redukcję precyzji liczbowej wag, umożliwiająca uruchamianie dużych modeli na słabszym sprzęcie.

Czym jest kwantyzacja?

Kwantyzacja modeli to technika optymalizacji, w której wagi sieci neuronowej są konwertowane z wysokiej precyzji (zazwyczaj 32-bitowej zmiennoprzecinkowej, FP32) do niższej — najczęściej INT8 (8-bitowa całkowitoliczbowa) lub INT4 (4-bitowa). Pozwala to drastycznie zmniejszyć rozmiar modelu i przyspieszyć inferencję, przy relatywnie niewielkiej utracie jakości odpowiedzi.

Metody kwantyzacji

Istnieją dwa główne podejścia: kwantyzacja po treningu (Post-Training Quantization, PTQ) — stosowana do gotowego modelu bez ponownego uczenia, oraz kwantyzacja świadoma treningu (Quantization-Aware Training, QAT) — uwzględniająca obniżoną precyzję już w procesie uczenia. Popularne formaty to GPTQ, GGUF i AWQ, różniące się kompromisem między jakością a wydajnością. Model 70B parametrów w formacie INT4 może zajmować nawet czterokrotnie mniej pamięci niż oryginał.

Znaczenie biznesowe

Kwantyzacja jest kluczowa dla wdrożeń korporacyjnych, ponieważ umożliwia uruchamianie zaawansowanych modeli AI na lokalnej infrastrukturze — bez konieczności kosztownych kart GPU klasy A100. W wielopoziomowym routingu LLM kwantyzowane modele lokalne obsługują prostsze zapytania przy zerowym koszcie API, a bardziej złożone zadania kierowane są do modeli chmurowych pełnej precyzji.

Powiązane usługi i produkty