Zurück zum Glossar Technologie

Quantisierung

Eine Technik zur Reduzierung der Modellgröße und zur Beschleunigung der Inferenz durch Verwendung niederwertigerer Zahlenformate.

Was ist Quantisierung?

Quantisierung ist eine Optimierungstechnik, bei der die Gewichte und Aktivierungen eines neuronalen Netzes von hochpräzisen Fließkommazahlen (z.B. float32) in Formate mit geringerer Präzision (z.B. int8, int4) umgewandelt werden. Dies reduziert den Speicherbedarf und beschleunigt die Inferenz erheblich.

Quantisierungsmethoden

Post-Training Quantization (PTQ) wendet Quantisierung nach dem Training an und ist einfach zu implementieren, kann aber zu Qualitätsverlusten führen. Quantization-Aware Training (QAT) berücksichtigt die Quantisierungseffekte während des Trainings und erzielt typischerweise bessere Ergebnisse. Moderne Ansätze wie GPTQ und AWQ ermöglichen aggressive 4-Bit-Quantisierung großer Sprachmodelle mit minimalem Qualitätsverlust.

Praxisrelevanz

Quantisierung ist entscheidend für den effizienten Einsatz großer KI-Modelle auf Hardware mit begrenzten Ressourcen. Ein quantisiertes LLM kann mit 4× weniger Speicher betrieben werden, was Deployment auf Consumer-Hardware, Edge-Geräten und kostengünstigeren Cloud-Instanzen ermöglicht.

Verwandte Dienstleistungen und Produkte