Czym jest model poisoning?
Model poisoning (zatrucie modelu) to atak na etapie treningu, w którym złośliwy aktor manipuluje procesem uczenia, aby model nabył niepożądane zachowania. W odróżnieniu od ataków adwersaryjnych na etapie inferencji, model poisoning celuje w same wagi i parametry modelu. Zatrute modele mogą działać poprawnie w większości scenariuszy, aktywując złośliwe zachowanie tylko w określonych warunkach (backdoor).
Wektory ataku
Najczęstsze wektory obejmują: manipulację zbiorami treningowymi (wstrzyknięcie złośliwych przykładów), kompromitację pipeline'u treningowego, modyfikację pretrenowanych modeli udostępnianych publicznie oraz ataki na uczenie federacyjne (federated learning), gdzie uczestnicy mogą przesyłać zatrute aktualizacje gradientów. Szczególnie niebezpieczne są ataki typu trojan/backdoor, gdzie model reaguje na specyficzny trigger niedostrzegalny w normalnym użytkowaniu.
Strategie obrony
Ochrona wymaga kontroli integralności danych treningowych, audytu provenance modeli i datasetów, technik detekcji backdoorów (neural cleanse, activation clustering) oraz izolacji środowiska treningowego. W organizacjach enterprise kluczowe jest weryfikowanie źródeł pretrenowanych modeli, stosowanie podpisów kryptograficznych i regularne testowanie modeli pod kątem ukrytych zachowań.