Što je trovanje modela?
Trovanje modela je napad koji cilja sam AI model — ili ubrizgavanjem zlonamjernih ažuriranja u federativno učenje (Byzantine napad), manipulacijom procesa fine-tuninga ili kompromitiranjem modela iz open-source repozitorija. Za razliku od trovačkih napada podacima, trovanje modela izravno mijenja parametre ili ponašanje modela.
Vektori napada
Federativno učenje: zlonamjerni sudionik šalje otrovana ažuriranja gradijenta. Kompromitiranje modela: zlonamjerni akteri objavljuju otrovane modele na platformama poput HuggingFace. Supply chain napad: kompromitiranje ovisnosti fine-tuning procesa. Backdoor ubrizgavanje: model se ponaša normalno osim za specifičan trigger obrazac.
Obrane i mitigacije
Strategije obrane uključuju: Byzantine-tolerantnu agregaciju u federativnom učenju, verifikaciju provenancije modela (potpisi, hashi), testiranje ponašanja modela na poznatim inputima pri svakom ažuriranju, izoliranu evaluaciju novih modela, i provjeru modela iz eksternih izvora u sandboxu.