Trovanje modela

Što je trovanje modela?

Trovanje modela je napad koji cilja sam AI model — ili ubrizgavanjem zlonamjernih ažuriranja u federativno učenje (Byzantine napad), manipulacijom procesa fine-tuninga ili kompromitiranjem modela iz open-source repozitorija. Za razliku od trovačkih napada podacima, trovanje modela izravno mijenja parametre ili ponašanje modela.

Vektori napada

Federativno učenje: zlonamjerni sudionik šalje otrovana ažuriranja gradijenta. Kompromitiranje modela: zlonamjerni akteri objavljuju otrovane modele na platformama poput HuggingFace. Supply chain napad: kompromitiranje ovisnosti fine-tuning procesa. Backdoor ubrizgavanje: model se ponaša normalno osim za specifičan trigger obrazac.

Obrane i mitigacije

Strategije obrane uključuju: Byzantine-tolerantnu agregaciju u federativnom učenju, verifikaciju provenancije modela (potpisi, hashi), testiranje ponašanja modela na poznatim inputima pri svakom ažuriranju, izoliranu evaluaciju novih modela, i provjeru modela iz eksternih izvora u sandboxu.

Što je trovanje modela?

Vektori napada

Obrane i mitigacije

Povezani pojmovi

Povezane usluge i proizvodi