Späť na slovník Bezpečnosť

Otravovanie modelu (Model Poisoning)

Otravovanie modelu je typ adversarialneho utoku, pri ktorom utocnik injektuje skodlive trenovacie data alebo manipuluje s procesom treningu s cielom ovplyvnit spravanie AI modelu.

Co je otravovanie modelu?

Otravovanie modelu (model poisoning) predstavuje vaznu bezpecnostnu hrozbu pre systemy strojoveho ucenia. Utocnik cielene kompromituje trenovaci proces tak, aby vysledny model spravoval nespecifikovane – napriklad ignoroval urcite vstupy, poskytoval nespravne odpovede alebo obsahoval skryte backdoor triggery.

Na rozdiel od inferenferncnych utokov, ktore cielia na model pocas pouzivania, otravovanie zasahuje model pocas jeho tvorby.

Typy utokov otrovavania

Data poisoning spociva v upraveni trenovacich dat – pridani skodlivych vzoriek alebo manipulacii existujucich lablov. Backdoor utoky zakomponuvaju skryty trigger (napr. specificke slovo alebo pixel vzor), ktory spusti predurce spravanie len ked je pritomny.

Model poisoning je zvlast nebezpecny pri federated learningu, kde trenuju modely na rozdelenychzdrojoch dat, ktore centralny server nemoze plne kontrolovat.

Obrana a mitigacia

Obranne strategie zahrnaju overovanie trenovacich dat, anomaly detection v distribuciach dat, certifikacia robustnosti a techniky ako differential privacy. Organizacie by mali implementovat chain-of-custody pre trenovacie datasety a pravidelne auditovat modely na pritomnost backdoorov.

Súvisiace služby a produkty