Adversarialné utoky na AI

Co su adversarialné utoky?

Adversarialné utoky su zámerné manipulacie so vstupnymi datami navrhnuté tak, aby sposobili AI modelom produkciu nesprávnych vystupov. Zavedením starostlivo vytvorených perturbacii — casto pre ludí nepostrehnutelných — mozu utocníci sposobit klasifikátorom obrazkov chybnu identifikaciu objektov, oklapat modely prirozeneho jazyka na generovanie skodliveho obsahu alebo uplne obist bezpecnostne systemy.

Typy adversariálnych utokov

Utoky white-box predpokladaju plnu znalost architektury modelu a váh, umoznujuce presne perturbácie na základe gradientu. Utoky black-box funguju bez pristupu k modelu, vyuzivajuce prenosove utoky alebo metody zalozene na dotazovaní. Utoky úniku modifikuju vstupy v case infrencie, zatial co utoky otravením dat poskodzu trenovacie data.

Obrana podnikovych AI systémov

Robustna obrana vyzaduje vrstvený pristup. Adversariálne trenovanie vystavuje modely prikladom utokov pocas trenovania. Metody pred-spracovania vstupov mozu neutralizovat perturbácie. Pre podnikové nasadenia by malo byt pravidelné adversariálne testovanie integrované do zivotneho cyklu vyvoja AI.

Co su adversarialné utoky?

Typy adversariálnych utokov

Obrana podnikovych AI systémov

Súvisiace pojmy

Súvisiace služby a produkty