Co su adversarialné utoky?
Adversarialné utoky su zámerné manipulacie so vstupnymi datami navrhnuté tak, aby sposobili AI modelom produkciu nesprávnych vystupov. Zavedením starostlivo vytvorených perturbacii — casto pre ludí nepostrehnutelných — mozu utocníci sposobit klasifikátorom obrazkov chybnu identifikaciu objektov, oklapat modely prirozeneho jazyka na generovanie skodliveho obsahu alebo uplne obist bezpecnostne systemy.
Typy adversariálnych utokov
Utoky white-box predpokladaju plnu znalost architektury modelu a váh, umoznujuce presne perturbácie na základe gradientu. Utoky black-box funguju bez pristupu k modelu, vyuzivajuce prenosove utoky alebo metody zalozene na dotazovaní. Utoky úniku modifikuju vstupy v case infrencie, zatial co utoky otravením dat poskodzu trenovacie data.
Obrana podnikovych AI systémov
Robustna obrana vyzaduje vrstvený pristup. Adversariálne trenovanie vystavuje modely prikladom utokov pocas trenovania. Metody pred-spracovania vstupov mozu neutralizovat perturbácie. Pre podnikové nasadenia by malo byt pravidelné adversariálne testovanie integrované do zivotneho cyklu vyvoja AI.