Co jsou adversariální útoky?
Adversariální útoky jsou záměrné manipulace se vstupními daty navržené tak, aby způsobily AI modelům produkci nesprávných výstupů. Zavedením pečlivě vytvořených perturbací — často pro lidi nepostřehnutelných — mohou útočníci způsobit klasifikátorům obrázků chybnou identifikaci objektů, oklamat modely přirozeného jazyka ke generování škodlivého obsahu nebo zcela obejít bezpečnostní systémy. Tyto útoky zneužívají matematické vlastnosti neuronových sítí namísto tradičních softwarových zranitelností.
Typy adversariálních útoků
Útoky white-box předpokládají plnou znalost architektury modelu a vah, umožňujíce přesné perturbace na základě gradientu. Útoky black-box fungují bez přístupu k modelu, využívajíce přenosové útoky nebo metody založené na dotazování. Útoky úniku modifikují vstupy v době inference, zatímco útoky otrávením dat poškozují trénovací data.
Obrana podnikových AI systémů
Robustní obrana vyžaduje vrstvený přístup. Adversariální trénování vystavuje modely příkladům útoků během trénování. Metody předzpracování vstupů mohou neutralizovat perturbace. Metody ensemble kombinující více předpovědí modelu snižují pravděpodobnost úspěšných útoků. Pro podniková nasazení by mělo být pravidelné adversariální testování integrováno do životního cyklu vývoje AI.