Vastandliku ohu maastiku mõistmine
Vastandlikud rünnakud loovad spetsiaalselt koostatud sisendeid, mis petavad tehisintellekti mudeleid valesid tulemusi tootma — näides inimestele muutumatutena. Pildiklassifitseerija võib tuvastada "STOPP" märki "kiirusepiiranguks" pärast peaaegu märkamatu pildimüra lisamist. Neil haavatavustel on tõsised turvatagajärjed.
Peamised rünnakutüübid
Valge kasti rünnakutel on täielik juurdepääs mudelile ja selle kaaludele. Mustade kastide rünnakud loovad vastandlikke näiteid, jälgides ainult väljundeid. Ülekandepõhised rünnakud kasutavad ära asjaolu, et vastandlikud näited kanduvad sageli üle mudelite vahel.
Kaitsestrateegiad
Vastandlik treenimine lisab vastandlikud näited treenimisprotsessi robustsuse parandamiseks. Sisendi eeltöötlus- ja filtreerimisvõtted võivad perturbatsioone eemaldada enne jõudmist mudelini. Ebakindluse hindamise meetodid võivad tuvastada ebatavalist mudeli käitumist.