Vastandlikud rünnakud tehisintellekti vastu

Vastandliku ohu maastiku mõistmine

Vastandlikud rünnakud loovad spetsiaalselt koostatud sisendeid, mis petavad tehisintellekti mudeleid valesid tulemusi tootma — näides inimestele muutumatutena. Pildiklassifitseerija võib tuvastada "STOPP" märki "kiirusepiiranguks" pärast peaaegu märkamatu pildimüra lisamist. Neil haavatavustel on tõsised turvatagajärjed.

Peamised rünnakutüübid

Valge kasti rünnakutel on täielik juurdepääs mudelile ja selle kaaludele. Mustade kastide rünnakud loovad vastandlikke näiteid, jälgides ainult väljundeid. Ülekandepõhised rünnakud kasutavad ära asjaolu, et vastandlikud näited kanduvad sageli üle mudelite vahel.

Kaitsestrateegiad

Vastandlik treenimine lisab vastandlikud näited treenimisprotsessi robustsuse parandamiseks. Sisendi eeltöötlus- ja filtreerimisvõtted võivad perturbatsioone eemaldada enne jõudmist mudelini. Ebakindluse hindamise meetodid võivad tuvastada ebatavalist mudeli käitumist.

Vastandliku ohu maastiku mõistmine

Peamised rünnakutüübid

Kaitsestrateegiad

Seotud mõisted

Seotud teenused ja tooted