Tagasi sõnastikku Turvalisus

Vastandlikud rünnakud tehisintellekti vastu

Tahtlikult kujundatud sisendid, mis petavad tehisintellekti mudeleid valesid ennustusi tegema, luues olulisi turvalisuse ja usaldusväärsuse väljakutseid.

Vastandliku ohu maastiku mõistmine

Vastandlikud rünnakud loovad spetsiaalselt koostatud sisendeid, mis petavad tehisintellekti mudeleid valesid tulemusi tootma — näides inimestele muutumatutena. Pildiklassifitseerija võib tuvastada "STOPP" märki "kiirusepiiranguks" pärast peaaegu märkamatu pildimüra lisamist. Neil haavatavustel on tõsised turvatagajärjed.

Peamised rünnakutüübid

Valge kasti rünnakutel on täielik juurdepääs mudelile ja selle kaaludele. Mustade kastide rünnakud loovad vastandlikke näiteid, jälgides ainult väljundeid. Ülekandepõhised rünnakud kasutavad ära asjaolu, et vastandlikud näited kanduvad sageli üle mudelite vahel.

Kaitsestrateegiad

Vastandlik treenimine lisab vastandlikud näited treenimisprotsessi robustsuse parandamiseks. Sisendi eeltöötlus- ja filtreerimisvõtted võivad perturbatsioone eemaldada enne jõudmist mudelini. Ebakindluse hindamise meetodid võivad tuvastada ebatavalist mudeli käitumist.

Seotud teenused ja tooted