Kas yra priešiški puolimai?
Priešiški puolimai (Adversarial Attacks) yra tyčinės įvesties duomenų manipuliacijos, skirtos priversti dirbtinio intelekto modelius teikti neteisingus rezultatus. Įvesdami kruopščiai sukurtus trikdžius — dažnai nepastebimus žmonėms — puolėjai gali priversti vaizdų klasifikatorius klaidingai identifikuoti objektus, apgauti natūralios kalbos modelius generuoti žalingą turinį arba visiškai apeiti saugumo sistemas. Šie puolimai išnaudoja matematines neuroninių tinklų savybes, o ne tradicines programinės įrangos pažeidžiamybes, todėl jie kelia unikalų iššūkį dirbtinio intelekto saugumui.
Priešiškų puolimų tipai
«Baltos dėžės» puolimai leidžia tiksliai atlikti gradientu pagrįstus trikdžius, žinant pilną modelio architektūrą ir svorius. «Juodos dėžės» puolimai veikia be prieigos prie modelio, naudodami perkėlimo puolimus ar užklausomis pagrįstus metodus pažeidžiamybėms atrasti. Vengimo puolimai modifikuoja įvestis išvadų metu, o užnuodijimo puolimai korumpuoja mokymo duomenis. Fizinio pasaulio puolimai — tokie kaip priešiški pleistrai ant «stop» ženklų — parodo, kad šios grėsmės apima ne tik skaitmeninę sritį, bet ir realaus pasaulio diegimus.
Įmonių dirbtinio intelekto sistemų gynimas
Patikima gynyba reikalauja sluoksninio požiūrio. Priešiškas mokymas parodo modeliams puolimo pavyzdžius mokymo metu, gerindamas atsparumą. Įvesties apdorojimo technikos, tokios kaip vaizdo suspaudimas ir atsitiktinis glodinimas, gali neutralizuoti trikdžius. Ansamblių metodai, derinantys kelių modelių prognozes, sumažina sėkmingo puolimo tikimybę. Įmonių diegimams reguliarūs priešiški testavimai turėtų būti integruoti į dirbtinio intelekto kūrimo ciklą kartu su anomalijų aptikimo sistemomis, kurios pažymi įtartinus įvesties šablonus gamyboje.