Lura lejn il-glossarju Sigurtà

Attakki Adversarjali fuq l-AI

L-attakki adversarjali jesplojtaw vulnerabbiltajiet f'mudelli tal-AI billi joħolqu inputs iddisinjati biex jikkawżaw klassifikazzjoni ħażina jew imġiba mhux mistennija.

X'Inhuma l-Attakki Adversarjali?

L-attakki adversarjali huma manipolazzjonijiet deliberati ta' data ta' input iddisinjati biex jikkawżaw mudelli tal-AI biex jipproduċu outputs inkoretti. Billi jintroduċu perturbazzjonijiet magħżula b'attenzjoni — spiss imperċettibbli għall-bnedmin — l-attakkanti jistgħu jqarrqu klassifikaturi tal-immaġini, jevitaw sistemi ta' detezzjoni, u jikkompromettu l-integrità ta' deċiżjonijiet bl-AI. Dawn l-attakki jiżvelaw limitazzjonijiet fundamentali f'kif il-mudelli attwali jitgħallmu u jiġġeneralizzaw.

Tipi ta' Attakki

L-attakki ta' evażjoni jimmanipulaw l-inputs fil-ħin tal-inferenza biex jingannaw mudelli implimentati. L-attakki ta' poisoning jikkorrompu data tat-taħriġ biex jimplantaw vulnerabbiltajiet jew backdoors. L-attakki ta' estrazzjoni jippruvaw jisirqu mudelli proprjetarji billi jistaqsu tagħhom b'mod sistematiku. L-attakki ta' inferenza jisfruttaw l-outputs tal-mudelli biex jiksbu informazzjoni dwar data tat-taħriġ sensittiva. Kull tip jeħtieġ strateġiji ta' difiża differenti.

Difiża u Mitigazzjoni

L-istrateġiji ta' difiża jinkludu: taħriġ adversarju (inklużjoni ta' eżempji adversarjali fit-taħriġ), validazzjoni tal-input (detezzjoni u rifjut ta' inputs manipulati), ensembles ta' mudelli (użu ta' mudelli multipli biex jnaqqsu l-vulnerabbiltà), u monitoraġġ (detezzjoni ta' xejriet ta' queries suspettużi). L-ebda difiża waħda mhija biżżejjed — l-intrapriżi jeħtieġu strateġija ta' difiża fil-fond li tikkombina approċċi multipli u tiġi ttestjata regolarment kontra tekniki ta' attakk ġodda.

Servizzi u prodotti relatati