Cosa sono gli Attacchi Avversariali?
Gli attacchi avversariali sono tecniche in cui input attentamente progettati inducono i modelli IA a produrre output errati o indesiderati. Nella computer vision, modifiche minime ai pixel, invisibili agli esseri umani, possono causare una classificazione errata di un'immagine. Per i modelli linguistici, gli attacchi di prompt injection possono aggirare le salvaguardie di sicurezza. Queste vulnerabilità sono particolarmente preoccupanti per le applicazioni critiche per la sicurezza.
Tipi di Attacchi
Gli attacchi di evasione manipolano gli input al momento dell'inferenza per provocare una classificazione errata. Gli attacchi di avvelenamento danneggiano il modello iniettando dati malevoli nel set di addestramento. Gli attacchi backdoor addestrano i modelli a produrre output predefiniti quando vengono attivati certi trigger. Gli attacchi di inversione del modello cercano di estrarre informazioni sui set di addestramento.
Strategie di Difesa
Le aziende dovrebbero condurre valutazioni di robustezza avversariale come parte della loro strategia di sicurezza IA. Le tecniche includono: addestramento avversariale, validazione e sanificazione degli input, metodi ensemble, monitoraggio degli output per schemi anomali ed esercizi di red teaming.