Attacchi Avversariali all'IA

Cosa sono gli Attacchi Avversariali?

Gli attacchi avversariali sono tecniche in cui input attentamente progettati inducono i modelli IA a produrre output errati o indesiderati. Nella computer vision, modifiche minime ai pixel, invisibili agli esseri umani, possono causare una classificazione errata di un'immagine. Per i modelli linguistici, gli attacchi di prompt injection possono aggirare le salvaguardie di sicurezza. Queste vulnerabilità sono particolarmente preoccupanti per le applicazioni critiche per la sicurezza.

Tipi di Attacchi

Gli attacchi di evasione manipolano gli input al momento dell'inferenza per provocare una classificazione errata. Gli attacchi di avvelenamento danneggiano il modello iniettando dati malevoli nel set di addestramento. Gli attacchi backdoor addestrano i modelli a produrre output predefiniti quando vengono attivati certi trigger. Gli attacchi di inversione del modello cercano di estrarre informazioni sui set di addestramento.

Strategie di Difesa

Le aziende dovrebbero condurre valutazioni di robustezza avversariale come parte della loro strategia di sicurezza IA. Le tecniche includono: addestramento avversariale, validazione e sanificazione degli input, metodi ensemble, monitoraggio degli output per schemi anomali ed esercizi di red teaming.

Cosa sono gli Attacchi Avversariali?

Tipi di Attacchi

Strategie di Difesa

Termini correlati

Servizi e prodotti correlati