Cos'è l'AI Red Teaming?
L'AI Red Teaming è la pratica di testare la sicurezza dei sistemi IA simulando attacchi avversari. Il red team tenta di: eludere i guardrails del modello, forzare la generazione di contenuti dannosi, estrarre dati di addestramento, manipolare gli output e trovare exploit di prompt injection.
Perché è richiesto?
L'AI Act impone test di robustezza per i sistemi IA ad alto rischio (Art. 9). Anche senza regolamentazione, il red teaming è il metodo più efficace per scoprire vulnerabilità prima del deployment in produzione.
Tecniche di AI Red Teaming
Le tecniche chiave includono: prompt injection, jailbreaking (elusione delle restrizioni del modello), estrazione dati (estrazione di frammenti di dati di addestramento), input avversari (input modificati che causano risultati incorretti) e model inversion (ricostruzione dei dati di addestramento dal modello).