Ce este AI Red Teaming?
AI Red Teaming este practica de testare a securității sistemelor AI prin simularea atacurilor adversariale. Echipa roșie încearcă: să ocolească guardrails-urile modelului, să forțeze generarea de conținut dăunător, să extragă date de antrenament, să manipuleze ieșirile și să găsească exploit-uri de prompt injection.
De ce este obligatoriu?
AI Act impune testarea robustetii pentru sistemele AI cu risc ridicat (Art. 9). Chiar și fără reglementare, red teaming este cea mai eficientă metodă de descoperire a vulnerabilităților înainte de implementarea în producție.
Tehnici de AI red teaming
Tehnicile cheie includ: prompt injection, jailbreaking (ocolirea restricțiilor modelului), extracția de date (extragerea fragmentelor de date de antrenament), adversarial inputs (intrări modificate care provoacă rezultate incorecte) și model inversion (reconstrucția datelor de antrenament din model).