Înapoi la glosar Securitate

AI Red Teaming

Testarea securității sistemelor AI prin atacuri simulate — identificarea vulnerabilităților, ocolirea guardrails și metode de manipulare a modelului.

Ce este AI Red Teaming?

AI Red Teaming este practica de testare a securității sistemelor AI prin simularea atacurilor adversariale. Echipa roșie încearcă: să ocolească guardrails-urile modelului, să forțeze generarea de conținut dăunător, să extragă date de antrenament, să manipuleze ieșirile și să găsească exploit-uri de prompt injection.

De ce este obligatoriu?

AI Act impune testarea robustetii pentru sistemele AI cu risc ridicat (Art. 9). Chiar și fără reglementare, red teaming este cea mai eficientă metodă de descoperire a vulnerabilităților înainte de implementarea în producție.

Tehnici de AI red teaming

Tehnicile cheie includ: prompt injection, jailbreaking (ocolirea restricțiilor modelului), extracția de date (extragerea fragmentelor de date de antrenament), adversarial inputs (intrări modificate care provoacă rezultate incorecte) și model inversion (reconstrucția datelor de antrenament din model).

Servicii și produse conexe