Mi az AI Red Teaming?
Az AI Red Teaming az AI-rendszerek biztonságának tesztelési gyakorlata ellenséges támadások szimulálásával. A vörös csapat megpróbálja: megkerülni a modell guardrails-eit, káros tartalom generálását kikényszeríteni, képzési adatokat kinyerni, kimeneteket manipulálni és prompt injection exploitokat találni.
Miért kötelező?
Az AI Act robusztussági tesztelést ír elő a magas kockázatú AI-rendszerek számára (9. cikk). Szabályozás nélkül is a red teaming a leghatékonyabb módszer a sebezhetőségek felfedezésére az éles környezetbe helyezés előtt.
AI red teaming technikák
A legfontosabb technikák: prompt injection, jailbreaking (a modell korlátozásainak megkerülése), adatkinyerés (képzési adatrészletek kicsikarása), adversarial inputs (módosított bemenetek, amelyek helytelen eredményeket okoznak) és model inversion (képzési adatok rekonstruálása a modellből).