Vissza a szójegyzékhez Biztonság

AI Red Teaming

AI-rendszerek biztonságának tesztelése szimulált támadásokkal — sebezhetőségek, guardrails-megkerülések és modellmanipulációs módszerek felkutatása.

Mi az AI Red Teaming?

Az AI Red Teaming az AI-rendszerek biztonságának tesztelési gyakorlata ellenséges támadások szimulálásával. A vörös csapat megpróbálja: megkerülni a modell guardrails-eit, káros tartalom generálását kikényszeríteni, képzési adatokat kinyerni, kimeneteket manipulálni és prompt injection exploitokat találni.

Miért kötelező?

Az AI Act robusztussági tesztelést ír elő a magas kockázatú AI-rendszerek számára (9. cikk). Szabályozás nélkül is a red teaming a leghatékonyabb módszer a sebezhetőségek felfedezésére az éles környezetbe helyezés előtt.

AI red teaming technikák

A legfontosabb technikák: prompt injection, jailbreaking (a modell korlátozásainak megkerülése), adatkinyerés (képzési adatrészletek kicsikarása), adversarial inputs (módosított bemenetek, amelyek helytelen eredményeket okoznak) és model inversion (képzési adatok rekonstruálása a modellből).

Kapcsolódó szolgáltatások és termékek