AI Red Teaming

Čo je AI Red Teaming?

AI Red Teaming je prax testovania bezpečnosti AI systémov simuláciou protivníkových útokov. Červený tím sa pokúša: obísť guardrails modelu, vynútiť generovanie škodlivého obsahu, extrahovať trénovacie dáta, manipulovať výstupy a nájsť exploity prompt injection.

Prečo je to povinné?

AI Act nariaďuje testovanie robustnosti pre vysoko rizikové AI systémy (čl. 9). Aj bez regulácie je red teaming najúčinnejšou metódou odhaľovania zraniteľností pred nasadením do produkcie.

Techniky AI red teamingu

Kľúčové techniky zahŕňajú: prompt injection, jailbreaking (obchádzanie obmedzení modelu), extrakciu dát (získavanie fragmentov trénovacích dát), adversarial inputs (modifikované vstupy spôsobujúce nesprávne výsledky) a model inversion (rekonštrukcia trénovacích dát z modelu).

Čo je AI Red Teaming?

Prečo je to povinné?

Techniky AI red teamingu

Súvisiace pojmy

Súvisiace služby a produkty