Co je AI Red Teaming?
AI Red Teaming je praxe testování bezpečnosti AI systémů simulací protivníkových útoků. Červený tým se pokouší: obejít guardrails modelu, vynutit generování škodlivého obsahu, extrahovat trénovací data, manipulovat výstupy a najít exploity prompt injection.
Proč je to povinné?
AI Act nařizuje testování robustnosti pro vysoce rizikové AI systémy (čl. 9). I bez regulace je red teaming nejúčinnější metodou odhalování zranitelností před nasazením do produkce.
Techniky AI red teamingu
Klíčové techniky zahrnují: prompt injection, jailbreaking (obcházení omezení modelu), extrakci dat (získávání fragmentů trénovacích dat), adversarial inputs (modifikované vstupy způsobující nesprávné výsledky) a model inversion (rekonstrukce trénovacích dat z modelu).