AI Red Teaming

Co je AI Red Teaming?

AI Red Teaming je praxe testování bezpečnosti AI systémů simulací protivníkových útoků. Červený tým se pokouší: obejít guardrails modelu, vynutit generování škodlivého obsahu, extrahovat trénovací data, manipulovat výstupy a najít exploity prompt injection.

Proč je to povinné?

AI Act nařizuje testování robustnosti pro vysoce rizikové AI systémy (čl. 9). I bez regulace je red teaming nejúčinnější metodou odhalování zranitelností před nasazením do produkce.

Techniky AI red teamingu

Klíčové techniky zahrnují: prompt injection, jailbreaking (obcházení omezení modelu), extrakci dat (získávání fragmentů trénovacích dat), adversarial inputs (modifikované vstupy způsobující nesprávné výsledky) a model inversion (rekonstrukce trénovacích dat z modelu).

Co je AI Red Teaming?

Proč je to povinné?

Techniky AI red teamingu

Související pojmy

Související služby a produkty