Zpět na slovník Bezpečnost

AI Red Teaming

Testování bezpečnosti AI systémů prostřednictvím simulovaných útoků — hledání zranitelností, obcházení guardrails a metod manipulace modelu.

Co je AI Red Teaming?

AI Red Teaming je praxe testování bezpečnosti AI systémů simulací protivníkových útoků. Červený tým se pokouší: obejít guardrails modelu, vynutit generování škodlivého obsahu, extrahovat trénovací data, manipulovat výstupy a najít exploity prompt injection.

Proč je to povinné?

AI Act nařizuje testování robustnosti pro vysoce rizikové AI systémy (čl. 9). I bez regulace je red teaming nejúčinnější metodou odhalování zranitelností před nasazením do produkce.

Techniky AI red teamingu

Klíčové techniky zahrnují: prompt injection, jailbreaking (obcházení omezení modelu), extrakci dat (získávání fragmentů trénovacích dat), adversarial inputs (modifikované vstupy způsobující nesprávné výsledky) a model inversion (rekonstrukce trénovacích dat z modelu).

Související služby a produkty