Späť na slovník Bezpečnosť

AI Red Teaming

Testovanie bezpečnosti AI systémov prostredníctvom simulovaných útokov — hľadanie zraniteľností, obchádzanie guardrails a metód manipulácie modelu.

Čo je AI Red Teaming?

AI Red Teaming je prax testovania bezpečnosti AI systémov simuláciou protivníkových útokov. Červený tím sa pokúša: obísť guardrails modelu, vynútiť generovanie škodlivého obsahu, extrahovať trénovacie dáta, manipulovať výstupy a nájsť exploity prompt injection.

Prečo je to povinné?

AI Act nariaďuje testovanie robustnosti pre vysoko rizikové AI systémy (čl. 9). Aj bez regulácie je red teaming najúčinnejšou metódou odhaľovania zraniteľností pred nasadením do produkcie.

Techniky AI red teamingu

Kľúčové techniky zahŕňajú: prompt injection, jailbreaking (obchádzanie obmedzení modelu), extrakciu dát (získavanie fragmentov trénovacích dát), adversarial inputs (modifikované vstupy spôsobujúce nesprávne výsledky) a model inversion (rekonštrukcia trénovacích dát z modelu).

Súvisiace služby a produkty