Kaj je AI Red Teaming?
AI Red Teaming je praksa testiranja varnosti sistemov UI s simuliranjem sovražnih napadov. Rdeča ekipa poskuša: obiti zaščitne ograde modela, prisiliti generiranje škodljive vsebine, izvleči učne podatke, manipulirati izhode in najti ranljivosti prompt injection.
Zakaj je to obvezno?
AI Act zahteva testiranje robustnosti za visoko tvegane sisteme UI (čl. 9). Tudi brez regulacije je red teaming najučinkovitejša metoda za odkrivanje ranljivosti pred produkcijsko uvedbo.
Tehnike AI red teaminga
Ključne tehnike vključujejo: prompt injection, jailbreaking (obhod omejitev modela), ekstrakcija podatkov (izvlečenje fragmentov učnih podatkov), sovražni vnosi (spremenjeni vnosi, ki povzročijo napačne rezultate) in inverzija modela (rekonstrukcija učnih podatkov iz modela).