Što je AI Red Teaming?
AI Red Teaming je praksa testiranja sigurnosti AI sustava simuliranjem neprijateljskih napada. Crveni tim pokušava: zaobići zaštitne ograde modela, prisiliti generiranje štetnog sadržaja, izvući podatke za treniranje, manipulirati izlazima i pronaći ranjivosti prompt injection.
Zašto je to obavezno?
AI Act nalaže testiranje robusnosti za visokorizične AI sustave (čl. 9). Čak i bez regulacije, red teaming je najučinkovitija metoda za otkrivanje ranjivosti prije produkcijske implementacije.
Tehnike AI red teaminga
Ključne tehnike uključuju: prompt injection, jailbreaking (zaobilaženje ograničenja modela), ekstrakcija podataka (izvlačenje fragmenata podataka za treniranje), protivnički ulazi (modificirani ulazi koji uzrokuju netočne rezultate) i inverzija modela (rekonstrukcija podataka za treniranje iz modela).