Povratak na rječnik Sigurnost

AI Red Teaming

Testiranje sigurnosti AI sustava kroz simulirane napade — pronalaženje ranjivosti, zaobilaženje zaštitnih ograda i metoda manipulacije modelom.

Što je AI Red Teaming?

AI Red Teaming je praksa testiranja sigurnosti AI sustava simuliranjem neprijateljskih napada. Crveni tim pokušava: zaobići zaštitne ograde modela, prisiliti generiranje štetnog sadržaja, izvući podatke za treniranje, manipulirati izlazima i pronaći ranjivosti prompt injection.

Zašto je to obavezno?

AI Act nalaže testiranje robusnosti za visokorizične AI sustave (čl. 9). Čak i bez regulacije, red teaming je najučinkovitija metoda za otkrivanje ranjivosti prije produkcijske implementacije.

Tehnike AI red teaminga

Ključne tehnike uključuju: prompt injection, jailbreaking (zaobilaženje ograničenja modela), ekstrakcija podataka (izvlačenje fragmenata podataka za treniranje), protivnički ulazi (modificirani ulazi koji uzrokuju netočne rezultate) i inverzija modela (rekonstrukcija podataka za treniranje iz modela).