Nazaj na slovar Varnost

AI Red Teaming

Testiranje varnosti sistemov UI s simuliranimi napadi — iskanje ranljivosti, obhodov zaščitnih ograj in metod manipulacije modela.

Kaj je AI Red Teaming?

AI Red Teaming je praksa testiranja varnosti sistemov UI s simuliranjem sovražnih napadov. Rdeča ekipa poskuša: obiti zaščitne ograde modela, prisiliti generiranje škodljive vsebine, izvleči učne podatke, manipulirati izhode in najti ranljivosti prompt injection.

Zakaj je to obvezno?

AI Act zahteva testiranje robustnosti za visoko tvegane sisteme UI (čl. 9). Tudi brez regulacije je red teaming najučinkovitejša metoda za odkrivanje ranljivosti pred produkcijsko uvedbo.

Tehnike AI red teaminga

Ključne tehnike vključujejo: prompt injection, jailbreaking (obhod omejitev modela), ekstrakcija podatkov (izvlečenje fragmentov učnih podatkov), sovražni vnosi (spremenjeni vnosi, ki povzročijo napačne rezultate) in inverzija modela (rekonstrukcija učnih podatkov iz modela).

Povezane storitve in izdelki