Atpakaļ uz vārdnīcu Drošība

AI Red Teaming

MI sistēmas drošības testēšana ar simulētiem uzbrukumiem — ievainojamību, barjeru apiešanas un modeļa manipulācijas metožu atrašana.

Kas ir AI Red Teaming?

AI Red Teaming ir MI sistēmas drošības testēšanas prakse, simulējot naidīgus uzbrukumus. Sarkanā komanda mēģina: apiet modeļa barjeras, piespiest kaitīga satura ģenerēšanu, izgūt apmācības datus, manipulēt izvades un atrast prompt injection ievainojamības.

Kāpēc tas ir obligāts?

AI Act nosaka izturīguma testēšanu augsta riska MI sistēmām (9. pants). Pat bez regulācijas red teaming ir visefektīvākā metode ievainojamību atklāšanai pirms ražošanas ieviešanas.

AI red teaming tehnikas

Galvenās tehnikas ietver: prompt injection, jailbreaking (modeļa ierobežojumu apiešana), datu izgūšana (apmācības datu fragmentu iegūšana), naidīgas ievades (modificētas ievades, kas izraisa nepareizus rezultātus) un modeļa inversija (apmācības datu rekonstrukcija no modeļa).

Saistītie pakalpojumi un produkti