Zer da AI Red Teaming?
AI Red Teaming AA sistemen segurtasuna probatzeko praktika da, aurkako erasoak simulatuz. Talde gorriak saiatzen da: ereduaren guardrails saihesten, eduki kaltegarriaren sorkuntza behartzen, entrenatze-datuak erauzten, irteerak manipulatzen eta prompt injection exploit-ak aurkitzen.
Zergatik da beharrezkoa?
AA Legeak sendotasun-probak eskatzen ditu arrisku handiko AA sistementzat (9. artikulua). Araudirik gabe ere, red teaming da ekoizpen-hedapenaren aurretik ahuleziak aurkitzeko metodorik eraginkorrena.
AI red teaming teknikak
Funtsezko teknikak honako hauek dira: prompt injection, jailbreaking (ereduaren murrizketen saihestea), datuen erauzketa (entrenatze-datuen zatiak ateratzea), aurkako sarrerak (emaitza okerrak eragiten dituzten sarrera aldatuak) eta ereduaren inbertsioa (entrenatze-datuak eredutik berreraikitzea).