Glosategiara itzuli Segurtasuna

AI Red Teaming

AA sistemen segurtasuna probatzea eraso simulatuen bidez — ahuleziak, guardrails saihesteak eta eredu-manipulazio metodoak aurkitzea.

Zer da AI Red Teaming?

AI Red Teaming AA sistemen segurtasuna probatzeko praktika da, aurkako erasoak simulatuz. Talde gorriak saiatzen da: ereduaren guardrails saihesten, eduki kaltegarriaren sorkuntza behartzen, entrenatze-datuak erauzten, irteerak manipulatzen eta prompt injection exploit-ak aurkitzen.

Zergatik da beharrezkoa?

AA Legeak sendotasun-probak eskatzen ditu arrisku handiko AA sistementzat (9. artikulua). Araudirik gabe ere, red teaming da ekoizpen-hedapenaren aurretik ahuleziak aurkitzeko metodorik eraginkorrena.

AI red teaming teknikak

Funtsezko teknikak honako hauek dira: prompt injection, jailbreaking (ereduaren murrizketen saihestea), datuen erauzketa (entrenatze-datuen zatiak ateratzea), aurkako sarrerak (emaitza okerrak eragiten dituzten sarrera aldatuak) eta ereduaren inbertsioa (entrenatze-datuak eredutik berreraikitzea).

Lotutako zerbitzuak eta produktuak