Tagasi sõnastikku Turvalisus

AI Red Teaming

Tehisintellekti süsteemi turvalisuse testimine simuleeritud rünnakutega — haavatavuste, kaitsepiirangute möödahiilimiste ja mudeli manipuleerimismeetodite leidmine.

Mis on AI Red Teaming?

AI Red Teaming on tehisintellekti süsteemi turvalisuse testimise praktika vaenuliku rünnaku simuleerimise kaudu. Punane meeskond üritab: mööduda mudeli kaitsepiirangudest, sundida kahjulikku sisu genereerima, treeningandmeid ekstraheerida, väljundeid manipuleerida ja prompt injection haavatavusi leida.

Miks on see kohustuslik?

AI Act nõuab kõrge riskiga tehisintellekti süsteemidele vastupidavuse testimist (art 9). Isegi ilma regulatsioonita on red teaming kõige tõhusam meetod haavatavuste avastamiseks enne tootmisse juurutamist.

AI red teamingu tehnikad

Peamised tehnikad hõlmavad: prompt injection, jailbreaking (mudeli piirangute möödahiilimine), andmete ekstraheerimine (treeningandmete fragmentide kättesaamine), vaenulikud sisendid (muudetud sisendid, mis põhjustavad ebaõigeid tulemusi) ja mudeli inversioon (treeningandmete rekonstrueerimine mudelist).

Seotud teenused ja tooted