Înapoi la glosar Securitate

Otrăvirea modelelor (Model Poisoning)

Amenințare de securitate AI în care atacatorii influențează procesul de antrenare pentru a implanta comportamente malițioase sau a degrada performanța.

Înțelegerea otrăvirii modelelor

Otrăvirea modelelor desemnează atacurile care vizează procesul de antrenare al modelului ML însuși, de la injectarea de backdoor la degradarea performanței. Spre deosebire de otrăvirea datelor, care vizează datele de antrenare, otrăvirea modelelor manipulează direct parametrii modelului sau algoritmul de antrenare.

Tipuri de vectori de otrăvire

Atacurile backdoor injectează funcționalitate ascunsă activată de un declanșator special. Atacurile bazate pe gradient sunt posibile în configurațiile de învățare federată, unde participanții malițioși pot trimite actualizări de gradient manipulate.

Abordări defensive

Verificările de integritate și semnăturile asigură că modelele nu au fost modificate. Protocoalele de agregare securizată în învățarea federată protejează procesul de agregare. Controlul accesului la infrastructura de antrenare previne modificările neautorizate.

Servicii și produse conexe