Otrăvirea modelelor (Model Poisoning)

Înțelegerea otrăvirii modelelor

Otrăvirea modelelor desemnează atacurile care vizează procesul de antrenare al modelului ML însuși, de la injectarea de backdoor la degradarea performanței. Spre deosebire de otrăvirea datelor, care vizează datele de antrenare, otrăvirea modelelor manipulează direct parametrii modelului sau algoritmul de antrenare.

Tipuri de vectori de otrăvire

Atacurile backdoor injectează funcționalitate ascunsă activată de un declanșator special. Atacurile bazate pe gradient sunt posibile în configurațiile de învățare federată, unde participanții malițioși pot trimite actualizări de gradient manipulate.

Abordări defensive

Verificările de integritate și semnăturile asigură că modelele nu au fost modificate. Protocoalele de agregare securizată în învățarea federată protejează procesul de agregare. Controlul accesului la infrastructura de antrenare previne modificările neautorizate.

Înțelegerea otrăvirii modelelor

Tipuri de vectori de otrăvire

Abordări defensive

Termeni înrudiți

Servicii și produse conexe