Înțelegerea otrăvirii modelelor
Otrăvirea modelelor desemnează atacurile care vizează procesul de antrenare al modelului ML însuși, de la injectarea de backdoor la degradarea performanței. Spre deosebire de otrăvirea datelor, care vizează datele de antrenare, otrăvirea modelelor manipulează direct parametrii modelului sau algoritmul de antrenare.
Tipuri de vectori de otrăvire
Atacurile backdoor injectează funcționalitate ascunsă activată de un declanșator special. Atacurile bazate pe gradient sunt posibile în configurațiile de învățare federată, unde participanții malițioși pot trimite actualizări de gradient manipulate.
Abordări defensive
Verificările de integritate și semnăturile asigură că modelele nu au fost modificate. Protocoalele de agregare securizată în învățarea federată protejează procesul de agregare. Controlul accesului la infrastructura de antrenare previne modificările neautorizate.