Разграничение от отравянето на данни
Докато отравянето на данни се случва преди обучението, отравянето на модела включва директна манипулация на обучения модел - модифициране на тегла или инжектиране на задна вратичка в параметрите. При сценарии с верига за доставка, моделите, изтеглени от публични хранилища, могат да бъдат злонамерено модифицирани.
Видове отравяне на модела
Честите атаки включват задни вратички (модели, активиращи се само при специфични тригери), имплицитно намерение (злонамерено поведение на конкретна категория документи) и атаки с идентичност (модели, инжектиращи предубеждение срещу конкретни популации).
Защита
Защитата включва верификация на модела от надеждни източници, сканиране на ограниченията на модела за признаци на задни вратички и мониторингови системи, детектиращи внезапни спадове в качеството или необичайно поведение.