Отравяне на модела

Отравянето на модела е тип атака, при която нападателите манипулират обучен модел чрез специално проектирани входни данни, осигурявайки злонамерено поведение при задействане, докато производителността остава невидима при нормални входни данни.

Разграничение от отравянето на данни

Докато отравянето на данни се случва преди обучението, отравянето на модела включва директна манипулация на обучения модел - модифициране на тегла или инжектиране на задна вратичка в параметрите. При сценарии с верига за доставка, моделите, изтеглени от публични хранилища, могат да бъдат злонамерено модифицирани.

Видове отравяне на модела

Честите атаки включват задни вратички (модели, активиращи се само при специфични тригери), имплицитно намерение (злонамерено поведение на конкретна категория документи) и атаки с идентичност (модели, инжектиращи предубеждение срещу конкретни популации).

Защита

Защитата включва верификация на модела от надеждни източници, сканиране на ограниченията на модела за признаци на задни вратички и мониторингови системи, детектиращи внезапни спадове в качеството или необичайно поведение.

Отравяне на модела

Разграничение от отравянето на данни

Видове отравяне на модела

Защита

Свързани термини

Свързани услуги и продукти