Видове противникови атаки
Противниковите атаки включват: атаки с входни данни (входове, влошаващи модела, изглеждащи валидни за хора), индиректни атаки (вграждане на злонамерено съдържание в документи) и атаки чрез отравяне на обучението (вмъкване на злонамерени данни в обучаващите данни).
Корпоративна уместност
В бизнеса практическите противникови атаки включват инжектиране на подкани срещу LLM системи, атаки с класификация на изображения и атаки с фалшиви прегледи на продукти.
Защита
Защитата включва противниково обучение, филтриране на входни данни, мониторинг на разпределението на входните данни и редовно тестване за уязвимости. Препоръчва се многопластова защита.