¿Qué es el envenenamiento de modelos?
El envenenamiento de modelos (Model Poisoning) es un ataque contra sistemas de IA en el que un atacante introduce datos dañinos o manipulados en el proceso de entrenamiento. El objetivo es influir en el modelo para que produzca salidas incorrectas o dañinas para determinadas entradas, mientras aparece correcto para entradas normales.
Tipos de ataque
Los ataques de puerta trasera (backdoor) ocultan disparadores en el modelo que activan comportamientos no deseados ante ciertas entradas. El envenenamiento de etiquetas manipula las etiquetas de entrenamiento para desplazar los límites de decisión de clase. El envenenamiento de datos introduce ejemplos cuidadosamente construidos que orientan el modelo en una dirección determinada.
Medidas de protección
Las empresas se protegen mediante una validación y filtrado cuidadosos de los datos, monitoreo de las fuentes de datos de entrenamiento, pruebas de robustez adversarial y detección de anomalías en los datos de entrenamiento. Es especialmente importante proteger los pipelines de datos y verificar los conjuntos de datos de terceros.