Volver al glosario Seguridad

Envenenamiento de Modelos

Ataques adversariales en los que se introducen datos dañinos en el proceso de entrenamiento para manipular el comportamiento del modelo.

¿Qué es el envenenamiento de modelos?

El envenenamiento de modelos (Model Poisoning) es un ataque contra sistemas de IA en el que un atacante introduce datos dañinos o manipulados en el proceso de entrenamiento. El objetivo es influir en el modelo para que produzca salidas incorrectas o dañinas para determinadas entradas, mientras aparece correcto para entradas normales.

Tipos de ataque

Los ataques de puerta trasera (backdoor) ocultan disparadores en el modelo que activan comportamientos no deseados ante ciertas entradas. El envenenamiento de etiquetas manipula las etiquetas de entrenamiento para desplazar los límites de decisión de clase. El envenenamiento de datos introduce ejemplos cuidadosamente construidos que orientan el modelo en una dirección determinada.

Medidas de protección

Las empresas se protegen mediante una validación y filtrado cuidadosos de los datos, monitoreo de las fuentes de datos de entrenamiento, pruebas de robustez adversarial y detección de anomalías en los datos de entrenamiento. Es especialmente importante proteger los pipelines de datos y verificar los conjuntos de datos de terceros.