¿Qué es el Envenenamiento de Datos?
El envenenamiento de datos es un ataque contra la integridad de los sistemas de IA en el que los atacantes comprometen el proceso de entrenamiento inyectando puntos de datos maliciosos en el conjunto de entrenamiento. A diferencia de los ataques de inferencia que atacan modelos terminados, los ataques de envenenamiento apuntan al fundamento del modelo — los datos de los que aprende. El modelo envenenado resultante puede comportarse normalmente para la mayoría de los inputs pero está comprometido para entradas especiales.
Tipos de Ataques
Los ataques de backdoor embedding incrusta disparadores ocultos en el modelo — un patrón o prefijo específico que, cuando está presente, produce una salida predefinida. Los ataques de degradación del rendimiento reducen la precisión general del modelo sin disparadores específicos. Los ataques dirigidos influyen en las predicciones para clases o individuos específicos.
Medidas de Defensa
Para protegerse contra el envenenamiento de datos: valide las fuentes de datos e implemente el seguimiento de la procedencia de los datos. Use métodos estadísticos para detectar anomalías en el conjunto de datos de entrenamiento. Implemente procedimientos de entrenamiento robustos como técnicas de privacidad diferencial. Monitorice el comportamiento del modelo en busca de patrones anómalos que puedan indicar backdoors.