Volver al glosario Seguridad

Ataques Adversariales a la IA

Ataques que engañan o manipulan sistemas de IA mediante entradas cuidadosamente construidas para producir salidas incorrectas o comportamiento no deseado.

¿Qué son los Ataques Adversariales?

Los ataques adversariales son técnicas en las que entradas cuidadosamente diseñadas hacen que los modelos de IA produzcan salidas incorrectas o no deseadas. En la visión por computador, modificaciones mínimas de píxeles, invisibles para los humanos, pueden hacer que una imagen se clasifique incorrectamente. En los modelos de lenguaje, los ataques de inyección de prompt pueden eludir las salvaguardas de seguridad. Estas vulnerabilidades son especialmente preocupantes para aplicaciones críticas de seguridad.

Tipos de Ataques

Los ataques de evasión manipulan las entradas en el momento de la inferencia para provocar una clasificación errónea. Los ataques de envenenamiento dañan el modelo inyectando datos maliciosos en el conjunto de entrenamiento. Los ataques de backdoor entrenan modelos para producir salidas predefinidas cuando se activan ciertos disparadores. Los ataques de inversión de modelos intentan extraer información sobre los conjuntos de entrenamiento de los modelos.

Estrategias de Defensa

Las empresas deben realizar evaluaciones de robustez adversarial como parte de su estrategia de seguridad IA. Las técnicas incluyen: entrenamiento adversarial, validación y saneamiento de entradas, métodos de ensemble, monitorización de salidas en busca de patrones anómalos y ejercicios de red teaming. Los sistemas IA en aplicaciones de alto riesgo necesitan mecanismos de defensa especialmente robustos.

Servicios y productos relacionados