Volver al glosario Seguridad

AI Red Teaming

Pruebas de seguridad de sistemas de IA mediante ataques simulados — encontrar vulnerabilidades, evasiones de guardrails y métodos de manipulación de modelos.

¿Qué es el AI Red Teaming?

El AI Red Teaming es la práctica de probar la seguridad de los sistemas de IA simulando ataques adversarios. El equipo rojo intenta: eludir los guardrails del modelo, forzar la generación de contenido dañino, extraer datos de entrenamiento, manipular las salidas y encontrar exploits de prompt injection.

¿Por qué es obligatorio?

El AI Act exige pruebas de robustez para sistemas de IA de alto riesgo (Art. 9). Incluso sin regulación, el red teaming es el método más eficaz para descubrir vulnerabilidades antes del despliegue en producción.

Técnicas de AI Red Teaming

Las técnicas clave incluyen: prompt injection, jailbreaking (evasión de restricciones del modelo), extracción de datos (extracción de fragmentos de datos de entrenamiento), entradas adversarias (entradas modificadas que causan resultados incorrectos) y model inversion (reconstrucción de datos de entrenamiento a partir del modelo).