Volver ao glosario Seguridade

AI Red Teaming

Probas de seguridade de sistemas de IA mediante ataques simulados — descubrindo vulnerabilidades, evasións de guardrails e métodos de manipulación de modelos.

Que é o AI Red Teaming?

O AI Red Teaming é a práctica de probar a seguridade dos sistemas de IA simulando ataques adversarios. O equipo vermello intenta: evadir os guardrails do modelo, forzar a xeración de contido prexudicial, extraer datos de adestramento, manipular saídas e atopar exploits de prompt injection.

Por que é obrigatorio?

A Lei de IA esixe probas de robustez para sistemas de IA de alto risco (Artigo 9). Mesmo sen regulación, o red teaming é o método máis efectivo para descubrir vulnerabilidades antes do despregamento en produción.

Técnicas de AI red teaming

As técnicas clave inclúen: prompt injection, jailbreaking (evasión de restricións do modelo), extracción de datos (extraer fragmentos de datos de adestramento), entradas adversarias (entradas modificadas que provocan resultados incorrectos) e inversión do modelo (reconstrución de datos de adestramento a partir do modelo).