Que é o AI Red Teaming?
O AI Red Teaming é a práctica de probar a seguridade dos sistemas de IA simulando ataques adversarios. O equipo vermello intenta: evadir os guardrails do modelo, forzar a xeración de contido prexudicial, extraer datos de adestramento, manipular saídas e atopar exploits de prompt injection.
Por que é obrigatorio?
A Lei de IA esixe probas de robustez para sistemas de IA de alto risco (Artigo 9). Mesmo sen regulación, o red teaming é o método máis efectivo para descubrir vulnerabilidades antes do despregamento en produción.
Técnicas de AI red teaming
As técnicas clave inclúen: prompt injection, jailbreaking (evasión de restricións do modelo), extracción de datos (extraer fragmentos de datos de adestramento), entradas adversarias (entradas modificadas que provocan resultados incorrectos) e inversión do modelo (reconstrución de datos de adestramento a partir do modelo).