O que é o AI Red Teaming?
O AI Red Teaming é a prática de testar a segurança dos sistemas de IA simulando ataques adversários. A equipa vermelha tenta: contornar os guardrails do modelo, forçar a geração de conteúdo prejudicial, extrair dados de treino, manipular saídas e encontrar exploits de prompt injection.
Porque é exigido?
O AI Act impõe testes de robustez para sistemas de IA de alto risco (Art. 9). Mesmo sem regulamentação, o red teaming é o método mais eficaz para descobrir vulnerabilidades antes da implementação em produção.
Técnicas de AI Red Teaming
As técnicas-chave incluem: prompt injection, jailbreaking (contornar restrições do modelo), extração de dados (extrair fragmentos de dados de treino), entradas adversárias (entradas modificadas que causam resultados incorretos) e model inversion (reconstrução de dados de treino a partir do modelo).