Voltar ao glossário Segurança

AI Red Teaming

Teste da segurança de sistemas de IA através de ataques simulados — encontrar vulnerabilidades, contornar guardrails e métodos de manipulação de modelos.

O que é o AI Red Teaming?

O AI Red Teaming é a prática de testar a segurança dos sistemas de IA simulando ataques adversários. A equipa vermelha tenta: contornar os guardrails do modelo, forçar a geração de conteúdo prejudicial, extrair dados de treino, manipular saídas e encontrar exploits de prompt injection.

Porque é exigido?

O AI Act impõe testes de robustez para sistemas de IA de alto risco (Art. 9). Mesmo sem regulamentação, o red teaming é o método mais eficaz para descobrir vulnerabilidades antes da implementação em produção.

Técnicas de AI Red Teaming

As técnicas-chave incluem: prompt injection, jailbreaking (contornar restrições do modelo), extração de dados (extrair fragmentos de dados de treino), entradas adversárias (entradas modificadas que causam resultados incorretos) e model inversion (reconstrução de dados de treino a partir do modelo).