Voltar ao glossário Segurança

Envenenamento de Modelo (Model Poisoning)

Os ataques de envenenamento de modelos comprometem sistemas de IA manipulando os parâmetros do modelo ou o processo de treino para introduzir comportamentos maliciosos ocultos.

O que é o Envenenamento de Modelo?

O envenenamento de modelo é um ataque adversarial que compromete um sistema de IA ao manipular diretamente os parâmetros do modelo ou o processo de treino em vez de envenenar os dados de treino subjacentes. Os ataques podem ser realizados por acesso não autorizado à infraestrutura de treino, através de ataques de supply chain em componentes de modelo de terceiros, ou através de ataques federated learning onde os participantes contribuem com atualizações de modelo maliciosas.

Vetores de Ataque

Na aprendizagem federada, participantes maliciosos podem submeter atualizações de gradiente elaboradas que empurram o modelo global em direções que criam comportamentos de backdoor — o modelo funciona normalmente mas falha de formas específicas quando é apresentado com um gatilho predeterminado. Os ataques de supply chain visam bibliotecas ou pesos de modelos pré-treinados amplamente usados, introduzindo vulnerabilidades que se propagam para os modelos fine-tuned. O acesso a checkpoints de modelo armazenados pode permitir a modificação direta dos pesos.

Defesas

Proteja contra o envenenamento de modelo ao tratar os artefatos de modelo como segredos de segurança críticos. Implemente controlo de acesso rigoroso e auditoria para infraestrutura de treino e armazenamento de modelos. Verifique a integridade dos pesos de modelos pré-treinados usando checksums criptográficos. Para aprendizagem federada, implemente algoritmos de agregação robustos que detetem e filtrem atualizações maliciosas. Audite regularmente modelos de produção em busca de comportamentos inesperados, especialmente após atualizações ou re-treino.