O que é o Envenenamento de Dados?
O envenenamento de dados é um tipo de ataque adversarial em que atores maliciosos introduzem dados cuidadosamente elaborados num conjunto de dados de treino para influenciar o comportamento do modelo resultante. Ao contrário dos ataques a sistemas implantados, o envenenamento de dados tem como alvo o próprio processo de treino, incorporando vulnerabilidades que persistem indefinidamente no modelo treinado. O ataque pode ser detalhado — apenas algumas centenas de exemplos envenenados num conjunto de dados de milhões podem ser suficientes para introduzir comportamentos maliciosos confiáveis.
Tipos de Ataques
Os ataques de backdoor inserem exemplos rotulados incorretamente com um padrão de gatilho — o modelo aprende a comportar-se normalmente exceto quando esse gatilho específico está presente. Os ataques de degradação de desempenho introduzem exemplos ruidosos que reduzem a precisão global, particularmente em classes específicas. O envenenamento direcionado foca-se em fazer com que o modelo falhe em exemplos específicos — por exemplo, classificar incorretamente uma identidade específica num sistema de reconhecimento facial.
Defesas Empresariais
Proteja contra o envenenamento de dados através de processos rigorosos de proveniência de dados que rastreiem a origem e a cadeia de custódia de cada exemplo de treino. Implemente deteção de anomalias em conjuntos de dados de treino para identificar outliers estatísticos. Use validação de dados com curadoria humana para subconjuntos de treino de alto risco. Para conjuntos de dados críticos, considere técnicas de treino robusto como a aprendizagem federada com verificações de robustez ou a destilação do conjunto de dados para reduzir a influência de exemplos individuais potencialmente envenenados.