O que é o Desvio de Dados?
O desvio de dados refere-se às alterações nas propriedades estatísticas dos dados de entrada ao longo do tempo que fazem com que os modelos de machine learning se degradem silenciosamente. Um modelo treinado numa distribuição de dados específica torna-se progressivamente menos preciso à medida que os dados do mundo real se afastam dessa distribuição. O desvio é insidioso porque pode ocorrer gradualmente e pode passar despercebido até que o desempenho degrade de forma suficientemente visível para causar impacto no negócio.
Tipos de Desvio
O desvio de covariáveis (covariate drift) ocorre quando a distribuição de dados de entrada muda mas a relação subjacente entre inputs e outputs permanece estável. O desvio de conceito (concept drift) é mais severo — a própria relação que o modelo aprendeu mudou. O desvio de rótulo (label drift) ocorre quando a distribuição das classes alvo muda. O desvio de dados upstream acontece quando sistemas a montante que fornecem dados ao seu pipeline de IA mudam o formato, a semântica ou o processo de geração.
Detecção e Resposta
Implemente testes de desvio estatístico (Kolmogorov-Smirnov, Population Stability Index) em pipelines de monitorização que executam em cada intervalo de dados recebidos. Estabeleça limiares de alerta distintos para investigação manual versus re-treino automático. Mantenha conjuntos de avaliação atualizados que reflitam a distribuição atual de dados de produção. Planeie para re-treino regular mesmo na ausência de desvio detetado, uma vez que o mundo muda continuamente e os modelos precisam de ser recalibrados com dados recentes.