Dérive des données

Qu'est-ce que la dérive des données ?

La dérive des données désigne le changement dans les propriétés statistiques des données d'entrée en production par rapport aux données sur lesquelles le modèle a été entraîné. Comme les modèles apprennent des modèles dans les données d'entraînement, les performances peuvent se dégrader lorsque ces modèles changent. La dérive peut être graduelle — schémas saisonniers, changements démographiques, évolutions de produits — ou abrupte suite à des événements comme le COVID-19 qui ont causé des changements comportementaux fondamentaux.

Types de dérive

La dérive de concept survient lorsque la relation entre les caractéristiques et la variable cible change. La dérive de caractéristiques modifie la distribution des caractéristiques d'entrée. La dérive d'étiquettes affecte la distribution de la variable cible. Chaque type de dérive nécessite une stratégie de détection et d'atténuation différente.

Surveillance et réponse

Implémentez une surveillance continue de la distribution des caractéristiques avec des tests statistiques (test KS, PSI) pour les caractéristiques les plus importantes. Configurez des alertes lorsque les métriques de dérive dépassent les seuils. Développez des pipelines de réentraînement pouvant être déclenchés automatiquement lorsque les performances du modèle tombent en dessous des limites acceptables.

Qu'est-ce que la dérive des données ?

Types de dérive

Surveillance et réponse

Termes associés