Retour au glossaire MLOps & Cycle de vie

Dérive des données

Le glissement graduel des données de production par rapport aux données d'entraînement d'un modèle, entraînant une dégradation des performances et des prédictions peu fiables.

Qu'est-ce que la dérive des données ?

La dérive des données désigne le changement dans les propriétés statistiques des données d'entrée en production par rapport aux données sur lesquelles le modèle a été entraîné. Comme les modèles apprennent des modèles dans les données d'entraînement, les performances peuvent se dégrader lorsque ces modèles changent. La dérive peut être graduelle — schémas saisonniers, changements démographiques, évolutions de produits — ou abrupte suite à des événements comme le COVID-19 qui ont causé des changements comportementaux fondamentaux.

Types de dérive

La dérive de concept survient lorsque la relation entre les caractéristiques et la variable cible change. La dérive de caractéristiques modifie la distribution des caractéristiques d'entrée. La dérive d'étiquettes affecte la distribution de la variable cible. Chaque type de dérive nécessite une stratégie de détection et d'atténuation différente.

Surveillance et réponse

Implémentez une surveillance continue de la distribution des caractéristiques avec des tests statistiques (test KS, PSI) pour les caractéristiques les plus importantes. Configurez des alertes lorsque les métriques de dérive dépassent les seuils. Développez des pipelines de réentraînement pouvant être déclenchés automatiquement lorsque les performances du modèle tombent en dessous des limites acceptables.