Data Drift

Was ist Data Drift?

Data Drift bezeichnet die Veränderung der statistischen Eigenschaften von Eingabedaten in der Produktion im Vergleich zu den Daten, auf denen das Modell trainiert wurde. Da Modelle Muster in Trainingsdaten erlernen, kann sich die Leistung verschlechtern, wenn sich diese Muster verschieben. Drift kann graduell sein — saisonale Muster, demografische Veränderungen, Produktentwicklungen — oder abrupt infolge von Ereignissen wie COVID-19, die fundamentale Verhaltensveränderungen verursachten.

Drift-Typen

Konzept-Drift tritt auf, wenn sich die Beziehung zwischen Features und Zielvariable verändert — der Umstand, der eine Transaktion als betrügerisch macht, kann sich weiterentwickeln. Feature-Drift verändert die Verteilung der Eingabe-Features. Label-Drift beeinflusst die Verteilung der Zielvariable. Jeder Drift-Typ erfordert eine andere Erkennungs- und Minderungsstrategie.

Monitoring und Reaktion

Implementieren Sie kontinuierliches Feature-Distribution-Monitoring mit statistischen Tests (KS-Test, PSI) für die wichtigsten Features. Richten Sie Alerts ein, wenn die Drift-Metriken Schwellenwerte überschreiten. Halten Sie Neumessungsdatensätze bereit, um die Modellleistung zu validieren, wenn Drift erkannt wird. Entwickeln Sie Retraining-Pipelines, die automatisch ausgelöst werden können, wenn die Modellleistung unter akzeptable Grenzen fällt. Behandeln Sie Data Drift als kontinuierliches Monitoring-Problem, nicht als einmaliges Deployment-Problem.

Was ist Data Drift?

Drift-Typen

Monitoring und Reaktion

Verwandte Begriffe