Czym jest data drift?
Data drift (dryf danych) to zjawisko stopniowej zmiany statystycznego rozkładu danych wejściowych modelu AI w porównaniu do danych, na których model był trenowany. Jest to naturalna konsekwencja zmian w świecie rzeczywistym — zmieniają się zachowania klientów, warunki rynkowe, trendy sezonowe, a nawet format danych źródłowych. Data drift prowadzi do degradacji jakości predykcji, nawet jeśli sam model nie uległ zmianie.
Rodzaje dryfu
Wyróżniamy kilka typów: covariate shift (zmiana rozkładu cech wejściowych), concept drift (zmiana relacji między cechami a zmienną docelową), prior probability shift (zmiana proporcji klas) i feature drift (zmiana poszczególnych zmiennych). Dryf może być nagły (np. pandemia), stopniowy (trendy sezonowe), cykliczny (weekendowe wzorce) lub inkrementalny. Każdy typ wymaga innej strategii detekcji i reakcji.
Detekcja i reakcja
Monitoring data drift w produkcji obejmuje: testy statystyczne (KS test, chi-square, PSI — Population Stability Index), wizualizację rozkładów, alerting przy przekroczeniu progów i automatyczny retraining. W środowisku enterprise kluczowe jest wbudowanie monitoringu dryfu w pipeline MLOps — każda predykcja produkcyjna powinna być oceniana pod kątem odchylenia od rozkładu treningowego, a istotny dryf powinien wyzwalać proces retreningu lub eskalację.