Cos'è il Data Drift?
Il data drift si riferisce al cambiamento nelle proprietà statistiche dei dati di input in produzione rispetto ai dati su cui il modello è stato addestrato. Poiché i modelli apprendono pattern dai dati di addestramento, le prestazioni possono degradarsi quando questi pattern cambiano. Il drift può essere graduale — schemi stagionali, cambiamenti demografici, evoluzioni dei prodotti — o brusco a causa di eventi come il COVID-19 che hanno causato cambiamenti comportamentali fondamentali.
Tipi di Drift
Il concept drift si verifica quando cambia la relazione tra feature e variabile target. Il feature drift modifica la distribuzione delle feature di input. Il label drift influenza la distribuzione della variabile target. Ogni tipo di drift richiede una strategia di rilevamento e mitigazione diversa.
Monitoraggio e Risposta
Implementate un monitoraggio continuo della distribuzione delle feature con test statistici (KS test, PSI) per le feature più importanti. Configurate alert quando le metriche di drift superano le soglie. Sviluppate pipeline di retraining che possano essere attivate automaticamente quando le prestazioni del modello scendono al di sotto dei limiti accettabili.