Torna al glossario MLOps & Ciclo di vita

Data Drift

Lo spostamento graduale dei dati di produzione rispetto ai dati di addestramento di un modello, che porta a degrado delle prestazioni e previsioni inaffidabili.

Cos'è il Data Drift?

Il data drift si riferisce al cambiamento nelle proprietà statistiche dei dati di input in produzione rispetto ai dati su cui il modello è stato addestrato. Poiché i modelli apprendono pattern dai dati di addestramento, le prestazioni possono degradarsi quando questi pattern cambiano. Il drift può essere graduale — schemi stagionali, cambiamenti demografici, evoluzioni dei prodotti — o brusco a causa di eventi come il COVID-19 che hanno causato cambiamenti comportamentali fondamentali.

Tipi di Drift

Il concept drift si verifica quando cambia la relazione tra feature e variabile target. Il feature drift modifica la distribuzione delle feature di input. Il label drift influenza la distribuzione della variabile target. Ogni tipo di drift richiede una strategia di rilevamento e mitigazione diversa.

Monitoraggio e Risposta

Implementate un monitoraggio continuo della distribuzione delle feature con test statistici (KS test, PSI) per le feature più importanti. Configurate alert quando le metriche di drift superano le soglie. Sviluppate pipeline di retraining che possano essere attivate automaticamente quando le prestazioni del modello scendono al di sotto dei limiti accettabili.