Volver al glosario MLOps & Ciclo de vida

Deriva de Datos

El desplazamiento gradual de los datos de producción respecto a los datos de entrenamiento de un modelo, que lleva a una degradación del rendimiento y predicciones poco fiables.

¿Qué es la Deriva de Datos?

La deriva de datos se refiere al cambio en las propiedades estadísticas de los datos de entrada en producción en comparación con los datos con los que se entrenó el modelo. Dado que los modelos aprenden patrones en los datos de entrenamiento, el rendimiento puede degradarse cuando esos patrones cambian. La deriva puede ser gradual — patrones estacionales, cambios demográficos, evoluciones de productos — o abrupta debido a eventos como el COVID-19 que causaron cambios fundamentales de comportamiento.

Tipos de Deriva

La deriva de concepto ocurre cuando cambia la relación entre características y variable objetivo. La deriva de características cambia la distribución de las características de entrada. La deriva de etiquetas afecta a la distribución de la variable objetivo. Cada tipo de deriva requiere una estrategia de detección y mitigación diferente.

Monitorización y Respuesta

Implemente monitorización continua de la distribución de características con pruebas estadísticas (KS test, PSI) para las características más importantes. Configure alertas cuando las métricas de deriva superen los umbrales. Mantenga conjuntos de datos de re-evaluación listos para validar el rendimiento del modelo cuando se detecte deriva. Desarrolle pipelines de reentrenamiento que puedan activarse automáticamente cuando el rendimiento del modelo caiga por debajo de los límites aceptables.