Povratak na rječnik MLOps & Životni ciklus

Odmak podataka (Data Drift)

Postupna promjena statističkih svojstava ulaznih podataka u produkciji koja degradira izvedbu modela — ključni razlog za monitoring i ponovano treniranje.

Što je odmak podataka?

Odmak podataka (data drift) opisuje statistički pomak u distribuciji ulaznih podataka koje model dobiva u produkciji u usporedbi s podacima na kojima je treniran. Kada distribucija ulaza značajno odstupa od trenirne distribucije, izvedba modela degradira — i to tiho, bez vidljivih grešaka, samo s postupnim pogoršanjem kvalitete predikcija.

Vrste odmaka

Odmak koncepta: promijenio se temeljni odnos između ulaza i ciljne varijable. Odmak kovarijata: distribucija ulaznih značajki se promijenila, ali odnos s ciljem ostaje isti. Odmak oznaka: distribucija ciljnih vrijednosti se promijenila. Odmak virtualnih: kombinacija gore navedenih.

Detekcija i odgovor

Alati za detekciju odmaka kontinuirano prate statističke distribucije ulaza u produkciji i uspoređuju s referentnom distribucijom (Kolmogorov-Smirnov test, Population Stability Index). Kad odmak prijeđe prag, upozorenje aktivira: ručni pregled, automatsko retrainiranje ili eskalaciju vlasniku modela.