Što je odmak podataka?
Odmak podataka (data drift) opisuje statistički pomak u distribuciji ulaznih podataka koje model dobiva u produkciji u usporedbi s podacima na kojima je treniran. Kada distribucija ulaza značajno odstupa od trenirne distribucije, izvedba modela degradira — i to tiho, bez vidljivih grešaka, samo s postupnim pogoršanjem kvalitete predikcija.
Vrste odmaka
Odmak koncepta: promijenio se temeljni odnos između ulaza i ciljne varijable. Odmak kovarijata: distribucija ulaznih značajki se promijenila, ali odnos s ciljem ostaje isti. Odmak oznaka: distribucija ciljnih vrijednosti se promijenila. Odmak virtualnih: kombinacija gore navedenih.
Detekcija i odgovor
Alati za detekciju odmaka kontinuirano prate statističke distribucije ulaza u produkciji i uspoređuju s referentnom distribucijom (Kolmogorov-Smirnov test, Population Stability Index). Kad odmak prijeđe prag, upozorenje aktivira: ručni pregled, automatsko retrainiranje ili eskalaciju vlasniku modela.