Atpakaļ uz vārdnīcu mlops

Datu novirze

Datu novirze notiek, kad produkcijas datu sadalījums mainās salīdzinājumā ar apmācības datiem, degradējot AI modeļa veiktspēju un prasot nepārtrauktu uzraudzību un pārapmācību.

Kas ir datu novirze?

Datu novirze (data drift) notiek, kad datu sadalījums, ko AI modelis saņem produkcijā, atšķiras no datu sadalījuma, uz kura tas tika apmācīts. Tā kā modeļi mācās no vēsturiskiem datiem, jebkuras izmaiņas datu modeļos var degradēt modeļa precizitāti un uzticamību. Datu novirze ir viena no galvenajām problēmām AI sistēmu uzturēšanā un ilgtermiņa veiktspējas nodrošināšanā.

Novirzes veidi

Ievades novirze (covariate drift) — mainās ievades pazīmju sadalījums, bet saistība starp pazīmēm un mērķi paliek nemainīga. Koncepta novirze (concept drift) — mainās pati saistība starp ievadi un izvadi. Etiķešu novirze — mainās mērķa mainīgā sadalījums. Sezonālā novirze — prognozējamas cikliskas izmaiņas. Pēkšņa novirze — straujš sadalījuma lēciens (piemēram, pandēmija, regulatīvas izmaiņas).

Atklāšana un pārvaldība

Ieviešiet statistiskos testus (KS tests, PSI, Jensen-Shannon divergence) ievades datu sadalījuma uzraudzībai. Uzraugiet modeļa veiktspējas metriku produkcijā ar brīdinājumiem, kad tā samazinās zem sliekšņa. Automatizējiet pārapmācības konveijeru, kas aktivizējas, kad tiek atklāta būtiska novirze. Uzturiet datu kvalitātes kontroli, kas nodrošina, ka jaunie apmācības dati ir tīri un reprezentatīvi.