Kas ir datu novirze?
Datu novirze (data drift) notiek, kad datu sadalījums, ko AI modelis saņem produkcijā, atšķiras no datu sadalījuma, uz kura tas tika apmācīts. Tā kā modeļi mācās no vēsturiskiem datiem, jebkuras izmaiņas datu modeļos var degradēt modeļa precizitāti un uzticamību. Datu novirze ir viena no galvenajām problēmām AI sistēmu uzturēšanā un ilgtermiņa veiktspējas nodrošināšanā.
Novirzes veidi
Ievades novirze (covariate drift) — mainās ievades pazīmju sadalījums, bet saistība starp pazīmēm un mērķi paliek nemainīga. Koncepta novirze (concept drift) — mainās pati saistība starp ievadi un izvadi. Etiķešu novirze — mainās mērķa mainīgā sadalījums. Sezonālā novirze — prognozējamas cikliskas izmaiņas. Pēkšņa novirze — straujš sadalījuma lēciens (piemēram, pandēmija, regulatīvas izmaiņas).
Atklāšana un pārvaldība
Ieviešiet statistiskos testus (KS tests, PSI, Jensen-Shannon divergence) ievades datu sadalījuma uzraudzībai. Uzraugiet modeļa veiktspējas metriku produkcijā ar brīdinājumiem, kad tā samazinās zem sliekšņa. Automatizējiet pārapmācības konveijeru, kas aktivizējas, kad tiek atklāta būtiska novirze. Uzturiet datu kvalitātes kontroli, kas nodrošina, ka jaunie apmācības dati ir tīri un reprezentatīvi.