Atpakaļ uz vārdnīcu mlops

Pazīmju inženierija

Pazīmju inženierija ir process, kurā neapstrādāti dati tiek pārveidoti informatīvās pazīmēs, kas uzlabo mašīnmācīšanās modeļu veiktspēju un prognozēšanas precizitāti.

Kas ir pazīmju inženierija?

Pazīmju inženierija ir mašīnmācīšanās būtisks posms, kurā neapstrādāti dati tiek pārveidoti pazīmēs (feature), ko modeļi var efektīvi izmantot. Labi veidotas pazīmes var dramatiski uzlabot modeļa veiktspēju — bieži vairāk nekā sarežģītāka modeļa arhitektūra. Pazīmju inženierija prasa gan jomas zināšanas, gan tehnisko kompetenci.

Tehnikas

Skaitliskās transformācijas: normalizācija, standartizācija, logaritmiskā transformācija, binning. Kategoriskās kodēšanas: viens no N (one-hot), mērķa kodēšana, iegultie vektori (embeddings). Laika pazīmes: laika logi, nobīdes (lags), slīdošie vidējie, sezonalitātes komponenti. Teksta pazīmes: TF-IDF, n-grammas, iegultie vektori. Savstarpējās pazīmes: pazīmju kombinācijas, attiecības, polinomiālās pazīmes.

Mūsdienu pieeja

Automātiskā pazīmju inženierija (AutoFE) izmanto algoritmus pazīmju ģenerēšanai un atlasei. Pazīmju veikali (feature stores) centralizē pazīmju definīcijas un aprēķinus, nodrošinot konsekvenci starp apmācību un servēšanu. Dziļās mācīšanās modeļi bieži veic netieša pazīmju inženieriju, automātiski mācot reprezentācijas no neapstrādātiem datiem. Tomēr jomas specifiskas pazīmes joprojām sniedz būtisku pievienoto vērtību.