Što je inženjerstvo značajki?
Inženjerstvo značajki je proces transformiranja i odabira ulaznih varijabli (značajki) iz sirovih podataka kako bi se poboljšala izvedba ML modela. Unatoč usponu dubokog učenja, koje automatski uči reprezentacije, inženjerstvo značajki ostaje kritično za tablične podatke, interpretabilne modele i domene s ograničenim podacima.
Tehnike inženjerstva značajki
Transformacije: logaritamske, polinomne, normalizacija. Interakcijske značajke: umnošci, omjeri između varijabli. Vremenske značajke: pomaci, pomični prosjeci, sezonski indikatori. Kodiranje kategoričkih: one-hot, target, ordinal encoding. Imputacija: strategije zamjene nedostajućih vrijednosti.
Automatizacija i AutoML
AutoML alati (featuretools, TPOT) automatiziraju dio inženjerstva značajki, ali domenska ekspertiza ostaje neprocjenjiva za kreiranje smislenih značajki. Razlika između izvrsnog i prosječnog ML sustava često leži u kvaliteti inženjerstva značajki, posebno za poslovne primjene s tabličnim podacima.