Što je anotacija podataka?
Anotacija podataka je proces dodavanja metapodataka ili oznaka sirovim podacima — tekstu, slikama, videu, zvuku — kako bi AI modeli mogli učiti iz primjera. Svaka kategorija AI modela zahtijeva drugačiji tip anotacije: klasifikacija slika zahtijeva oznake kategorija, detekcija objekata zahtijeva graničnike, NLP anotacija uključuje imenovanje entiteta i označavanje odnosa.
Metode anotacije
Ručna anotacija: ljudski anotatori — najveća točnost, ali skupo i sporo. Crowdsourcing: platforme poput Amazon Mechanical Turk za skalabilnost. Polu-nadgledano učenje: modeli anotiraju, ljudi verificiraju. Programatska anotacija: heuristike i slabi nadzirači automatiziraju dio procesa (Snorkel).
Kvaliteta i upravljanje
Kvaliteta anotacije izravno određuje kvalitetu modela. Mjere za osiguranje: smjernice za anotatore, inter-rater agreement metrike, uzorkovanje za provjeru kvalitete, iterativno poboljšanje smjernica. Anotacijski troškovi i kašnjenja su čest bottleneck u ML razvoju.