Atpakaļ uz vārdnīcu mlops

Datu anotācija (datu marķēšana)

Datu anotācija ir process, kurā neapstrādātiem datiem pievieno etiķetes un metadatus, lai izveidotu augstas kvalitātes apmācības datu kopas AI modeļu mācīšanai.

Kas ir datu anotācija?

Datu anotācija ir process, kurā neapstrādātiem datiem — tekstam, attēliem, audio, video — pievieno etiķetes un metadatus. Šīs etiķetētas datu kopas ir būtiskas uzraudzītās mašīnmācīšanās modeļu apmācībai. Anotācijas kvalitāte tieši ietekmē modeļa veiktspēju — labākas etiķetes nozīmē labākus modeļus.

Anotācijas veidi

Teksta anotācija ietver entītiju atpazīšanu, sentimenta marķēšanu, attiecību klasificēšanu un teksta klasifikāciju. Attēlu anotācija ietver ierobežojošos rāmjus, semantisko segmentāciju, atslēgpunktu marķēšanu un attēlu klasifikāciju. Audio anotācija ietver transkripciju, runātāja identificēšanu un skaņu klasifikāciju. Video anotācija apvieno attēlu un audio tehnikas ar laika dimensiju.

Kvalitātes nodrošināšana

Augsta kvalitātes anotācijai nepieciešami: skaidras vadlīnijas (anotācijas rokasgrāmata ar piemēriem un robežgadījumiem); vairāku anotētāju pārklāšanās (vismaz 2-3 neatkarīgi anotētāji vienam paraugam); starpnovērtētāju vienošanās metrika (Cohen's kappa, Krippendorff's alpha); regulāra kvalitātes audits un anotētāju apmācība; un iteratīvs process, kurā vadlīnijas tiek uzlabotas, pamatojoties uz reāliem gadījumiem.