Wróć do słownika MLOps & Cykl życia

Annotacja danych (Data Labeling)

Proces oznaczania danych treningowych etykietami, niezbędny do treningu modeli uczenia nadzorowanego.

Czym jest annotacja danych?

Annotacja danych (data labeling) to proces przypisywania etykiet, kategorii lub znaczników do surowych danych — tekstu, obrazów, audio czy wideo — aby mogły służyć jako dane treningowe dla modeli uczenia nadzorowanego. To fundament większości systemów AI: jakość annotacji bezpośrednio determinuje jakość modelu. Proces obejmuje definiowanie schematu annotacji, oznaczanie danych przez annotatorów i kontrolę jakości etykiet.

Metody i narzędzia

Annotacja może być realizowana ręcznie (eksperci domenowi), półautomatycznie (AI-assisted labeling — model proponuje, człowiek weryfikuje) lub programatycznie (weak supervision, labeling functions). Typy annotacji obejmują: klasyfikację tekstu (sentiment, intencje), rozpoznawanie encji (NER), segmentację obrazów, bounding boxes, transkrypcję audio i annotację relacji. Narzędzia enterprise (Label Studio, Prodigy, Scale AI) wspierają workflow z kontrolą jakości i zarządzaniem annotatorami.

Wyzwania enterprise

Kluczowe wyzwania to: zapewnienie spójności między annotatorami (inter-annotator agreement), skalowanie procesu przy dużych zbiorach danych, zarządzanie jakością (golden sets, audyt próbkowy), ochrona danych wrażliwych w procesie annotacji oraz koszt — annotacja ekspercka jest droga, ale tania annotacja generuje szum. Strategia active learning optymalizuje koszt, kierując do annotacji próbki najbardziej wartościowe dla modelu.