Annotation de données (Data Labeling)

Qu'est-ce que l'annotation de données ?

L'annotation de données est le processus d'ajout de libellés informatifs aux données brutes — texte, images, audio ou vidéo — pour entraîner des modèles IA pour l'apprentissage supervisé. Des données annotées de haute qualité constituent le fondement de tout système IA qui apprend à partir d'exemples : la détection d'objets nécessite des images avec des boîtes englobantes marquées, les classificateurs de sentiment ont besoin de textes étiquetés avec des émotions, les modèles de langage bénéficient du classement humain des qualités de réponse.

Méthodes d'annotation

Les méthodes vont de l'annotation entièrement humaine (qualité maximale, coût maximal) aux approches hybrides human-in-the-loop et à la pré-annotation assistée par modèle avec révision humaine (efficacité maximale). Les cadres d'apprentissage actif identifient les échantillons les plus informatifs pour l'annotation. Les plateformes de crowdsourcing permettent une annotation à grande échelle.

Assurance qualité

La qualité de l'annotation influence directement les performances du modèle. Les meilleures pratiques comprennent : des directives d'annotation claires pour chaque cas d'usage, des métriques d'accord inter-annotateurs, plusieurs annotations par échantillon pour les tâches subjectives, des contrôles qualité réguliers avec standard or et des équipes d'annotateurs spécialisés pour les domaines nécessitant une expertise.

Qu'est-ce que l'annotation de données ?

Méthodes d'annotation

Assurance qualité

Termes associés