Que sont les données synthétiques ?
Les données synthétiques sont des jeux de données générés artificiellement qui préservent les propriétés statistiques et les motifs des originaux mais ne contiennent aucune donnée personnelle réelle. Selon Gartner, d'ici 2030, les données synthétiques constitueront la majorité des données d'entraînement IA.
Méthodes de génération
Principales approches : GAN (Generative Adversarial Networks), modèles de diffusion (surtout pour les images), règles statistiques (génération basée sur des distributions de probabilité) et LLM (génération de textes, scénarios de test, conversations).
Avantages pour l'entreprise
Les données synthétiques résolvent trois problèmes clés : vie privée (aucune donnée personnelle = aucun problème RGPD), disponibilité (générer des millions d'enregistrements à partir de quelques milliers) et équilibre (égaliser des classes déséquilibrées — par ex. les cas de fraude rares deviennent bien représentés).