Was sind synthetische Daten?
Synthetische Daten sind künstlich generierte Datensätze, die statistische Eigenschaften und Muster der Originale bewahren, aber keine echten personenbezogenen Daten enthalten. Laut Gartner werden synthetische Daten bis 2030 den Großteil der KI-Trainingsdaten ausmachen.
Generierungsmethoden
Hauptansätze: GANs (Generative Adversarial Networks), Diffusionsmodelle (insbesondere für Bilder), statistische Regeln (Generierung basierend auf Wahrscheinlichkeitsverteilungen) und LLMs (Generierung von Texten, Testszenarien, Konversationen).
Vorteile für Unternehmen
Synthetische Daten lösen drei zentrale Probleme: Datenschutz (keine personenbezogenen Daten = kein DSGVO-Problem), Verfügbarkeit (aus nur Tausenden können Millionen von Datensätzen generiert werden) und Balance (Ausgleich ungleicher Klassen — z. B. seltene Betrugsfälle werden gut repräsentiert).