Zurück zum Glossar Technologie

Synthetische Daten

Künstlich generierte Datensätze, die statistische Eigenschaften der Originale bewahren — für KI-Training ohne Datenschutzverletzungen.

Was sind synthetische Daten?

Synthetische Daten sind künstlich generierte Datensätze, die statistische Eigenschaften und Muster der Originale bewahren, aber keine echten personenbezogenen Daten enthalten. Laut Gartner werden synthetische Daten bis 2030 den Großteil der KI-Trainingsdaten ausmachen.

Generierungsmethoden

Hauptansätze: GANs (Generative Adversarial Networks), Diffusionsmodelle (insbesondere für Bilder), statistische Regeln (Generierung basierend auf Wahrscheinlichkeitsverteilungen) und LLMs (Generierung von Texten, Testszenarien, Konversationen).

Vorteile für Unternehmen

Synthetische Daten lösen drei zentrale Probleme: Datenschutz (keine personenbezogenen Daten = kein DSGVO-Problem), Verfügbarkeit (aus nur Tausenden können Millionen von Datensätzen generiert werden) und Balance (Ausgleich ungleicher Klassen — z. B. seltene Betrugsfälle werden gut repräsentiert).

Verwandte Dienstleistungen und Produkte