Mik azok a szintetikus adatok?
A szintetikus adatok mesterségesen generált adatkészletek, amelyek megőrzik az eredetiek statisztikai tulajdonságait és mintáit, de nem tartalmaznak valós személyes adatokat. A Gartner szerint 2030-ra a szintetikus adatok fogják alkotni az AI-képzési adatok többségét.
Generálási módszerek
Fő megközelítések: GAN-ok (Generative Adversarial Networks), diffúziós modellek (különösen képekhez), statisztikai szabályok (valószínűségi eloszlások alapján történő generálás) és LLM-ek (szövegek, tesztforgatókönyvek, beszélgetések generálása).
Vállalati előnyök
A szintetikus adatok három kulcsproblémát oldanak meg: adatvédelem (nincs személyes adat = nincs GDPR-probléma), elérhetőség (néhány ezer rekordból milliók generálhatók) és kiegyensúlyozottság (egyenetlen osztályok kiegyenlítése — pl. ritka csalási esetek jól reprezentálttá válnak).