Vissza a szójegyzékhez Technológia

Szintetikus adatok

Mesterségesen generált adatkészletek, amelyek megőrzik az eredetiek statisztikai tulajdonságait — AI-betanításhoz adatvédelmi jogsértés nélkül.

Mik azok a szintetikus adatok?

A szintetikus adatok mesterségesen generált adatkészletek, amelyek megőrzik az eredetiek statisztikai tulajdonságait és mintáit, de nem tartalmaznak valós személyes adatokat. A Gartner szerint 2030-ra a szintetikus adatok fogják alkotni az AI-képzési adatok többségét.

Generálási módszerek

Fő megközelítések: GAN-ok (Generative Adversarial Networks), diffúziós modellek (különösen képekhez), statisztikai szabályok (valószínűségi eloszlások alapján történő generálás) és LLM-ek (szövegek, tesztforgatókönyvek, beszélgetések generálása).

Vállalati előnyök

A szintetikus adatok három kulcsproblémát oldanak meg: adatvédelem (nincs személyes adat = nincs GDPR-probléma), elérhetőség (néhány ezer rekordból milliók generálhatók) és kiegyensúlyozottság (egyenetlen osztályok kiegyenlítése — pl. ritka csalási esetek jól reprezentálttá válnak).

Kapcsolódó szolgáltatások és termékek