Zer dira Datu Sintetikoak?
Datu sintetikoak artifizialki sortutako datu-multzoak dira, jatorrizkoen propietate estatistikoak eta ereduak mantentzen dituztenak baina benetako datu pertsonalik ez dituztenak. Gartner-en arabera, 2030erako datu sintetikoak AA entrenatze-datuen gehiengoa izango dira.
Sorkuntza-metodoak
Ikuspegi nagusiak: GANak (Generative Adversarial Networks), difusio-ereduak (bereziki irudietarako), arau estatistikoak (probabilitate-banaketan oinarritutako sorkuntza) eta LLMak (testuak, proba-eszenatokiak, elkarrizketak sortzea).
Enpresa-onurak
Datu sintetikoek hiru arazo nagusi konpontzen dituzte: pribatutasuna (datu pertsonalik ez = DBEO arazorik ez), eskuragarritasuna (milaka erregistroetatik milioika sor ditzakezu) eta oreka (klase desorekak berdintzea — adib. iruzur kasu arraroak ondo ordezkatuta geratzen dira).