Glosategiara itzuli Teknologia

Datu Sintetikoak

Artifizialki sortutako datu-multzoak jatorrizkoen propietate estatistikoak mantentzen dituztenak — AA entrenamendurako pribatutasun-urraketarik gabe.

Zer dira Datu Sintetikoak?

Datu sintetikoak artifizialki sortutako datu-multzoak dira, jatorrizkoen propietate estatistikoak eta ereduak mantentzen dituztenak baina benetako datu pertsonalik ez dituztenak. Gartner-en arabera, 2030erako datu sintetikoak AA entrenatze-datuen gehiengoa izango dira.

Sorkuntza-metodoak

Ikuspegi nagusiak: GANak (Generative Adversarial Networks), difusio-ereduak (bereziki irudietarako), arau estatistikoak (probabilitate-banaketan oinarritutako sorkuntza) eta LLMak (testuak, proba-eszenatokiak, elkarrizketak sortzea).

Enpresa-onurak

Datu sintetikoek hiru arazo nagusi konpontzen dituzte: pribatutasuna (datu pertsonalik ez = DBEO arazorik ez), eskuragarritasuna (milaka erregistroetatik milioika sor ditzakezu) eta oreka (klase desorekak berdintzea — adib. iruzur kasu arraroak ondo ordezkatuta geratzen dira).