Atpakaļ uz vārdnīcu Tehnoloģija

Sintētiskie dati

Mākslīgi ģenerētas datu kopas, kas saglabā oriģinālu statistiskās īpašības — MI apmācībai bez privātuma pārkāpumiem.

Kas ir sintētiskie dati?

Sintētiskie dati ir mākslīgi ģenerētas datu kopas, kas saglabā oriģinālu statistiskās īpašības un modeļus, bet nesatur reālus personas datus. Saskaņā ar Gartner prognozēm līdz 2030. gadam sintētiskie dati veidos lielāko daļu MI apmācības datu.

Ģenerēšanas metodes

Galvenās pieejas: GAN (ģeneratīvi pretinieku tīkli), difūzijas modeļi (īpaši attēliem), statistiskie noteikumi (ģenerēšana, balstoties uz varbūtības sadalījumiem) un LLM (tekstu, testu scenāriju, sarunu ģenerēšana).

Biznesa priekšrocības

Sintētiskie dati atrisina trīs galvenās problēmas: privātums (nav personas datu = nav GDPR problēmas), pieejamība (no dažiem tūkstošiem ierakstu var ģenerēt miljonus) un līdzsvars (nevienmērīgu klašu izlīdzināšana — piemēram, reti krāpšanas gadījumi kļūst labi pārstāvēti).