Kas yra sintetiniai duomenys?
Sintetiniai duomenys — tai dirbtinai sugeneruoti duomenų rinkiniai, kurie išsaugo originalų statistines savybes ir šablonus, bet neturi tikrų asmens duomenų. Gartner prognozuoja, kad iki 2030 m. sintetiniai duomenys sudarys didžiąją dalį DI mokymo duomenų.
Generavimo metodai
Pagrindiniai metodai: GAN (generatyviniai priešininkiniai tinklai), difuzijos modeliai (ypač vaizdams), statistinės taisyklės (generavimas remiantis tikimybių pasiskirstymais) ir LLM (tekstų, testų scenarijų, pokalbių generavimas).
Verslo privalumai
Sintetiniai duomenys sprendžia tris pagrindines problemas: privatumas (nėra asmens duomenų = nėra BDAR problemos), prieinamumas (iš kelių tūkstančių įrašų galite sugeneruoti milijonus) ir balansas (nelygių klasių išlyginimas — pvz., reti sukčiavimo atvejai tampa gerai atstovaujami).