Grįžti į žodyną Technologijos

Sintetiniai duomenys

Dirbtinai sugeneruoti duomenų rinkiniai, išsaugantys originalų statistines savybes — DI mokymui be privatumo pažeidimų.

Kas yra sintetiniai duomenys?

Sintetiniai duomenys — tai dirbtinai sugeneruoti duomenų rinkiniai, kurie išsaugo originalų statistines savybes ir šablonus, bet neturi tikrų asmens duomenų. Gartner prognozuoja, kad iki 2030 m. sintetiniai duomenys sudarys didžiąją dalį DI mokymo duomenų.

Generavimo metodai

Pagrindiniai metodai: GAN (generatyviniai priešininkiniai tinklai), difuzijos modeliai (ypač vaizdams), statistinės taisyklės (generavimas remiantis tikimybių pasiskirstymais) ir LLM (tekstų, testų scenarijų, pokalbių generavimas).

Verslo privalumai

Sintetiniai duomenys sprendžia tris pagrindines problemas: privatumas (nėra asmens duomenų = nėra BDAR problemos), prieinamumas (iš kelių tūkstančių įrašų galite sugeneruoti milijonus) ir balansas (nelygių klasių išlyginimas — pvz., reti sukčiavimo atvejai tampa gerai atstovaujami).

Susijusios paslaugos ir produktai