Povratak na rječnik Tehnologija

Sintetički podaci

Umjetno generirani skupovi podataka koji čuvaju statistička svojstva izvornika — za treniranje AI-ja bez kršenja privatnosti.

Što su sintetički podaci?

Sintetički podaci su umjetno generirani skupovi podataka koji čuvaju statistička svojstva i obrasce izvornika, ali ne sadrže stvarne osobne podatke. Prema Gartneru, do 2030. sintetički podaci činit će većinu podataka za treniranje AI-ja.

Metode generiranja

Glavni pristupi: GAN-ovi (generativne adversarne mreže), difuzijski modeli (posebno za slike), statistička pravila (generiranje na temelju distribucija vjerojatnosti) i LLM-ovi (generiranje tekstova, testnih scenarija, razgovora).

Poslovne prednosti

Sintetički podaci rješavaju tri ključna problema: privatnost (nema osobnih podataka = nema problema s GDPR-om), dostupnost (možete generirati milijune zapisa od samo nekoliko tisuća) i ravnoteža (izjednačavanje neravnomjernih klasa — npr. rijetki slučajevi prijevara postaju dobro zastupljeni).