Što su sintetički podaci?
Sintetički podaci su umjetno generirani skupovi podataka koji čuvaju statistička svojstva i obrasce izvornika, ali ne sadrže stvarne osobne podatke. Prema Gartneru, do 2030. sintetički podaci činit će većinu podataka za treniranje AI-ja.
Metode generiranja
Glavni pristupi: GAN-ovi (generativne adversarne mreže), difuzijski modeli (posebno za slike), statistička pravila (generiranje na temelju distribucija vjerojatnosti) i LLM-ovi (generiranje tekstova, testnih scenarija, razgovora).
Poslovne prednosti
Sintetički podaci rješavaju tri ključna problema: privatnost (nema osobnih podataka = nema problema s GDPR-om), dostupnost (možete generirati milijune zapisa od samo nekoliko tisuća) i ravnoteža (izjednačavanje neravnomjernih klasa — npr. rijetki slučajevi prijevara postaju dobro zastupljeni).