Volver al glosario Tecnología

Datos sintéticos

Conjuntos de datos generados artificialmente que preservan las propiedades estadísticas de los originales — para entrenamiento de IA sin violaciones de privacidad.

¿Qué son los datos sintéticos?

Los datos sintéticos son conjuntos de datos generados artificialmente que preservan las propiedades estadísticas y los patrones de los originales pero no contienen datos personales reales. Según Gartner, para 2030 los datos sintéticos constituirán la mayoría de los datos de entrenamiento de IA.

Métodos de generación

Principales enfoques: GAN (Generative Adversarial Networks), modelos de difusión (especialmente para imágenes), reglas estadísticas (generación basada en distribuciones de probabilidad) y LLM (generación de textos, escenarios de prueba, conversaciones).

Beneficios para la empresa

Los datos sintéticos resuelven tres problemas clave: privacidad (sin datos personales = sin problema de RGPD), disponibilidad (se pueden generar millones de registros a partir de solo miles) y equilibrio (igualar clases desbalanceadas — por ej. los casos de fraude raros quedan bien representados).