En el contexto actual, los datos sintéticos se han convertido en una estrategia de importancia crucial en algunos procesos. Son innumerables los casos en que una organización puede necesitar emplearlos de modo que logra proteger la información que contienen y, a la par, acceder a conjuntos de alta calidad.
Es más, la capacidad de los datos sintéticos para resolver diversas situaciones viene reconocida por la propia Agencia Española de Protección de Datos, que incluye su empleo como estrategia de seguridad.
De este modo, la consultora Gartner predice que, para 2024, al menos el 60% de los datos empleados en proyectos de analítica y desarrollo de Inteligencia Artificial contarán con conjuntos de datos sintéticos.
Pero, ¿qué son los datos sintéticos exactamente y qué funciones cumplen a día de hoy? Te contamos todo lo que necesitas saber.
Los datos sintéticos son conjuntos de datos que, en lugar de ser recopilados desde fuente reales, han sido generados artificialmente.
Estos datos se crean mediante el uso de algoritmos y técnicas de generación de datos. Su primera aparición en el imaginario colectivo tuvo lugar en la década de 1990 de la mano del profesor de estadística de la Universidad de Harvard Donald B Rubin. No obstante, su importancia se ha incrementado exponencialmente con el auge de la Inteligencia Artificial y el aprendizaje automático, además de las necesidades cada vez más complejas de las organizaciones en torno al análisis y empleo de datos.
Los datos sintéticos son creados bajo demanda, por lo que pueden generarse para satisfacer las necesidades específicas de un proyecto.
Su calidad viene, en gran medida, determinada por la precisión de los algoritmos que los generan, además de las suposiciones utilizadas en su generación. En este sentido, será clave su validación, de modo que se verifique que son representativos y, por lo tanto, útiles.
Los datos sintéticos vienen a resolver varios problemas y situaciones a los que se enfrentan las organizaciones:
Por un lado, las empresas se ven obligadas a garantizar la privacidad de los datos con los que cuentan. Por otro lado, desean extraer valor de ellos, a través de su análisis o su incorporación a procesos productivos de forma interna. Los datos sintéticos abren la puerta a generar conjuntos de datos útiles y seguros.
Los datos sintéticos vienen a resolver el problema de compartir conjuntos de datos insuficientemente anonimizados, que ponen en peligro su privacidad y pueden enfrentarse a problemas legales de acuerdo al Reglamento General de Protección de Datos.
Las organizaciones recurren al uso de datos sintéticos cuando los reales resultan insuficientes para las necesidades específicas del proyecto. Es más, pueden llegar a cumplir condiciones que no se encuentran en datos originales, al ser generados a demanda sin necesidad de depender de la realidad.
Así, los datos sintéticos resultan útiles en múltiples procesos, incluyendo: investigación y desarrollo, toma de decisiones empresariales, desarrollo de software, entrenamiento de modelos de aprendizaje automático, pruebas de software, pruebas de seguridad o educación.
Las empresas a menudo se encuentran perdiendo tiempo y dinero debido a la falta de una herramienta que les permita crear datos sintéticos de alta calidad cuando más los necesitan, por lo que pasan horas creándolos manualmente o esperándolos. Las consecuencias de esta mala gestión de datos pueden ser significativas, afectando la productividad, la contratación de personal, la calidad de las pruebas y el cumplimiento normativo.
Para arrojar luz sobre este problema, te invitamos a ver nuestro seminario web titulado 'Test Data Mismanagement: Costes Ocultos en la Gobernanza de Datos de Prueba'. En este seminario web Enrique Almohalla (CEO de icaria Technology) y Johnny Grenett (Arquitecto Sr. QA en TSOFT) mantienen una conversación explorando:
Suponen dos enfoques diferentes para proteger la privacidad de los datos. Cada uno de ellos presenta beneficios y limitaciones, y se recomienda su uso en situaciones diferentes.
Por un lado, desde el punto de vista de la preservación de la utilidad de los datos, los datos sintéticos pueden retener la utilidad de los datos originales de una manera más efectiva que la anonimización. Es más, algunas de las técnicas clásicas de anonimización pueden llegar a degradar la calidad y la utilidad de los datos, lo que dificulta su uso en algunos contextos. Por el contrario, los datos sintéticos se crean específicamente para mantener la utilidad de los datos mientras se protege la privacidad.
Por otro lado, es importante tener en cuenta que algunas de las técnicas de anonimización actuales se definen por el Reglamento General de Protección de Datos como “pseudo-anonimización”, ya que pueden “atribuirse a una persona física mediante el uso de información adicional”. La ley determina que estos datos “deben considerarse información sobre una persona física identificable”. En otras palabras, no se consideran como anónimos y por tanto aplica la legislación de privacidad.
Los datos sintéticos, por el contrario, al ser generados artificialmente, no contienen información directa sobre individuos, lo que reduce significativamente el riesgo de reidentificación.
A su vez, pueden facilitar el cumplimiento normativo en algunos casos, especialmente en industrias reguladas. Esto es así porque eliminan el riesgo de incumplimiento accidental debido a una anonimización deficiente.
Como diferencia adicional, puede considerarse que los datos sintéticos cuentan con una mayor flexibilidad, es decir, son capaces de representar una variedad más amplia de situaciones y escenarios en comparación con la anonimización. Esto puede ser útil en casos en los que se necesitan datos de entrenamiento para algoritmos de aprendizaje automático o simulaciones que requieran datos que no existen en el mundo real.
Finalmente, también se considera que los datos sintéticos abren la puerta a un mayor control sobre el nivel de detalle y el ruido en los conjuntos, que quedan adaptados a las necesidades específicas de una aplicación o investigación.
En cualquier caso, la elección entre los diferentes enfoques de anonimización y datos sintéticos depende de la naturaleza de los datos, los requisitos de privacidad y las regulaciones aplicables en un contexto particular. En algunos casos, una combinación de ambas estrategias puede ser la solución más apropiada, y deben ser los expertos en diseño de conjuntos de datos quienes tomen esta decisión.
Explicado de forma sencilla, la generación de datos sintéticos tiene lugar a través de modelos de Machine Learning entrenados previamente a partir de los datos originales. Así, estos modelos son capaces de identificar patrones existentes y reproducirlos, manteniendo las propiedades estadísticas de los datos originales.
Herramientas como el software TDM de icaria Technology son capaces de generar conjuntos de datos sintéticos orientados al bloqueo y supresión de datos personales en entornos de producción. Este tipo de herramienta se ocupa de los procesos de Test Data Management de un modo integral, permitiendo la gestión eficaz de datos en entornos de desarrollo. Entre sus diferentes funciones en este ámbito, es capaz de generar conjuntos de datos sintéticos seguros, completos, y coherentes.
¿Quieres saber más sobre ellos y saber si son la solución que necesitas en tu proyecto? En icaria Technology podemos ayudarte. Ponte en contacto con nosotros y descubre cómo.