Tanto la investigación científica, los testeos y pruebas de nuevos softwares, plataformas y herramientas digitales y los desarrollos basados en inteligencia artificial requieren de una materia prima que a en muchos casos escasea: los datos que, además, deben ser de buena calidad. Pero acceder a ellos supone tener que sortear algunos obstáculos y limitaciones legales relacionadas con las garantías de privacidad, sobre todo si se trata de información sensible. Otra barrera es que la información real que se requiere puede tener un coste elevado o, sencillamente, se trata de datos que no están disponibles. Una vía para sortear estas dificultades, que podrían frenar proyectos de gran impacto e incluso obstaculizar los avances y la innovación tecnológica, es el uso de datos sintéticos o datos artificiales.
Tal como señala su nombre, son datos elaborados de manera artificial, que no se generan ni se crean como consecuencia directa de acontecimientos naturales o que han ocurrido efectivamente en la realidad. Los datos sintéticos son diseñados a imagen y semejanza de los datos que surgen en el mundo real, pero sin que impliquen información de tipo personal o de carácter sensible que afecte a la privacidad de los individuos y que pueda suponer una incumplimiento normativo.
¿Cómo se crean? Su fabricación requiere del uso de algoritmos y otras técnicas que permiten replicar las estructuras de los datos originales. Por lo tanto, se trata de información fiable, que refleja los datos personales generados en escenarios reales, pero que ofrecen más garantías de seguridad y fiabilidad para el desarrollo de nuevas tecnologías como la inteligencia artificial, cuyo entrenamiento puede entrañar riesgos para los derechos fundamentales.
Recientemente la Agencia Española de Protección de Datos (AEPD) publicaba la traducción de un informe sobre datos sintéticos que ha editado la autoridad homóloga de Singapur, la Personal Data Protection Commission (PDPC). En el documento se definen los conceptos y se detallan algunos casos de uso de manera que sirvan de guía para los responsables, encargados de tratamientos y delegados de protección de datos de distintas entidades sobre las implicaciones del uso de este tipo de información, dado su enorme valor para el desarrollo y optimización de sistemas y modelos de IA.
Preguntas y respuestas sobre los datos sintéticos
Lo interesante de los datos sintéticos, que tal como advierte el informe suelen ser ficticios, es que pueden no tener la categoría de datos personales por sí mismos. Además, a partir de ellos es posible generar datos estructurados.
Sin embargo, su uso no está exento de riesgos, ya que pueden darse situaciones de reidentificación, es decir, que se pueda reconocer a la persona titular de la información real a través de estos datos artificiales. De ahí que sea necesario aplicar una serie de buenas prácticas y normas de uso para evitar que este riesgo surja, con medidas de prevención aplicables desde el momento de la creación de los datos artificiales.
Pero antes, conviene aclarar en detalle algunas interrogantes sobre este tipo de datos creados de manera artificial:
• ¿Qué son los datos sintéticos? La información que comúnmente se define como datos sintéticos o datos artificiales es aquella que se ha generado utilizando un modelo matemático especialmente diseñado para su elaboración. Este modelo implica tanto el uso de sistemas de inteligencia artificial (IA), de aprendizaje automático o machine learning (ML, por sus siglas en inglés) o de otro tipo de algoritmos.
• ¿Cómo se obtienen? Esta información sintética se puede elaborar entrenando un modelo o algoritmo con un conjunto de datos de origen que imite o replique las características y la estructura en los que se generaron dichos datos.
• ¿Por qué son tan importantes? Los datos sintéticos permiten a los desarrolladores contar con información de buena calidad que reproducen en gran medida las propiedades estadísticas y los patrones de los datos de origen.
• ¿Qué resultados arrojan? El análisis que toma como referencia a los datos sintéticos puede producir resultados similares a los obtenidos con los datos de origen, es decir, con la información que se genera en entornos reales.
• ¿Cuáles son sus características? El conjunto de los datos sintéticos generados contará con información diferente a la que ofrecen los datos de origen. Sin embargo, los datos sintéticos tendrán propiedades estadísticas cercanas a las de aquellos. Esto quiere decir que capturarán la distribución y la estructura de los datos de origen, por lo que los resultados de los testeos que se obtengan con su uso serán similares a los que se generarían en la vida real.
• ¿Cuáles son los riesgos asociados? Los datos sintéticos no siempre están libres de riesgos, ya que la información sobre un individuo en el conjunto de datos de origen, es decir, que tienen carácter confidencial, podría filtrarse o deducirse debido a la semejanza que tienen con la información original que ha servido de base para elaborarlos. Uno de los principales retos será dar con un punto de equilibrio entre dos factores clave: por una parte, la utilidad de los datos, y por otra, los riesgos de protección de datos en la generación de datos sintéticos.
• ¿Cómo pueden minimizarse los riesgos? Tal como señala la guía del autoridad de Singapur, es posible reducir o limitar los riesgos de reidentificación si se tiene en cuenta la protección de datos durante el proceso de generación de datos sintéticos.
Utilidad de los datos sintéticos
La utilidad de los datos sintéticos radica en su potencial para ser utilizados en una amplia variedad de casos que van desde la generación de conjuntos de datos de entrenamiento para modelos de IA hasta el análisis de datos y la colaboración.
Entre las ventajas de contar con datos artificiales está la posibilidad de acelerar proyectos de investigación, el desarrollo de innovaciones relacionadas con la IA, la colaboración y la toma de decisiones. Además, su uso puede reducir las preocupaciones sobre posibles incidentes de ciberseguridad y brechas de datos, lo que permite un mejor cumplimiento de las regulaciones de protección de datos.