Carlos B Fernández. El desarrollo de la inteligencia artificial (IA) requiere, en la mayoría de los casos, grandes cantidades de datos para su entrenamiento y desarrollar su capacidad de clasificación o toma de decisiones. Con mucha frecuencia, estos datos incluyen información personal, lo que los somete a la normativa sobre privacidad y protección de datos. Y ello obliga a un esfuerzo de compatibilizar la normativa ya existen sobre esta materia, con la que se está elaborando actualmente sobre IA, en una tarea de conciliar intereses que pueden llegar a ser contrapuestos.
Para avanzar en esa tarea, nos ha parecido el white paper presentado por el Institute for Human-Centered Artificial Intelligence (HAI) de la Universidad de Stanford, “Rethinking Privacy in the AI Era - Policy Provocations for a Data-Centric World” (Repensando la privacidad en la era de la IA - Propuestas políticas para un mundo centrado en los datos), elaborado por Jennifer King, Privacy and Data Policy Fellow del HAI y Caroline Meinhardt, policy research manager del mismo.
En un momento en el que Europa está abriendo el tráfico legal y la libre circulación de datos por medio, no ya solo del RGPD, sino también de la Ley de Datos y la Ley de Gobernanza de Datos, conocer una visión abierta, desde los Estados Unidos, sede de las principales compañías tecnológicas mundiales, procedente de uno de los centros de investigación más relevantes del país, resulta particularmente interesante y útil.
En este documento, se presentan una serie de argumentos y predicciones sobre cómo afectará la normativa actual y futura sobre privacidad y protección de datos al desarrollo y despliegue de los sistemas de IA.
Para ello parte de la base de que los son la base de todos los sistemas de IA, por lo que, en el futuro, el desarrollo de la IA seguirá aumentando el ansia de los desarrolladores por esos datos de entrenamiento, lo que alimentará una carrera por la adquisición de datos aún mayor que la que ya hemos visto en décadas pasadas.
Una recopilación de datos sin restricciones plantea riesgos únicos para la privacidad que van más allá del nivel individual: se suman para plantear daños a nivel social que no pueden abordarse únicamente mediante el ejercicio de los derechos de datos individuales.
Aunque la legislación sobre privacidad existente y propuesta, basada en las Prácticas Aceptables de Información Justa (en inglés Fair Information Practices o FIP) mundialmente aceptadas, regula implícitamente el desarrollo de la IA, no es suficiente para hacer frente a la carrera de adquisición de datos ni a los daños a la privacidad individuales y sistémicos resultantes.
Incluso la legislación que contiene disposiciones explícitas sobre la toma de decisiones algorítmicas y otras formas de IA, como el RGPD, no proporciona las medidas de gobernanza de datos necesarias para regular de forma significativa los datos utilizados en los sistemas de IA.
Por ello, en este documento se presentan tres sugerencias sobre cómo mitigar los riesgos para la privacidad de los datos que plantea el desarrollo y la adopción de la IA:
1. Dejar de hacer normal la recogida de datos por defecto pasando a una verdadera minimización de los datos mediante estrategias de "privacidad por defecto" y adoptar normas técnicas e infraestructuras para implantar mecanismos de consentimiento significativos.
2. Centrarse en la cadena de suministro de datos de IA para mejorar la privacidad y la protección de datos. Se trata de que garantizar la transparencia y la responsabilidad sobre el conjunto de datos a lo largo de todo el ciclo de vida debe ser un objetivo de cualquier sistema regulatorio que aborde la privacidad de los datos.
3. Apoyar el desarrollo de nuevos mecanismos de gobernanza e infraestructuras técnica para impulsar y automatizar el ejercicio de los derechos y preferencias de los ciudadanos.
Con más detalle:
Dejar de hacer normal la recopilación de datos por defecto, pasando de la opción de exclusión a la de inclusión.
Se trata de facilitar una verdadera minimización de los datos, basada en la adopción de normas tecnológicas que la respalden.
El reto que plantea un mundo con mayores demandas de datos es cómo mitigar el exceso de recopilación de datos sin añadir demasiadas fricciones con solicitudes de consentimiento excesivas. Los servicios digitales necesitan datos de los consumidores para funcionar, y no todas esas solicitudes son excesivas. Algunos datos demográficos serán necesarios para evaluar si los sistemas de IA son sesgados o discriminatorios, aunque esto puede lograrse dentro del ámbito de las normas de limitación de finalidad.
Pero en ausencia de normas claras, el incentivo que proporcionan los datos llevan a las empresas a tratar de maximizar su recopilación, especialmente si les preocupa que sus competidores lo hagan aunque ellos no lo hagan. Un ejemplo emergente en Estados Unidos es la recopilación de los números de teléfono móvil de los consumidores, que, debido a la normativa sobre portabilidad, se han convertido en una forma de identificador persistente similar a los números de la seguridad social. Muchos servicios en línea exigen ahora que el cliente facilite un número de teléfono móvil al registrarse, aunque no sea necesario para la prestación del servicio. Se trata de una clara extralimitación que debería abordarse tanto con normas de minimización de datos como de limitación de la finalidad. Según estas expertas, si no abordamos en origen la forma de evitar que los datos se escapan del sistema, no podremos mejorar la privacidad de nuestros datos ni ejercer un control adecuado sobre la forma en que nuestros datos alimentan los sistemas de inteligencia artificial.
La recopilación y el uso de datos en línea ya no se limitan a influir en el comportamiento de compra; el uso de datos por parte de gobiernos y empresas privadas puede afectar no sólo a los derechos civiles, sino también al funcionamiento de los gobiernos democráticos. A medida que tanto el uso de la tecnología como la IA siguen creciendo y extendiéndose, la necesidad de abordar estos defectos fundamentales en el marco de los PIF se hace cada vez más urgente.
Por todo ello, los recopiladores de datos deben facilitar una verdadera minimización de datos, pasando de la recogida de datos "opt-out" a la recogida "opt-in", a través de estrategias de "privacidad por defecto" y adoptando normas técnicas e infraestructura para implementar mecanismos de consentimiento significativos.
Por otra parte, añaden las autoras del informe, oponerse al statu quo de la recopilación omnipresente de datos no paralizará a las industrias intensivas en datos. Podría ralentizar el ritmo de algunos avances en IA, aunque esto puede ser una característica, no un error.
Aunque los datos no son un recurso tangible y puede que no tengan el mismo impacto material a corto plazo en el medio ambiente cuando se explotan, sí afectan a los seres humanos y a los derechos humanos. La utilización de datos puede generar daños en el mundo real. Hasta la fecha, los datos personales se han tratado como un recurso inagotable que se puede recoger a voluntad y explotar como se desee. A medida que más aspectos de la vida humana son mediados por la tecnología y más personas tienen acceso a Internet, hemos visto cómo el impacto de los datos en la sociedad ha aumentado significativamente en las últimas dos décadas.
Centrarse en la cadena de suministro de datos de IA para mejorar la privacidad y la protección de datos.
Garantizar la transparencia y la responsabilidad sobre el conjunto de datos a lo largo de todo el ciclo de vida debe ser un objetivo de cualquier sistema regulatorio que aborde la privacidad de los datos. Por tanto, la regulación de la cadena de suministro de datos de IA debe ser un punto central de cualquier sistema normativo que aborde la privacidad de los datos.
La aparición de la IA, en particular de la IA generativa, pone a prueba los marcos de privacidad y protección de datos basados en los PIF, especialmente el RGPD. Si bien las normativas existentes pueden proporcionar cierta supervisión de los datos recogidos y procesados directamente por un sistema de IA, hay menos claridad en cuanto a la supervisión de la cadena de suministro de datos de formación.
Además, las normativas existentes no abordan cómo pueden saber las personas si sus datos están incluidos en los conjuntos de datos de entrenamiento de una empresa, qué hacer si un sistema de IA revela inadvertidamente esos datos en sus resultados, o si las personas pueden solicitar su supresión y luego verificar su eliminación. Con los sistemas de IA generativa, existe la complejidad adicional de desentrañar si un resultado de información personal identificable fue resultado de una “alucinación” del sistema, o si se basó en inferencias realizadas por el modelo sin los datos reales del conjunto de datos de entrenamiento. La comprensión de la cadena de desarrollo de datos se vuelve aún más compleja cuando las empresas utilizan los servicios de IA de otras empresas (models as a Service). En estos casos, la relación entre el consumidor y los datos de entrenamiento y el modelo se aleja aún más.
Estas cuestiones plantean la necesidad de un marco de gobernanza de los datos que esté en consonancia con las preocupaciones sobre la privacidad de los datos y que vaya más allá de los derechos individuales contemplados en los PIF. Aunque los individuos y sus datos personales están ciertamente implicados en estas cuestiones de gobernanza, también plantean preocupaciones a nivel social que no se captan considerando estas actividades únicamente desde la perspectiva de los derechos individuales.
Estimar el tamaño deseado de un conjunto de datos de formación no es una ciencia exacta; aunque hay pruebas de que los conjuntos de datos más grandes parecen mejorar las capacidades del sistema, más grande no significa por definición mejor.
Por ello, el informe plantea incentivar las prácticas responsables, de forma que cualquier planteamiento para resolver los problemas de privacidad que representan los datos de entrenamiento de los sistemas, debe abordar los incentivos existentes en el mercado de datos para obtenerlos de forma barata o poco ética. Aunque la imposición de requisitos de cumplimiento puede cambiar tanto la práctica empresarial como la cultura, es poco probable que lo haga para abordar los incentivos que impulsan una carrera a la baja con prácticas de datos contrarias a la privacidad. En resumen, es difícil competir con datos libres y no regulados, especialmente cuando existe competencia entre jurisdicciones legales.
Dar la vuelta al guión de la creación y gestión de datos personales
Los responsables políticos deben apoyar el desarrollo de nuevos mecanismos de gobernanza e infraestructura técnica (por ejemplo, mediante la creación de intermediarios de datos e infraestructura de autorización de datos) para apoyar y automatizar el ejercicio de los derechos y preferencias de datos individuales. Se trata de apoyar el desarrollo de intermediarios de datos como forma de apoyar y automatizar el ejercicio de los derechos y preferencias individuales en materia de datos, así como la privacidad colectiva.
Esta propuesta va claramente en la línea ya marcada por el Reglamento europeo de Gobernanza de datos o Data Gobernance Act.
Según las autoras del informe, los dos componentes que pueden ayudar a alcanzar el objetivo de mejorar la privacidad de nuestros datos, en un contexto en el que el desarrollo de la IA alimenta la demanda de datos personales, son facilitar la creación de intermediarios de datos y construir la arquitectura técnica necesaria para apoyar la utilización consentida de datos personales.
No se trata de soluciones rápidas y a corto plazo para los problemas mencionados, sino de una visión a más largo plazo de los cambios estructurales que debemos introducir en nuestro ecosistema digital ante un mundo cada vez más ávido de datos.
Según las autoras del informe, para que el ecosistema de datos se aleje de la recopilación de datos por defecto será necesario algo más que un cambio de política. Requerirá nuevas entidades jurídicas para la gobernanza de los datos, como los intermediarios de datos, con deberes de diligencia claramente definidos para que no creemos inadvertidamente una nueva clase de intermediarios de datos (o los creemos con normativas estrictas y normas éticas estrictas).
Además, hará falta una infraestructura técnica que permita (e incentive) intercambios de datos éticos y centrados en el ser humano que respeten el consentimiento del usuario y sus preferencias de uso.
También puede ser necesario reabrir los debates sobre la gestión de derechos digitales de la década de 2000 para permitir a las personas proteger tanto la privacidad de sus datos como los derechos de propiedad intelectual de los contenidos que comparten en línea. Pero también requerirá una inversión en recursos de datos públicos, para que el valor de los grandes conjuntos de datos no quede únicamente en manos de agentes privados.