Cargando. Por favor, espere

Portada

El intercambio y la gobernanza de datos son claves para el desarrollo de la inteligencia artificial (IA) de código abierto. presenta una oportunidad para democratizar el progreso tecnológico y reducir la concentración de poder en la industria de la IA. Pero, ¿qué es la IA open source? Desde IBM indican que son aquellas modalidades que tienen un código fuente de acceso libre para que cualquiera pueda utilizarlo, modificarlo y distribuirlo, es decir, son de uso público y facilitan la experimentación. Gracias a ello, existe la posibilidad de que los desarrolladores independientes puedan diseñar aplicaciones creativas, soluciones prácticas y casos de uso empresarial basados en IA. Pero su viabilidad depende de que dispongan de conjuntos de datos diversos y de alta calidad.

Precisamente en la generación de marcos sólidos de gobernanza de datos se centra el informe técnico “Data Governance in Open Source. AI Enabling Responsible and Systemic Access” elaborado por las organizaciones Open Future y la Open Source Initiative (OSI). En sus páginas se pone el acento en el intercambio responsable de información, su gestión por parte de las comunidades de desarrolladores y las prácticas que compatibilicen la innovación y la protección de los derechos fundamentales.

El enfoque debe centrarse en la calidad y la gobernanza. Si se adoptan marcos de datos comunes, se amplía la participación de los públicos de interés y se abordan y se asumen los retos de gobernanza, los desarrollos de IA de código abierto asegurarán su sostenibilidad y continuidad a lo largo del tiempo y el cumplimiento de sus objetivos.

En este sentido, son cinco los retos que menciona el informe:

1. Gobernanza de datos y uso ético. Es necesario equilibrar la posibilidad de compartir de forma abierta los códigos y desarrollos con la protección de la propiedad intelectual, la privacidad y los derechos de la comunidad. Sin esos marcos, existe el riesgo de explotación, en particular en países del sur y en desarrollo, donde la extracción de datos puede reforzar las desigualdades sistémicas que ya existen.

2. Estándares de apertura y transparencia. Una de las características de la IA de código abierto debe ser la transparencia. En este principio se incluye la claridad en la documentación de la procedencia de los datos, la concesión de licencias y la eliminación de las restricciones de uso. La realidad muestra que no son pocos los modelos etiquetados como "abiertos" que incumplen estos principios.

3. Sesgos estructurales en los datos. Numerosos conjuntos de datos que se utilizan en el desarrollo de IA reflejan sesgos basados en el idioma, la geografía y el nivel socioeconómico, dando como resultado sistemas que representan de manera distorsionada a las comunidades marginadas, de modo que se perpetúan desigualdades y se establecen barreras para la inclusión.

4. Sostenibilidad ambiental. La naturaleza intensiva de los recursos utilizados en el desarrollo de IA tiene un impacto ambiental, pero el intercambio de datos abiertos pueden mitigarlo reduciendo la recopilación redundante de datos y fomentando prácticas más eficientes.

5. Representación de las partes interesadas. Actualmente se priorizan las necesidades de los desarrolladores y las grandes corporaciones por encima de quienes aportan los datos, los grupos de afectados y las organizaciones de interés público. Para reducir esta brecha se necesitan modelos de gobernanza inclusivos y enfoques colaborativos en la gestión de datos.

¿Cómo se tienen que abordar estos desafíos? Es necesario establecer una serie de definiciones y estándares sobre la IA open source sobre la cual crear nuevas estrategias de cara al futuro. Y esto pasa el un cambio de paradigma.

Dos cambios de paradigma

Este cambio de paradigma que se necesita pasa por dos aspectos clave. En primer lugar, se necesita adoptar un enfoque basado en los “datos comunes”. Esto quiere decir que hay que dejar atrás las perspectiva centrada de manera exclusiva en la apertura de datos y buscar fórmulas distintas de gobernanza de la información, un salto que exige innovar en materia de licencias e introducir mecanismos novedosos preservando las funciones abiertas centrales de las licencias. Este cambio es necesario para abordar la complejidad de los datos que se pueden utilizar en el entrenamiento de la IA, de modo que pueda haber una amplia variedad de sistemas que van desde los datos totalmente abiertos a casos en los este tipo de intercambio no es ni deseable ni posible. Será necesario desarrollar distintas soluciones para cada uno de los escenarios.

Un segundo cambio de paradigma para por ampliar el universo de los públicos de interés. Será necesario evolucionar de sistemas de trabajo en los que se priorizan las necesidades de desarrollo de la IA a una visión más amplia, en la que también también se satisfagan las necesidades y los objetivos una amplitud de partes interesadas.

En este sentido, habrá que tener en cuenta a los titulares de derechos en trabajos creativos o de investigación, así como a los administradores y responsables de diversas colecciones o de repositorios.

¿Cómo promover la gobernanza de datos?

El documento desarrolla de manera detallada una serie de áreas de actuación en la que se deben centrar los esfuerzos para mejorar la gobernanza de datos como fuente de conocimiento para el entrenamiento de la IA de código abierto. Son las siguientes:

1. Preparación y procedencia de los datos. Fijar unos estándares sólidos para la recopilación, clasificación y anonimización de datos y metadatos que garanticen la calidad y la trazabilidad.

2. Señalización de preferencias y licencias. Desarrollar marcos de exclusión voluntaria y licencias sociales para permitir que los titulares de derechos y las comunidades controlen el uso de los datos.

3. Custodios y administradores de datos. Fortalecer el papel de estas figuras, incluidas las instituciones intermediarias que facilitan el intercambio de datos al tiempo que garantizan una gobernanza ética.

4. Sostenibilidad ambiental. Promover prácticas que reduzcan el impacto ambiental de la IA a través de conjuntos de datos compartidos y métodos de formación eficientes.

5. Reciprocidad y compensación. Implementar mecanismos que aseguren que el valor generado a partir de los datos compartidos se distribuya equitativamente, en particular a las comunidades marginadas y más desfavorecidas.

6. Intervenciones políticas. Abogar por políticas públicas que exijan la transparencia de los datos, incentiven su intercambio y apoyen la creación de conjuntos abiertos.

¿Cuál puede ser el resultado si se avanza en estas áreas de actuación? Por una parte, aumentarán los flujos de intercambio de datos, al facilitar su uso, mejorar su calidad y garantizar una mayor disponibilidad de datos abiertos. Y por otra, se protegerán los bienes comunes del conocimiento como consecuencia de un reconocimiento de los retos jurídicos asociado y de la implementación de las licencias para ofrecer una gobernanza adecuada.

Scroll