Cargando. Por favor, espere

Senén Barro Ameneiro

Director del CiTIUS-Centro Singular de Investigación en Tecnologías Inteligentes

Universidad de Santiago de Compostela

1. Datos

Cuando nos hablan de datos pensamos en aprendizaje automático, inteligencia artificial, sesgos, privacidad, propiedad, seguridad, regulación, ética… En fin, muchos conceptos que antes no asociábamos con la palabra, cuando éramos sobre todo las personas quienes manejábamos y pensábamos en los datos para tener información sobre algo, un mayor conocimiento de ello y poder, en su caso, extraer conclusiones al respecto y tomar decisiones. Pero ahora todo eso ocurre principalmente en el mundo digital y a una escala no solo inalcanzable para nosotros sino casi inimaginable. Sin esos datos y las máquinas que los adquieren, los procesan, los generan y además aprenden de ellos, muchas de las cosas que sabemos y tenemos no serían más que una quimera.

2. ¿De dónde salen los datos que consumen frenéticamente los modelos de IA?

Un grupo de investigadores, autodenominado «Data Provenance Initiative», auditó casi 4.000 conjuntos de datos públicos, procedentes de 800 fuentes únicas y casi 700 organizaciones. Datos con una gran diversidad de contenidos, idiomas y países de origen. Su estudio ha sido publicado en un reciente artículo (1) en el que concluyen algo que ya era un clamor: unas pocas empresas tecnológicas disponen de casi todos los datos y, por tanto, del poder creciente que estos aportan. El resto de las empresas, la Universidad y los gobiernos asisten relativamente impasibles ante este casi monopolio.

Desde que en 2017 se publicó el artículo que presentó al mundo la arquitectura de los transformadores (2) , y que ha permitido el desarrollo fulgurante de la IA generativa, la avidez por los datos no ha hecho más que crecer, al igual que el tamaño de los modelos de IA, que ya han superado en algunos casos el billón de parámetros que han de sintonizarse a través de los algoritmos que aprenden de dichos datos. Modelos de texto, voz, imagen… multimodales.

El principal proveedor de datos es internet. Los datos de voz, por ejemplo, se extraen principalmente de contenidos en vídeo de internet, seguido a mucha distancia de los audiolibros, muchos también disponibles en la red. El 70% de los datos de vídeo proceden de Youtube, un ejemplo rotundo de cómo los gigantes tecnológicos, en este caso Alphabet, matriz de Google, disponen de casi toda la materia prima de la IA. La segunda fuente de datos de vídeo, que ya supone casi una de cada cuatro horas de contenidos, son vídeos sintéticos, lo que evidencia la creciente dificultad para disponer de datos para tantos modelos y tan grandes.

La hegemonía sobre los datos de los gigantes tecnológicos, sobre todo los estadounidenses, no solo nos hace dependientes de su tecnología, sino que nos impone su visión del mundo. Es una nueva forma y más intensa del colonialismo cultural que ya vivimos con la todopoderosa industrial cinematográfica y musical estadounidense, en general con sus industrias culturales y de entretenimiento. Una vez más, el sur global es el pagano. Más del 90% de los datos analizados en el estudio anteriormente referido procedían de Europa y Norteamérica. Menos del 4% de África.

3. ¿Hay datos para tanto modelo?

Lo mismo que la inmensidad de los océanos se hace pequeña ante el constante incremento en la pesca, el tráfico marino y la contaminación, también internet se va quedando pequeño ante la voracidad de la IA. Según un reciente estudio (3) realizado por investigadores de Epoch AI, un instituto virtual de investigación en inteligencia artificial, al ritmo que crecen los modelos de IA y los conjuntos de datos de entrenamiento, el tamaño del corpus necesario para entrenar un modelo de texto en 2028 será equivalente a todo el texto público que hay actualmente en línea. Mientras que el tamaño de internet se incrementa en menos del 10% anual, el tamaño de los corpus de entrenamiento de los modelos de IA lo hace por encima del 100% cada año.

Por otra parte, no todos los datos que están en internet pueden usarse para adiestrar los modelos, aunque esto se haga (4) . Existe la percepción de que los datos que están en internet son de quien los coja, como pensaba yo de niño con la fruta que colgaba de cualquier árbol. Pero muchos datos tienen limitado el tipo de uso que puede hacerse de ellos y muchos otros tienen propietarios dispuestos a poner trabas crecientes al acceso de los rastreadores a sus datos y también a ejercer sus derechos legales, como ha ocurrido con The New York Times, que a finales de 2023 demandó a OpenAI y a Microsoft por infracción de derechos de autor. Fueron los primeros, pero ya hay muchos en cola.

En todo caso, puede haber soluciones. La limitación de datos y la necesidad de hacer sostenible ambientalmente la IA hace que se esté investigando en modelos cuya competencia no dependa tanto del tamaño del conjunto de datos de entrenamiento sino de su calidad, de la forma de entrenarlos, del diseño de su arquitectura de computación, de la especialización tanto funcional como temática de modelos más pequeños… También de la generación de datos sintéticos, de lo que luego hablaré.

4. ¿De quién son los datos?

Hasta ahora da la sensación de que los datos accesibles son también libres, como he dicho. Pero esto dista mucho de ser cierto. Según los investigadores de Data Provenance Initiative, solo el 25% de los datos de texto tienen una licencia que permita su utilización comercial de modo explícito.

Los contenidos de internet son mayoritariamente creados por universidades, gobiernos y empresas, en algunos casos a través de servicios en línea, como las redes sociales, cuyos contenidos son aportados por los usuarios y clientes, casi siempre ignorantes del uso que se va a hacer de ellos. Por otra parte, crecen rápidamente los datos generados por dispositivos, como sensores IoT, automóviles, dispositivos de vestir y un sinfín de cachivaches y máquinas cada vez más sensorizadas, cada vez más inteligentes, cada vez más presentes en nuestras vidas y con las que interaccionamos continuamente, sea de forma consciente o no.

En todo caso, además de que la disponibilidad de datos tiene límites, como he dicho antes, hay otros problemas, como el hecho de que contienen sesgos, que en sí mismos son un sesgo evidente de la realidad diversa del mundo (más de la mitad del texto en internet está en inglés, y casi todos los datos reflejan el norte global y occidental). Por otra parte, no es evidente que crear datos sintéticos pueda ser la panacea. Parecen funcionar bien en ciertos casos en los que el problema que se intenta recrear responde a reglas o pautas claras (movimiento de las articulaciones de un robot, conducción autónoma o reconocimiento de patrones sobre imagen médica, por ejemplo), pero no tanto cuando el objetivo es abordar el mundo real en general, como ocurre en un sistema de diálogo abierto mediante preguntas y respuestas. Además, no es fácil sintetizar datos que reflejen bien la realidad que pretenden representar y resulta caro. Por otra parte, puede ocurrir que acaben reafirmando los modelos y sistemas basados en IA en aquello que ya «sabían» y hacían —una especie de autofagia de aquellos modelos que son reentrenados con datos que han sido generado por ellos o por otros modelos— (5) . Para que se me entienda, aunque exagerando mucho, sería como enseñar a un adolescente a hablar y escribir mejor, pero solo usando las palabras que ya conoce. Podría quizás mejorar su dicción y redacción, pero con un vocabulario insuficiente para expresar la diversidad del mundo en el que vive.

Pronto veremos cómo la generación de datos sintéticos superará a los datos reales (6) , igual que la acuicultura ha superado a la pesca de captura en la producción de animales acuáticos (7) . Pero al igual que la cría de pescado en piscifactorías tiene inconvenientes importantes, la generación sintética de datos no está exenta de ellos, así que queda mucho por hacer.

5. ¿Quién pone orden en todo esto?

Nos enfrentamos a la aparente paradoja de que no podremos seguir desarrollando la IA y sus infinitas aplicaciones si no tenemos más y más datos, en algunos casos muy sensibles, como ocurre en el ámbito de la salud o la educación. Precisamente por la trascendencia de en qué manos estén según qué datos, tenemos que preservar el acceso y uso a los mismos. En el mundo digital necesitamos el equivalente a las salvaguardas de nuestros vienes y de nosotros mismos en el mundo físico: educación, concienciación, prevención, legislación, vigilancia, medios e infraestructuras seguras… Pero de esto seguro que hablarán otros artículos, como he dicho en el arranque.

Scroll