Ilier Navarro. Poco más de 600 millones de personas hablan español en el mundo. Así lo confirmaba hace solo unas semanas el Instituto Cervantes en la 27ª edición del Anuario del Español en el Mundo. No cabe duda de que es un idioma relevante que no puede quedar atrás en los procesos de innovación ni en los desarrollos disruptivos como la inteligencia artificial. Sobre esta base, se va a desarrollar el proyecto Valle de la Lengua en La Rioja, con cuatro ejes: el turismo idiomático, la producción de conocimiento científico en español, el desarrollo de la economía de la lengua gracias a la IA y la construcción del Observatorio del Español, que medirá la evolución de nuestro idioma en esas tres dimensiones. Pero no es la única iniciativa que se impulsa desde el Gobierno.
Actualmente, en torno al 90% de los datos lingüísticos que se utilizan para entrenar los modelos de lenguaje natural basados en inteligencia artificial están en inglés. De ahí que tenga sentido entrenarlos también con corpus de datos en español. Para conseguirlo, se está impulsando la creación de corpus masivos de datos en español y en las lenguas cooficiales que sean abiertos, públicos y estén a disposición de los desarrolladores de aplicaciones, de manera que puedan crear asistentes conversacionales y modelos de generación de contenido basados en nuestro idioma, sin necesidad de tener que traducirlos desde el inglés y reduciendo las lagunas que se pueden generar en este proceso. Para ello, el Gobierno firmó en abril pasado un acuerdo con IBM, que se encargará de desarrollar modelos nativos. Pero no es la única iniciativa.
En La Rioja, concretamente en la localidad de San Millán de la Cogolla se encuentran los monasterios de Yuso y Suso. Allí se encuentran los primeros vestigios escritos en idioma español y por ello han sido declarados Patrimonio de la Humanidad por la UNESCO. Con este punto de partida para el desarrollo del proyecto Valle de la Lengua, que se enmarca en el PERTE Nueva Economía de la Lengua para impulsar el desarrollo de la inteligencia artificial en español.
Además de poner en marcha el Valle de la Lengua, se abrirá un Centro de Industrias del Español con el apoyo del Ministerio para la Transformación Digital y de la Función Pública. Se trata de un espacio para impulsar modelos de lenguaje en español para el desarrollo de sistemas de IA. Asimismo, se busca avanzar en la estandarización de datos estructurados en abierto con el objetivo de que puedan ser explotados de manera automatizada por parte de instituciones y empresas, que podrán crear herramientas y aplicaciones con usos productivos, industriales y de investigación.
El Centro de Industrias en Español quiere posicionarse como un referente internacional en el campo de los modelos de lenguaje de gran tamaño en nuestro idioma (LLM, por sus siglas en inglés) que se preentrenan con grandes cantidades de datos para generar aprendizaje profundo. También aspira a transformarse en una institución señera para la creación de soluciones con IA para entidades públicas y privadas, con influencia tanto en España como en Latinoamérica, y dará soporte a proyectos innovadores en la industria del turismo lingüístico en La Rioja, principalmente vinculado a la enseñanza en español.
IA y lenguas cooficiales
Otra iniciativa de interés es el proyecto ILENIA (Impulso de las lenguas en Inteligencia Artificial), que pretende fomentar el uso del catalán, el vasco, el gallego y el valenciano en el ámbito tecnológico con una inversión de siete millones de euros para la puesta en marcha de proyectos digitales. Esta partida se ha distribuido en una serie de universidades y centros de investigación en las comunidades autónomas participantes.
Con una duración de 36 meses, el proyecto se enmarca en el componente 16 titulado “Estrategia Nacional de Inteligencia Artificial” del Plan de Recuperación, Transformación y Resiliencia (LA LEY 9394/2021). También forma parte del eje 11 de la Agenda España Digital 2026 y del PERTE “Nueva economía de la lengua”. La idea es impulsar la economía digital y el desarrollo de la IA en disciplinas vinculadas al idioma, la traducción, la enseñanza, la producción y divulgación cultural, la investigación y la ciencia. Además de centrarse en el potencial del idioma español a nivel global, financiará proyectos en lenguas cooficiales para desarrollar recursos y modelos multilingües de texto, voz y traducción automática.
Los cuatro proyectos son:
• AINA. Su objetivo consiste en generar corpus y modelos informáticos de la lengua catalana. De esta manera, se facilitará que las empresas creen aplicaciones basadas en IA generativa como asistentes de voz, buscadores de Internet, traductores y correctores automáticos, agentes conversacionales en esta lengua.
• GAITU. Esta iniciativa pretende desarrollar y ofrecer servicios lingüísticos básicos y transversales en euskera para utilizarlos en las administraciones públicas y en los públicos a la ciudadanía. El plan de acción incluye proyectos de tecnología lingüística en diferentes áreas estratégicas del Gobierno vasco.
• NÓS. Con este proyecto se crearán los recursos digitales y lingüísticos necesarios para facilitar el desarrollo de aplicaciones basadas en IA y tecnologías del lenguaje en gallego. Se podrán implementar asistentes de voz, traductores automáticos y agentes conversacionales en este idioma.
• VIVES. Busca impulsar la creación de corpus masivos a través de campañas de adquisición de datos de voz y textos, de la participación ciudadana y de los recursos existentes en la administración pública valenciana.
Los centros que participan de estos proyectos son el Consorcio Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC-CNS); la Universidad de Alicante, a través del Centro de Inteligencia Digital (CENID); la Universidad del País Vasco, a través del Centro Vasco de Tecnología de la Lengua (HiTZ): y la Universidad de Santiago de Compostela.
Con las partidas asignadas, estos centros de investigación podrán dotarse de herramientas y recursos como corpus multimodales, datos anotados, modelos de lenguaje neuronal, motores de traducción, reconocedores del habla, entre otros, para impulsar los desarrollos de modelo. La idea es que contribuyan a la digitalización de la Administración pública y de las empresas, que mejoren la competitividad, la internacionalización y creen nuevos puestos de empleo.