La Universidad de Jaén desarrolla la primera Inteligencia Artificial pública en español: "Un objetivo es la soberanía"

El grupo SINAI trabaja en una IA abierta, ética y transparente que comprenderá las particularidades lingüísticas y culturales del español y de Andalucía

El nuevo presupuesto del Ayuntamiento de Jaén tendrá capítulo de inversiones: “Este mes es clave”

Grupo de investigación SINAI.
Grupo de investigación SINAI.

La Inteligencia Artificial (IA) viene revolucionando años el mundo tal y como lo conocemos, gracias a un gran trabajo detrás se ha podido aplicar a campos como la medicina observar imágenes muy cercanamente, de una manera mucho más detallada que el ojo humano”. La IA está en todas partes y su uso está tan expandido que también ha sido cuestionada como una herramienta ética que da consejos sobre salud mental, da un falso alivio a la soledad "sustituyendo" las relaciones personales o recoge información sin respetar los derechos de autor.

Un grupo de investigadores de la Universidad de Jaén (UJA) están creando una nueva IA con un proyecto pionero en la Unión Europea (UE) que sortee todos estoss problemas y con el uso del español, algo que no ocurre en todas las existentes hasta ahora, pues su creación se basan en el inglés. Este grupo, llamado SINAI (Sistemas Inteligentes de Acceso a la Información , integrado en el Centro de Estudios Avanzados en Tecnologías de la Información y la Comunicación (CEATIC), se ha consolidado como uno de los referentes nacionales en el campo del procesamiento del lenguaje natural y la IA con 30 años de trabajo a sus espaldas.

El equipo forma parte del reducido conjunto de grupos científicos seleccionados por el Gobierno de España para participar en el desarrollo de ALIA (Artificial Language Intelligence Alliance), la primera plataforma pública y abierta de inteligencia artificial desarrollada en España.

El proyecto ALIA es una iniciativa pionera en el ámbito europeo que busca crear una infraestructura pública de recursos de inteligencia artificial, como modelos de lenguaje abiertos y transparentes con el fin de fortalecer el uso del español y de las lenguas cooficiales del Estado en el entorno digital. Está coordinado por el Barcelona Supercomputing Center – Centro Nacional de Supercomputación (BSC-CNS) y cuenta con financiación íntegramente pública a través de la Secretaría de Estado de Digitalización e Inteligencia Artificial, dentro de la Estrategia Nacional de Inteligencia Artificial 2024.

Además del BSC y del CEATIC, participan otros centros de investigación líderes en el ámbito del procesamiento del lenguaje natural, como el CiTIUS de Galicia, el Centro HiTZ del País Vasco y el CENID de la Comunidad Valenciana. Todos ellos colaboran en el desarrollo de un ecosistema tecnológico que prioriza la transparencia, la fiabilidad y la accesibilidad, en línea con el Reglamento Europeo de Inteligencia Artificial.

El director del grupo SINAI y catedrático, Alfonso Ureña, explica a Jaén Hoy la IA empezó a hablarse por primera vez a finales de los años cincuenta y se acuñó definitivamente en los sesenta, con el objetivo de desarrollar sistemas capaces de realizar tareas cognitivas. Desde el primer momento en que hubo ordenadores se intentó procesar el lenguaje humano, por ejemplo, traduciendo del inglés al ruso y viceversa, aunque esos primeros intentos fracasaron. "Sin esos pequeños avances no estaríamos donde estamos ahora", explica.

El equipo de Ureña en ALIA trabajará para mejorar las competencias lingüísticas en español de los modelos de lenguaje y para integrar en ellos las particularidades culturales y lingüísticas de Andalucía. Entre sus objetivos se encuentran la adaptación de la IA a dominios especializados “como el legal y administrativo, el biosanitario y el patrimonial”.

Democratizar la IA

Aunque la nueva inteligencia artificial ALIA, no busca competir con grandes empresas tecnológicas el objetivo sí es alcanzar la soberanía tecnológica y no depender de compañías que tienen un monopolio. "No se trata de competir, sino de construir modelos libres de sesgos, seguros, transparentes y abiertos, que nos den garantías y de los que se puedan beneficiar los ciudadanos, las administraciones y las empresas”, desarrolla.

Ureña advierte que, a diferencia de sistemas cerrados como ChatGPT, “en ALIA sabremos con qué datos han sido entrenados los modelos, y esos datos de entrenamiento estarán disponibles para uso público”. Explica que algunos modelos comerciales requieren pagar por su uso y no ofrecen transparencia sobre sus datos de entrenamiento, lo que puede implicar sesgos y problemas con los derechos de autor. Por eso, destaca, “ALIA contará con licencias de uso libre y permitirá la redistribución de los modelos para que la comunidad científica y tecnológica pueda innovar con ellos”. "Se permitirá democratizar la inteligencia artificial”, afirma.

El investigador insiste en que el proyecto debe ser muy cuidadoso con los datos empleados para entrenar los modelos. “Debemos analizar la veracidad de esos datos y los posibles sesgos, por ejemplo en opiniones políticas. Eso va a ser un factor diferenciador”, cuenta. Añade que la calidad del corpus de entrenamiento será una de las principales fortalezas del proyecto: “La IA aprende de los datos; es capaz de hacerlo a partir de una ingente cantidad de información. Si entrenamos una IA con miles de imágenes radiológicas y sus informes, será capaz de detectar problemas de salud. La clave está en que esos datos sean fiables, revisados y éticamente gestionados”.

ALIA estará especialmente centrado en el español y las lenguas cooficiales, lo que lo diferencia de otros modelos internacionales, ya que actualmente, la mayoría de las IA están entrenadas principalmente en inglés; el español está infrarrepresentado. Por eso este proyecto es fundamental, se trata de construir modelos hechos para nuestra lengua y nuestras realidades culturales.

IA pública y abierta

"En el plano ético y legal, este tipo de proyectos abiertos nos permitirá conocer la proporcionalidad de los datos utilizados”. "Hay que velar por el cumplimiento de la Ley de Inteligencia Artificial, por los derechos de autor y por la propiedad intelectual, ya que algunas IA han violado estos principios al usar indiscriminadamente contenidos de la web”. Tenemos que contemplar el origen de los datos; eso es fundamental”, detalla el investigador y catedrático.

España, recuerda Ureña, ya fue pionera en 2025 con un plan de impulso de la tecnología del lenguaje, siendo uno de los pocos países que apostaron de forma decidida por este ámbito. Ese impulso ha permitido que hoy se haya podido poner en marcha el proyecto ALIA, que persigue crear modelos de lenguaje específicos para distintas áreas de conocimiento y aplicación. “Ya están apareciendo iniciativas similares en otros países, como Suiza, pero España ha sido la primera en plantear una infraestructura pública y abierta”, afirma.

El proyecto comenzó oficialmente en junio de 2025, aunque, según explica, llevan mucho tiempo preparándolo. Actualmente el grupo SINAI está compuesto por 14 miembros, 12 de ellos doctores y 15 personas contratadas que colaboran directamente en los distintos desarrollos. “Para el mes de junio de 2026 tenemos que entregar resultados. Estamos trabajando intensamente en la generación de recursos lingüísticos y en que los modelos comprendan el vocabulario de dominios tan específicos como el legal español, el sanitario y el patrimonial”, detalla.

El grupo ya ha publicado un corpus jurídico y está contribuyendo con distintos modelos especializados. “Va a ser capaz de trabajar en diferentes dominios. Nosotros abordamos el legal y administrativo, el sanitario y el patrimonial, pero hay muchos más, como el turístico o el jurídico”, comenta Ureña, quien adelanta que “ya existe un primer modelo disponible de ALIA y que, a partir de él, se generarán distintas aplicaciones para cada ámbito”.

Respecto al futuro, señala que “la fecha de lanzamiento oficial será cuando se concluya el proyecto, pero los avances ya están siendo compartidos con la comunidad investigadora y con la sociedad”.

El objetivo último, insiste, es facilitar la creación de recursos y servicios tecnológicos en castellano y garantizar la soberanía tecnológica, generando una infraestructura pública que sirva a las administraciones, las empresas y la ciudadanía. Reconoce que “será difícil competir con las grandes tecnológicas”, pero confía en el potencial del modelo español. “Podemos no tener la escala de esas corporaciones, pero sí la capacidad de desarrollar modelos más pequeños, especializados y adaptados a las necesidades concretas de nuestra sociedad”, expresa.

stats