DeepMinor: Language Models for Multilingual and Multidomain Text Processing in Low Resource Scenarios

Deskribapen motza, derrigorrezkoa proiektuak logorik ez badu (eu): 
Language Models for Multilingual and Multidomain Text Processing in Low Resource Scenarios
Hizkuntza eredu handien aurrerapenei esker, Hizkuntzaren Prozesamendua (HP) ikerketa-eremua hizkuntza eredu handi horien ekoizpen eta ustiapenera bideratutako paradigma aldaketa batean murgilduta dago. Izan ere, emaitzak hainbeste hobetzen ari dira, non sistemek giza-mailako errendimendua aldarrikatzen dute ikerketa-erreferenteetan. Ondorioz, industrian asko hasi dira ekoizpenean integratzen. Emaitza ikusgarriak izan arren, hizkuntza eredu hauek ingeleserako garatu dira batez ere, ez dira publikoak eta ia soilik ingelesezko datuetan ebaluatuta izan dira. Erreferentzia hauek ezinbestekoak dira ulertzeko hizkuntza eredu handi hauek HPren artearen egoera hobetzeko dituen mugak eta aukerak. Horregatik, hizkuntza eta domeinu gehienetan, ereduen errendimendua ezezaguna izaten jarraitzen du. Hau gertatzen da bi arrazoiengatik: hizkuntza eredu handiak bakarrik ingeleserako entrenatuta izan direlako edota ingeleserako ez diren hizkuntzatarako ebaluazio benchmark-ak faltagatik. Proiektu honek hizkuntza eredu elebakarrak eta eleaniztunak sortzeko eta egokitzeko teknikak ikertzea eta garatzea du helburu hizkuntzak, testu-generoak eta domeinu desberdinetan. Zehazki, proiektu honetan ereduen egokitzapena eta sorkuntzara bideratuko da bereziki euskarara eta gaztelaniara (ingelesez gain) egokituta, bai sailkapen egiteko, bai sorkuntza lanetarako.
Deskribapen motza, derrigorrezkoa proiektuak logorik ez badu (en): 
Language Models for Multilingual and Multidomain Text Processing in Low Resource Scenarios
Deskribapena (en): 
Thanks to these recent advancements in Large Language Models (LLMs), the NLP research field is engaged in a paradigm shift focused on the production and exploitation of these large language models. In fact, results are improving so much that systems are claiming to obtain human-level performance in laboratory benchmarks when tested on some difficult language understanding tasks. As a result, many in the industry have started deploying large pre-trained neural language models in production. While impressive, these LLMs have been developed mostly for English, they are not public, and have been evaluated almost exclusively on English-centric Natural Language Processing (NLP) benchmarks. These benchmarks are crucial to understand the limitations and possibilities in using these LLMs to improve the state-of-the-art in NLP. Thus, for the large majority of languages and domains, the performance of such LLMs is unknown or it simply cannot be objectively measured. This is due to the fact that either they have not been pre-trained for languages such as Basque or Spanish or because of the lack of readily available benchmarks which would allow to evaluate the Natural Language Understanding and Generation capabilities for those languages. This project aims to investigate and develop enabling techniques and methods to develop and adapt monolingual and multilingual LLMs to new languages, text genres and domains. In particular, this project will focus on adapting and generating models specially tailored for Basque and Spanish (in addition to English), both for classification and generation tasks. We will also work towards filling the current gap on language models in these languages for specific tasks in domains such as health or genres such as social, for which little or no manually annotated data for those tasks and languages is available.
Deskribapen motza, derrigorrezkoa proiektuak logorik ez badu (es): 
Language Models for Multilingual and Multidomain Text Processing in Low Resource Scenarios
Deskribapena (es): 
Gracias a los avances en grandes modelos de lenguaje, el campo de investigación del PLN está inmerso en un cambio de paradigma centrado en la producción y explotación de estos grandes modelos de lenguaje. De hecho, los resultados están mejorando tanto que los sistemas afirman obtener un rendimiento a nivel humano en benchmarks de investigación. Como resultado, muchos en la industria los han comenzado a integrar en producción. A pesar de sus impresionantes resultados, estos LLMs se han desarrollado principalmente para inglés, no son públicos y han sido evaluados casi exclusivamente benchmarks de evaluación únicamente para el inglés. Estas benchmarks son fundamentales para comprender las limitaciones y posibilidades del uso de estos LLMs para mejorar el estado del arte en el PLN. Por lo tanto, para la gran mayoría de idiomas y dominios, el rendimiento de los LLMs sigue siendo una incógnita. Esto se debe al hecho de que no han sido entrenados previamente para idiomas como el euskera o el español o debido a la falta de benchmarks públicamente disponibles que permitan evaluar las capacidades los modelos para la comprensión y generación de lenguaje natural para esos idiomas. Este proyecto tiene como objetivo investigar y desarrollar técnicas para generar y adaptar LLMs monolingües y multilingües a nuevos idiomas, géneros de texto y dominios. En concreto, este proyecto se centrará en la adaptación y generación de modelos especialmente adaptados al euskera y al castellano (además del inglés), tanto para tareas de clasificación como de generación. También trabajaremos para llenar el vacío actual con respecto a las benchmarks de evaluación para tareas específicas en dominios como la salud o géneros como las redes sociales, para los cuales hay pocos o ningún dato anotado manualmente para esas tareas e idiomas.
Kode ofiziala: 
CNS2023-144375
Ikertzaile nagusia: 
Rodrigo Agerri
Erakundea: 
Ministerio de Ciencia, Innovación y Universidades
Saila: 
LSI
Hasiera data: 
2024/04/01
Bukaera data: 
2026/03/31
Taldea: 
Ixa
Taldeko ikertzaile nagusia: 
Rodrigo Agerri
Kontratua: 
No
Webgunea: 
http://
Deialdiaren izena eta urtea: 
Consolidación Investigadora 2023, Ministerio de Ciencia e Innovación