DOMINO: Traducción Automática Neuronal, en DOMInio, NO supervisada.
Deskribapen motza, derrigorrezkoa proiektuak logorik ez badu (eu):
DOMINO: Itzulpen automatiko neuronala, domeinuan, eta ez-gainbegiratua.
2018an kalitatezko itzulpen automatikoa (IA) hizkuntza-pare gehienentzat erronka izaten jarraitzen zuen, baina azken urteotan alor honen garapena errealitate bihurtu da. Ikasketa sakona erabiliz (Deep Learning), embedding-en ekarpen argiarekin eta neurona-tekniken bidez, duela hiru urte pentsaezinak ziruditen emaitzak lortu ditu Itzulpen Automatiko neuronalak (NMT).
Bestalde, enpresa erabiltzaileek eta erabiltzaile partikularrek teknologia honen erabilpenaren abantailak eta mugak ezagutu dituzte. Lehenengoek produktibitatea nabarmen handitzen dute, itzulpen-memoriak, Itzulpen Automatikoaren erremintak eta postediziorako inguruak konbinatuz; partikularrek, aldiz, intentsiboki erabiltzen dute IA, nahiz eta kasu askotan baliabide mugatuak dituzten hizkuntzetarako eskaintzen duten kalitatea ezin den itzulpen profesionalarekin alderatu. Hori dela eta, eskaria, profesional zein gizarte arlokoa (agenda digitala), handitzen ari da.
TADEEP proiektuan eta MODELA proiektuan egin duguna lagungarri zaigu orain,noski, teknika horiek ikertzea proposatzen dugu, ikasketa sakonaren eta neurona-sistemen artearen egoera hobetuko duten teknikak ikertzea, hiru alderdi oso garrantzitsu hauetan zentratuta:
- NMT itzulpenaren kalitatea hobetzea eta ebaluazio fidagarriak lortzea. Hainbat gabezia daude hor, batez ere sortutako testuaren fideltasunari begira. Aztertu eta konpondu beharrekoak hauek dira: itzuli gabeko segmentuak, terminologia-arazoak, izendaturiko entitateak, kopuruak eta adjektiboak. Era berean, garrantzitsua da sistema horiek ikasteko eta inplementatzeko denborak hobetzea.
- Baliabide gutxi dituzten hizkuntzetarako ekarpen berriak itzulpen automatikoan. TADEEP proiektuaren emaitzen barruan, ikerketa-lerro honek lortu duen eragin handia azpimarratzekoa da, argitalpenen bidez (ACL, EMNLP, AAAI, ICLR). Ildo horretan sakontzea da proiektuaren giltzarrietako bat, inpaktudun argitalpenak lortzeko.
- Domeinu espezifikoetara egokitu eta enpresa-ingurunera transferitzea. NMT paradigma beste arazo batzuei aplikatzeaz gain (zuzenketa gramatikala, adibidez). Proiektuaren zatirik aplikatuena da, eta hurbileko enpresa eta gizarte inguruneko benetako beharrak konpontzen saiatzen da. UPV/EHUko IXA taldeak proiektu honi aurre egiteko behar duen know-how-a eta esperientzia du, eta, gainera, morfologian, sintaxian, semantikan eta ikaskuntza automatikoan adituak diren hainbat adituk osatzen dute.
IXA ikerketa-taldearen oinarriarekin, Elhuyar Fundazioarekin lankidetzan aritzeak zenbait ezaugarri garrantzitsu gehitzen dizkio proiektuari, baliabideak, gertutasuna merkatuarekin eta emaitzen ebaluazioan izandako esperientzia ekarriz.
Bestalde, Santiagoko Unibertsitateak parte hartzeak aukera ematen digu ikaskuntza-lerroak baliabide gutxi dituzten hizkuntzetarako eta emaitzen hizkuntza-motibaziorako duen eragina handitzeko.
I+G+b arloan Itzulpen Automatikoak sorrarazten duen interesari buruzko hainbat adierazle aipa daitezke:
- Hizkuntza-Teknologiak Bultzatzeko Plana (Espainiarako Agenda Digitala)
- Strategic Research Agenda For Multilingual Europe 2020, METANET-ek sortua
- Europako Parlamentuaren ebazpena hizkuntzen eta merkatu digitalaren gainean (Report on language equality in the digital age).
Deskribapen motza, derrigorrezkoa proiektuak logorik ez badu (en):
DOMINO: Neural Machine Translation, in DOMaIn, and NO supervised
Deskribapena (en):
Machine translation (MT) has been one of the most prominent applications of artificial intelligence since the very beginning of the field. In addition to its intrinsic interest given the difficulty and completeness of the problem, machine translation has a huge practical interest. Although in 2018 quality machine translation remains a challenge for most language pairs, the development of this field in recent years has been impressive. The combination of the neural machine translation (NMT) paradigm of Deep Learning and neural techniques has achieved results that seemed unthinkable three to four years ago.
On the other hand, companies and private users have become familiar with the advantages and limitations of using this technology. While companies focus on increasing productivity by combining translation memories, MT tools and post-editing environments, private users make use of it intensively despite the fact that, The demand for MT is increasing.
Based on the previous work of the research group, and the results of the TADEEP project (MINECO) and the participation in the MODELA project (Basque Government), we propose to investigate techniques that improve the state of the art of deep and neural learning MT systems while focusing on three very important aspects:
- Improvement of the quality of NMT translation and obtaining reliable evaluations. Currently NMT system display several shortcomings, especially with regard to the fidelity of the generated text, which must be studied and solved: untranslated segments, problems related to the use of terminology, named entities, quantities and adjectives.
- New contributions to unsupervised automatic translation (especially useful for languages with few resources). Among the results of the TADEEP project, we can to underline the high impact this line of research has obtained, with publications in the most important forums in the area (ACL, EMNLP, AAAI, ICLR). Further research in this line is one of the key objectives of this project, which will lead to high impact publications.
- MT adaptation to specific domains and transfer to the business environment, as well as the application of the NMT paradigm to other seq2seq problems (grammatical correction). This is the most applied part of the project, which tries to solve real needs of nearby businesses and social contexts.
The IXA group of the UPV/EHU has the know-how and experience necessary to face this project: in addition to the experts in different aspects of MT, we have experts in morphology, syntax, semantics and machine learning. Building on the know-how of the IXA research group, the collaboration with the Elhuyar Foundation adds a number of important features by
providing resources, proximity to the marketa and expertise on evaluation. Additionally, the specific participation of the University of Santiago allows us to widen the scope of the research lines of unsupervised learning and the linguistic motivation of the results.
Regarding the adequacy of MT within the R+D+i sphere, it should be stressed that this project is directly related to challenge 7, Digital Economy, Society and Culture, (section VI, Advanced Technologies for Natural Language Processing) of the State Plan For Scientific And Technical Research And Innovation 2017-2010. This interest is part of the National Plan for the Promotion of Language Technologies, one of the pillars of the Digital Agenda.
Deskribapen motza, derrigorrezkoa proiektuak logorik ez badu (es):
DOMINO: Traducción Automática Neuronal, en DOMInio, NO supervisada.
Deskribapena (es):
Aunque en 2018 la traducción automática (TA) de calidad siguía siendo un reto para la mayoría de pares de idiomas, el desarrollo de este campo en los últimos años hace que este cerca de ser una realidad. La conjunción dentro de NMT (Traducción automática neuronal) del aprendizaje profundo (Deep Learning), con la clara aportación de los embeddings, y de las técnicas neuronales ha conseguido unos resultados que parecían impensables hace tres años.
Por otro lado las empresas usuarias y los usuarios particulares se han familiarizado con las ventajas y limitaciones del uso de esta tecnología. Mientras las primeras focalizan en aumentar la productividad, combinando las memorias de traducción, las herramientas de TA y los entornos de postedición; los segundos la usan intensivamente a pesar de que en muchos casos, sobre todo para idiomas con recursos limitados, la calidad que ofrecen no es comparable a la traducción profesional. Esto hace que la demanda, tanto profesional como social (agenda digital), vaya en aumento.
Apoyándonos en los trabajos previos del grupo de investigación y resultados del proyecto TADEEP y de nuestra participación en el proyecto del Gobierno Vasco Modela proponemos investigar en técnicas que mejoren el estado del arte de los sistemas de TA de aprendizaje profundo y neuronales, centrándonos en tres aspectos muy importantes:
- Mejora de la calidad de la traducción NMT y obtención de evaluaciones fiables. Hay diversas carencias, sobre todo de cara a la fidelidad del texto generado, que deben ser estudiadas y solucionadas: segmentos sin traducir, problemas con terminología, entidades nombradas, cantidades y adjetivos. También es importante mejorar los tiempos de aprendizaje y ejecución de estos sistemas.
- Nuevas aportaciones para traducción automática para idiomas con pocos recursos. Dentro de los resultados del proyecto TADEEP es de resaltar el alto impacto que ha obtenido esta linea de investigación, con publicaciones en los foros más importantes del área (ACL, EMNLP, AAAI, ICLR). Profundizar en esta linea es una de las claves de este proyecto para conseguir publicaciones de impacto.
- MT adaptado a dominios específicos y transferencia al entorno empresarial, además de la aplicación del paradigma NMT a otros problemas seq2seq (corrección gramatical, por ejemplo). Es la parte más aplicada del proyecto que se presenta pero que intenta resolver necesidades reales de entorno empresariales y sociales cercanos.
El grupo IXA de la UPV/EHU tiene el know-how y la experiencia necesaria para hacer frente a este proyecto ya que además de los expertos en diversos aspectos de TA disponemos de expertos en morfología, sintaxis, semántica y aprendizaje automático.
Con la base del grupo de investigación IXA la colaboración con la Fundación Elhuyar añade unas características importantes al proyecto, aportando recursos, su Cercanía del mercado y su experiencia en evaluación de resultados.
Por otro lado la participación de la Universidad de Santiago nos permite aumentar el impacto de la líneas de aprendizaje para lenguas con pocos recursos y la motivación lingüística de los resultados.
Se pueden citar varios indicadores sobre el interés que despierta la TA en el ámbito de I+D+i:
- Plan de Impulso de las Tecnologías del Lenguaje (Agenda Digital para España)
- En la Strategic Research Agenda For Multilingual Europe 2020 de METANET
- La resolución del Parlamento Europeo sobre el las lenguas y el mercado digital (REPORT on language equality in the digital age.
Deskribapen motza, derrigorrezkoa proiektuak logorik ez badu (fr):
DOMINO : Traduction automatique neuronale, dans le domaine, et sans supervision.
Deskribapena_fr:
.
Kode ofiziala:
PGC2018-102041-B-I00 (MCIU/AEI/FEDER, UE)
Ikertzaile nagusia:
Kepa Sarasola, Eneko Agirre
Erakundea:
Ministerio de Ciencia, Innovación y Universidades.
Saila:
Lengoaia eta Sistema Informatikoak
Hasiera data:
2019/01/01
Bukaera data:
2021/12/31
Taldeko ikertzaile nagusia:
Eneko Agirre
Kepa Sarasola
Ixakideak:
Besteak:
Zuhaitz Beloki, Pablo Gamallo.
Kontratua:
Ez
Webgunea:
HiTZen ez bistaratu