Master Tesia

Title: 
Spanish-Swedish Neural Machine Translation for the Civil Engineering Domain
Author: 
Linda Emilia Hedberg
Laburpena: 
Proiektu honetan punta-puntako itzulpen automatiko neuronalaren domeinu egokitzapena aztertu da. Horretarako, suediera-gaztelera bikoterako lau itzultzaile automatiko garatu ditugu: domeinu orokorreko bi sistema (bat itzulpen norabide bakoitzerako) eta domeinura egokitutako beste bi sistema (bat itzulpen norabide bakoitzerako). Gure domeinura egokitutako sistemak Ingeniaritza Zibilerako egokitu ditugu. Domeinu barruko sistemak sortzeko, domeinuz kanpoko datu paraleloez gain, domeinu barruko datu elebakarrak bildu eta erabili ditugu. Testu elebakar horiek automatikoki itzuliz, domeinuko bi corpus paralelo sintetiko sortu ditugu. Guk sortutako lau sistemak neurri automatikoak erabiliz ebaluatu eta Google Translatek sortzen dituen itzulpenekin konparatu ditugu. Gazteleratik suedierara itzultzen duten bi sistemak, gainera, eskuz ebaluatu ditugu post-edizio ataza bat erabiliz, sistemaren produktibitatea neurtuz. Emaitza automatikoek gure lau sistemek antzeko emaitzak sortzen dituztela erakusten dute, guztiak Google Translate nabarmen gainditzen dutelarik. Produktibitate testak, ordea, domeinu-testu zehatzak post-editatzerakoan domeinura egokitutako itzulpen sistemak onuragarriak direla erakusten du.
Abstract: 
This project explores domain adaptation of state-of-the-art neural machine translation. We develop a total of four self-attention-based NMT systems for Swedish-Spanish: two general out-domain systems (one in each translation direction) and two in-domain systems (also one in each translation direction). We adapt our in-domain systems for the Civil Engineering domain. Apart from out-domain parallel data, we collect and use in- domain monolingual data that we translate creating two synthetic parallel in-domain corpora with the original sentences as target language. All four systems are tested and compared with automatic evaluation metrics. The Spanish-to-Swedish systems are also evaluated manually by a post-editing task measuring the systems productivity. Results show that our four systems perform similarly, all of them outperforming significantly Google Translate. The productivity test indicates, however, that post-editing domain- specific text benefits from domain-adapted MT.
Tutor: 
Gorka Labaka and Koldo Gojenola
Urtea: 
2019
hitz_gakoak: 
tzulpen automatikoa, domeinu egokitzapena, atzerakako-itzulpena,produktibitatearen ebaluazioa // machine translation, domain adaptation, back-translation, productivity evaluation