Master Tesia
Tituloa:
Spanish-Swedish Neural Machine Translation
for the Civil Engineering Domain
Egilea:
Linda Emilia Hedberg
Laburpena:
Proiektu honetan punta-puntako itzulpen automatiko neuronalaren domeinu
egokitzapena aztertu da. Horretarako, suediera-gaztelera bikoterako lau itzultzaile
automatiko garatu ditugu: domeinu orokorreko bi sistema (bat itzulpen norabide
bakoitzerako) eta domeinura egokitutako beste bi sistema (bat itzulpen norabide
bakoitzerako). Gure domeinura egokitutako sistemak Ingeniaritza Zibilerako egokitu
ditugu. Domeinu barruko sistemak sortzeko, domeinuz kanpoko datu paraleloez gain,
domeinu barruko datu elebakarrak bildu eta erabili ditugu. Testu elebakar horiek
automatikoki itzuliz, domeinuko bi corpus paralelo sintetiko sortu ditugu. Guk sortutako
lau sistemak neurri automatikoak erabiliz ebaluatu eta Google Translatek sortzen dituen
itzulpenekin konparatu ditugu. Gazteleratik suedierara itzultzen duten bi sistemak,
gainera, eskuz ebaluatu ditugu post-edizio ataza bat erabiliz, sistemaren produktibitatea
neurtuz. Emaitza automatikoek gure lau sistemek antzeko emaitzak sortzen dituztela
erakusten dute, guztiak Google Translate nabarmen gainditzen dutelarik. Produktibitate
testak, ordea, domeinu-testu zehatzak post-editatzerakoan domeinura egokitutako
itzulpen sistemak onuragarriak direla erakusten du.
Abstract:
This project explores domain adaptation of state-of-the-art neural machine translation.
We develop a total of four self-attention-based NMT systems for Swedish-Spanish: two
general out-domain systems (one in each translation direction) and two in-domain
systems (also one in each translation direction). We adapt our in-domain systems for the
Civil Engineering domain. Apart from out-domain parallel data, we collect and use in-
domain monolingual data that we translate creating two synthetic parallel in-domain
corpora with the original sentences as target language. All four systems are tested and
compared with automatic evaluation metrics. The Spanish-to-Swedish systems are also
evaluated manually by a post-editing task measuring the systems productivity. Results
show that our four systems perform similarly, all of them outperforming significantly
Google Translate. The productivity test indicates, however, that post-editing domain-
specific text benefits from domain-adapted MT.
Fitxategia:
Tutorea:
Gorka Labaka and Koldo Gojenola
Urtea:
2019
hitz_gakoak:
tzulpen automatikoa, domeinu egokitzapena, atzerakako-itzulpena,produktibitatearen ebaluazioa // machine translation, domain adaptation, back-translation, productivity evaluation