Master Tesia
Title:
To post-edit or to translate... That is the question:
A case study of a recommender system for Quality Estimation
of Machine Translation based on linguistic features
Author:
Ona de Gibert Bonet
Laburpena:
Itzulpen automatikoko sistema bat produkzio-katean sartzeak ez du bere horretan
erabilera eraginkor bat bermatzen. Beharrezkoa da jakitea noiz den probetxugarria
itzulpen automatikoa editatzea eta noiz eskuz itzultzea. Horretarako ezinbestekoa da
itzulpen automatikoaren kalitatea aurreikusteko gai izatea. Lan honek ikertzen du itzulpen
automatikoaren kalitatearen estimazioa sistema zehatz batentzat eta domeinu zehatz
baterako, gomendio sistema bat garatuz gaztelaniatik ingelesera itzultzerakoan
erabiltzeko. Lanean aztertzen da nola lagundu dezaketen ezaugarri linguistikoek
kalitatearen estimazioan, ohikoak diren azaleko ezaugarriekin alderatuta. Datuak
itzultzaile profesionalen postedizio lanetik bildu dira eta ezaugarri linguistikoak eskuz
etiketatu. Lehenengo, esaldi bat posteditatzea edo itzultzea gomendatzen duten sailkapen
ereduak eraiki dira. Bigarrenik, erregresio ereduak entrenatu dira hiru kalitate adierazle
aurreikusteko: kalitatea, denbora eta HTER. Esperimentuek emaitza adierazgarriak
erakusten dituzten arren, orokorrean erabilitako ezaugarriek ez dute behar bezala
bereizten edizio mota komenigarriena zein den, eta beraz, gomendio sistemaren doitasuna
ez da produkzioan ezartzeko nahikoa. Emaitzak maila desberdinetan aztertu dira eta
esperimentazioa datu-multzo zabalago batekin egitea proposatzen da, anotazio
automatikoa erabilita eta informatiboagoak diren ezaugarri linguistikoak erabilita.
Hitz gakoak: ezaugarri linguistikoak, itzulpen automatikoa, postedizioa, kalitatearen
estimazioa, gomendio-sistema.
Abstract:
The implementation of a machine translation system into production is not enough to
warrant its efficient use. There exists the need to know when it is profitable to use machine
translation as opposed to translating from scratch. That is why being able to estimate the
quality of a machine translation is crucial. This thesis investigates the task of quality
estimation of machine translation for a specific machine translation system and a specific
domain by developing a recommender system for Spanish to English. The work further
investigates how quality estimation can benefit from the use of linguistic characteristics
in contrast to the more common shallower features. The data was collected from real
translators who performed a post-editing task, and the linguistic features were manually
annotated. First, we build a classification model that selects sentences for post-editing or
translating. Secondly, we perform a regression task based on three quality indicators:
Quality, Time and HTER. Although experimentation shows some promising results,
overall the selected features are not discriminative enough for the recommender system
to be implemented into production. Results are discussed at different levels, suggesting a
replication at a larger scale, with automatic annotation of informative linguistic features.
Keywords: linguistic features, machine translation, post-editing, quality estimation,
recommender system.
File:
Tutor:
Nora Aranberri
Urtea:
2018