Master Tesia
Title:
Unsupervised Methods to Predict Example
Difficulty in Word Sense Annotation
Author:
Cristina Aceta Moreno
Laburpena:
Hitzen Adiera Desanbiguazioa (HAD) Hizkuntzaren Prozesamenduko (HP) erronkarik
handienetakoa da. Frogatu denez, HAD sistema ahalik eta arrakastatsuenak
entrenatzeko, oso garrantzitsua da entrenatze-datuetatik adibide (hitzen testuinguru)
zailak kentzea, honela emaitzak asko hobetzen baitira. Lan honetan, lehenik,
gainbegiratutako ereduak aztertzen ditugu, eta, ondoren, gainbegiratu gabeko bi neurri
proposatzen ditugu. Gainbegiratutako ereduetan, adibideen zailtasuna definitzeko,
anotatutako corpuseko datuak erabiltzen dira. Proposatzen ditugun bi gainbegiratu
gabeko neurrietan, berriz, batetik, aztergai den hitzaren zailtasuna neurtzen da (hitzon
Wordnet-eko datuak aztertuta), eta, bestetik, hitzaren agerpenarena (alegia, hitzaren
testuinguruarena edo adibidearena). Biak konbinatuta, adibideen zailtasuna
ezaugarritzeko eredu bat ere proposatzen da.
Abstract:
Word Sense Disambiguation (WSD) is one of the major challenges in Natural Language
Processing (NLP). In order to train successful WSD systems, it has been proved that
removing difficult examples (words in a context) from the training set improves the
performance of these systems. In this work, we first analyze supervised models that,
given annotated data, characterize the difficulty of examples. We then propose two
unsupervised measures to characterize the difficulty of target words (by analyzing their
WordNet data) and occurrences (context sentences), respectively. Combining them, a
model able to characterize the difficulty of examples is also presented.
File:
Tutor:
Oier López de Lacalle, Eneko Agirre and Izaskun Aldezabal
Urtea:
2018