Master Tesia

Tituloa: 
Koherentziazko diskurtso erlazioen detekzio automatikoa patroien bidez, XMLko erlazio-egiturak oinarri hartuta
Egilea: 
Asier Kortajarena
Laburpena: 
Laburpena Hizkuntzaren prozesamenduan testu koherenteetan kausa taldeko erlazioak (KAUSA,ONDORIOA eta HELBURUA) automatikoki hautematea eta bereiztea erabilgarria dagaldera-erantzun automatikoko sistemak eraikitzerako orduan. Horretarako EgituraErretorikoaren Teoria (Rhetorical Structure Theory, aurrerantzean RST) eta bereerlazioak erabiliko ditugu, corpus bezala RST Treebank -a (Iruskieta et al., 2013) hartuta, zientziako laburpen-testuz osatutako corpusa, hain zuzen ere. Corpus hori XMLformatuan deskargatu eta hortik XPATH tresnaren bidez informazio garrantzitsuenaeskuratzen dugu. Lan honek 3 helburu nagusi ditu: lehendabizi, kausa taldeko erlazioakelkarren artean bereiztea, bigarrenez, kausa taldeko erlazio hauek beste erlazio guztiekinbereiztea, eta azkenik, EBALUAZIOA eta INTERPRETAZIOA erlazioak bereizteasentimendu analisian aplikatu ahal izateko. Ataza horiek egiteko, RhetDB tresnarekineskuratu diren patroi ensaguratsuenak erabili eta bi aplikazio garatu ditugu. Aldebatetik, bilatu nahi ditugun patroiak adierazi eta erlazio-egitura duen edonolakotestuetan bilaketak egiten dituen bilatzailea, eta bestetik, patroi esanguratsuenakemanda erlazioak etiketatzen dituen etiketatzailea. Bi aplikazio hauek gainera, ahalik etamodu parametrizagarrienean erabiltzeko garatu ditugu, kodea aldatu gabe edonorkerabili ahal izateko antzeko atazak egiteko. Etiketatzaileak ebaluatu ondoren,identifikatzeko erlaziorik errazena HELBURUA erlazioa dela ikusi dugu eta KAUSA etaONDORIOA bereizteko arazo gehiago dauzkagula ere ondorioztatu dugu. Modu berean,EBALUAZIOA eta INTERPRETAZIOA ere elkarren artean bereiz dezakegula ikusidugu.Abstract At language processing an automatic detection of causal relations (CAUSE, RESULTand PURPOUSE) would be useful in coherent texts, specially building automaticQuestion Answering(QA) systems. Achieving this task, we use RST (RethoricalStructure Theory) relations and RST Treebank (Iruskieta et al., 2013) basque corpuswhich have many scientific abstract texts. We have download this corpus in XML formatand get the most important data using XPATH for information extraction. This workhas 3 goals: firstly, we want to distinguish the causal relation set among themselves,secondly, we want to distinguish the cause subgroup relations from other relations, andfinally, distinguish EVALUATION and INTERPRETATION relation to apply onsentiment analysis. To do so, we use some meaningful patterns extracted from RhetDBtool and we build two programs. On the one hand, we will develop a search tool whichmatch patterns on the structured relation texts, and on the other hand, we will develop aprogram which tags relations of a XML structured text. Both programs are also easilyconfigurable for anyone. After evaluating the taggers, we conclude that the easiestrelation to identify is PURPOUSE and a harder task is to distinguish CAUSE andRESULT relations. More over, we have seen that we can distinguish EVALUATION andINTERPRETATION among themselves. Bideoa: http://ehutb.ehu.es/es/video/index/uuid/578e55f1dc8ad.html
Fitxategia: 
Tutorea: 
Mikel Iruskieta
Urtea: 
2016
hitz_gakoak: 
testu-koherentzia Egitura Erretorikoaren Teoria Rhetorical Structure Theory RST