Master Tesia

Tituloa: 
Hitzen arteko ahaidetasuna: teknikak eta ebaluazio aukerak
Egilea: 
Josu Goikoetxea Salutregi
Laburpena: 
LaburpenaProiektu honetan hitzen ahaidetasuna aztertzeko teknikak eta azken horien ebaluaziorakoaukerak izango ditugu hizpide. Teknikak bi taldetan sailkatzen dira: ezagutza-baseetanoinarritutakoak eta corpusetan oinarritutakoak. Lehenengo taldean WordNet-en etaWikipedia-ren gainean egin dugu lan, eta bigarrenean, berriz, sare neuronalekin.Aipatutako tekniken emaitzak giza irizpideekin ebaluatze aldera, WordSim353urre-patroiaren eta asoziazio-tesauroaren bidez egin dugu. Azken hori Cogalex VI.atazaran parte hartuz egin dugu, eta esperimentuaren emaitzak eta nondik norakoakartikulu batean[10] laburbildu ditugu. Etorkizunari begira, ebaluaziorako hirugarren bidebat ireki dugu, gizakien irudi neuronalena, eta TRIKITIXA esperimentua diseinatu etaabian jarri. Esperimentu guztiak eleanitzak izan dira; euskaraz, ingelesez eta gaztelerazburutu ditugu. Ahaidetasun-esperimentuen emaitzei so, Wikipedia-rekin etaingelesarekin lortu ditugu baliorik hoberenak. Hitz-asoziazioaren ingurukoesperimentuetan, ordea, sare neuronalak gailendu dira, eta alde oso handiarekin, gainera.Lehenengo kasuan hizkuntzen baliabideen tamaina eta kalitateak eragin handia izan dute,eta, bigarrenean, Cogalex atazako datu-multzoen izaerak.AbstractIn this project we’ll talk about techniques for analyzing similarity and the differentevaluation methods for those techniques. Techniques are divided in two groups: the onesbased in knowledge bases, and the ones based in corpuses. In the first group we’ll workwith Wikipedia and WordNet, and in the second with neural networks. We’ll evaluatethe results of those techniques using the WordSim353 gold standard and an associativethesaurus. We had to develop the last method for the Cogalex VI task, and the resultsand nature of the experiments are resumed in an article[10]. Looking forwards the future,we have opened a new evaluation method, based on human neural images, and designedand started the TRIKITIXA experiment. All the experiments have been multilingual;they’ve been carried out using Basque, English and Spanish. Looking at the similarityexperiments’ results, the best values have been achieved with Wikipedia and the English.In word association experiments, though, neural networks have standed out by far. In thefirst case the size and the quality of the languages’ resources have had a big influence,and in the second one the nature of Cogalex task’s dataset.
Fitxategia: 
Tutorea: 
Eneko Agirre Bengoa, Aitor Soroa Etxabe
Urtea: 
2014