Testuen analisia

Towards a top-down approach for an automatic discourse analysis for Basque: Segmentation and Central Unit detection tool

Lately, discourse structure has received considerable attention due to the benefits carried out by its application in several NLP task such as opinion mining, summarization, question answering, text simplification, among others.

BigKnowledge for Text Mining.

BigKnowledge proiektuak ingeles, gaztelania, katalan, euskara eta galizierazko testuak prozesatzeko ikasketa sakonean oinarritutako sistemak garatu eta ebaluatuko ditu, Big Data prozesatzeko teknikak erabiliz. Hauek dira proiektuaren helburu nagusiak: - Transferitzia bidezko ikasketa teknikak garatzea, errepresentazio jarraitu eleaniztunen bidez ezagumendua hizkuntza batetik bestera pasatzkeo, edo domeinu batetik bestera pasatzeko. - Tamaina handiko ezagutza-base eleaniztunak eta neurona-sare sakonak aprobetxatzea elkar aberastu eta hobetzeko.

Large Scale Linguistic Processing of Tweets to Understand Social Interactions among Speakers of Less Resourced Languages: The Basque Case

Social networks like Twitter are increasingly important in the creation of new ways of communication. They have also become useful tools for social and linguistic research due to the massive amounts of public textual data available. This is particularly important for less resourced languages, as it allows to apply current natural language processing techniques to large amounts of unstructured data. In this work, we study the linguistic and social aspects of young and adult people’s behaviour based on their tweets’ contents and the social relations that arise from them.

Zer i(ra)kas dezakegu geure corpusekin "jolastuz"?

Hizkuntzak ikasteko askotariko metodologiak erabili izan dira: metodo zuzena, itzulpen metodoa, metodo audiolinguala, metodo komunikatiboa, hurbilpen lexikoa, ariketetan oinarritutako metodoa, ikasleen erroreetan oinarritutakoa edota metodo eklektikoak. Azken urteotan, berriz, corpusekin «jolasteak» hizkuntzak modu esanguratsuan i(ra)kasteko aukerak eskaintzen dizkigunaren ustean gaude. Corpusekin «jolastuz» ikasteko, ezinbestekoa da tresna informatiko egokiak eskura izatea, zailtasun teknologiko handirik aurkezten ez duten eta edonork modu errazean balia ditzakeen tresnak prestatzea.

Hizkuntza-ulermenari ekarpenak: n-gramen arteko atentzio eta lerrokatzeak antzekotasun eta inferentzia interpretagarrirako

Hizkuntzaren Prozesamenduaren bitartez hezkuntzaren alorreko sistema adi-
mendunak hobetzea posible da, ikasleen eta irakasleen lan-karga nabarmenki
arinduz. Tesi honetan esaldi-mailako hizkuntza-ulermena aztertu eta propo-
samen berrien bitartez sistema adimendunen hizkuntza-ulermena areagotzen
dugu, sistemei erabiltzailearen esaldiak modu zehatzagoan interpretatzeko
gaitasuna emanez. Esaldiak modu finean interpretatzeko gaitasunak feed-
back a modu automatikoan sortzeko aukera ematen baitu.

Tesi hau garatzeko hizkuntza-ulermenean sakondu dugu antzekotasun seman-
tikoari eta inferentzia logikoari dagokien ezaugarriak eta sistemak aztertuz.
Bereziki, esaldi barneko hitzak multzotan egituratuz eta lerrokatuz esaldiak
hobeto modelatu daitezkeela erakutsi dugu. Horretarako, hitz solteak lerro-
katzen dituen aurrekarien egoerako neurona-sare sistema bat inplementatu
eta n-grama arbitrarioak lerrokatzeko moldaketak egin ditugu. Hitzen arte-
ko lerrokatzea aspalditik ezaguna bada ere, tesi honek, lehen aldiz, n-grama
arbitrarioak atentzio-mekanismo baten bitartez lerrokatzeko propo-
samenak plazaratzen ditu.

Gainera, esaldien arteko antzekotasunak eta desberdintasunak modu zeha-
tzean identifikatzeko, esaldien interpretagarritasuna areagotzeko eta ikasleei
feedback zehatza emateko geruza berri bat sortu dugu: iSTS. Antzekota-
sun semantikoa eta inferentzia logikoa biltzen dituen geruza horrekin
chunk ak lerrokatu ditugu, eta ikasleei feedback zehatza emateko gai izan
garela frogatu dugu hezkuntzaren testuinguruko bi ebaluazio-eszenariotan.

Tesi honekin batera hainbat sistema eta datu-multzo argitaratu dira etorki-
zunean komunitate zientifikoak ikertzen jarrai dezan.

Pages

Subscribe to RSS - Testuen analisia