WSD-IXA

Deskribapen laburra: 
Euskarazko Adiera-Desanbiguazioa
Harremanetarako: 
e.agirre[abildua/at]ehu.es
Deskribapena: 

Hitz-Adieren Desanbiguatze (HAD) sistema Support Vectors Machine (SVM) algoritmo ezagunean dago oinarritua. Sistema EuSemCor corpusaren gainean entrenatu da, hori baita euskal corpus bakarra semantikoki etiketuta dagoena. Corpusaren tamaina mugatua dela eta, HAD sistema 402 izen polisemikoekin entrenatu da.

Funtzionalitatea: 

Sarrerako testu gordinaren gainean Eustagger euskal lematizatzailea pasatzen da Perl CGI script baten bidez, hartara ezaugarriak erauzteko. Gero, ezaugarri-bektorea HAD sistemaren bidez (SVM) sailkatzen da. Azkenik, klasifikatzailearen eta lematizatzailearen emaitzak lantzen ditu CGIak formatu egoki batean erakusteko.

Teknologia: 
C, C++, Perl.
Moduluak: 
Perl CGI script, EusSemcor data base (MySql), Eustagger, SVM-light.
Berrikuntza: 

Euskarazko lehenengo Hitz-Adiera Desanbiguatzailea.