EPEC-DEP (BDT)

Deskribapen laburra: 
Sintaktikoki etiketatutako EPEC corpusa Dependentzia Gramatikaren Teorian oinarrituta (Basque Dependency Treebank)
Harremanetarako: 
maxux.aranzabe[abildua/at]ehu.es
Deskribapena: 

Euskarazko zuhaitz-bankua edo treebank-a (EPEC-DEP) dependentzia-erlazioetan oinarrituta eskuz sintaktikoki etiketatu den Euskararen Prozesamendurako Erreferentzia Corpusa (EPEC) da. EPEC corpusa euskara estandarrean idatzitako 300.000 hitzek osatzen duten testu-bilduma da. Heren bat XX. mendeko euskararen corpus estatistikotik (www.euskaracorpusa.net) hartu da eta beste bi herenak Euskaldunon Egunkariatik. Hainbat mailatan (morfologia, sintaxi partziala eta semantika) dago etiketatuta eskuzko metodoak nahiz automatikoak baliatuta.


EPEC-DEP treebank-ean, 200.000 hitz etiketatu dira eskuz Dependentzia Gramatikaren Teoria (Tesnière, 1959) jarraituz. Teoria honetan, esaldiko hitzak binaka lotuz esaldiaren zuhaitz sintaktikoa (dependentzia-zuhaitza ere deitua) lortzen da. Zuhaitz hauetan, batetik, adabegietan dauden hitzen arteko gobernatzaile/mendeko erlazioak irudikatzen dira, eta bestetik, bi hitzen arteko loturan mendekoak betetzen duen funtzio sintaktikoa adierazten da dependentzia-etiketen (Aranzabe, 2008) bidez.

Funtzionalitatea: 

Conference on Computational Natural Language Learning (CoNLL 2007) lehiaketan metodo edo sistema berrien probaleku; euskarako MaltIxa analizatzaile estatistikoaren oinarri; ezagutza linguistikoan oinarritutako analizatzaile sintaktikoaren oinarri; EusPropBank, semantikoki etiketatutako EPEC corpusaren oinarri

Berrikuntza: 

Dependentzia Gramatikaren Teorian oinarrituta euskaraz sintaktikoki etiketatu den lehen corpusa edo treebank-a da.
Ereduzko patroia da ikerketa linguistikoetan eta hizkuntzaren prozesamenduan.

Argitalpenak (artikuluak):