AnCora

AnCora corpusak euskarazko (EPEC-EU), gaztelaniazko (AnCora-CAS) eta katalanezko (AnCora-CAT) testu etiketatuak biltzen ditu. Gaztelaniaz eta katalanez 500.000 hitz inguru eskaintzen dira, eta euskaraz 155.000 hitz inguru.
Euskarazko AnCora corpus etiketatuaren oinarria, EPEC (Euskararen Prozesamendurako Erreferentzia Corpusa) corpusa da. Heren bat XX. mendeko euskararen corpus estatistikoari dagokio (www.euskaracorpusa.net) eta beste bi herenak Euskaldunon Egunkariari. AnCorarako 155.000 hitz hautatu dira, CESS-ECE proiektuan (HUM2004-21127-E) garatu zen sintaktikoki etiketatutako corpusaren zati bat (aldez aurretik maila morfologikoan etiketatua izan dena), eta dependentzia-eredutik osagai-eredura pasatu dira. Corpus-zati honen % 25 katalanezko eta gaztelaniazko corpusekin konparagarria da, aldi bereko berriak jasotzen baitira.

Argitalpenak (tesiak):

Dependentzia-ereduan oinarritutako baliabide sintaktikoak: zuhaitz-bankua eta gramatika konputazionala

Argitalpenak (artikuluak):

Methodology and steps towards the construction of EPEC, a corpus of written Basque tagged at morphological and syntactic levels for the automatic processing

Corpusen etiketatze linguistikoa

Construcción de un corpus etiquetado sintácticamente para el euskera

Construction of a Basque Dependency Treebank

Abar-Hitz: An Annotation Tool for the Basque Dependency Treebank

3LB: Construcción de una base de árboles sintáctico-semánticos para el catalán, euskera y castellano

Theoretical and Methodological issues of tagging Noun Phrase Structures following Dependency Grammar Formalism

From Dependencies to Constituents in the Reference Corpus for the Processing of Basque

Evaluation of the Syntactic Annotation in EPEC, the Reference Corpus for the Processing of Basque