AnCora

Deskribapen laburra: 
AnCora euskarazko, gaztelaniazko eta katalanezko corpusa da, hainbat hizkuntza-mailatan etiketatua
Esteka (orokorra): 
Harremanetarako: 
izaskun.aldezabal[abildua/at]ehu.es
Deskribapena: 

AnCora corpusak euskarazko (EPEC-EU), gaztelaniazko (AnCora-CAS) eta katalanezko (AnCora-CAT) testu etiketatuak biltzen ditu. Gaztelaniaz eta katalanez 500.000 hitz inguru eskaintzen dira, eta euskaraz 155.000 hitz inguru.


Euskarazko AnCora corpus etiketatuaren oinarria, EPEC (Euskararen Prozesamendurako Erreferentzia Corpusa) corpusa da. Heren bat XX. mendeko euskararen corpus estatistikoari dagokio (www.euskaracorpusa.net) eta beste bi herenak Euskaldunon Egunkariari. AnCorarako 155.000 hitz hautatu dira, CESS-ECE proiektuan (HUM2004-21127-E) garatu zen sintaktikoki etiketatutako corpusaren zati bat (aldez aurretik maila morfologikoan etiketatua izan dena), eta dependentzia-eredutik osagai-eredura pasatu dira. Corpus-zati honen % 25 katalanezko eta gaztelaniazko corpusekin konparagarria da, aldi bereko berriak jasotzen baitira.