NLTK-eu

Short description: 
Some Basque and Spanish resources to use with NLTK (Natural Language ToolKit)
Authors (no IXA members): 
Iker Manterola
Link (general): 
Link (other): 
Contact: 
kepa.sarasola[abildua/at]ehu.es
Description: 
Ixa Taldeak corpus eta ariketa egokitu berriak sortu ditu NLTK paketeko hainbat tresnetan euskara ere erabili ahal izateko.
Natural Language Tool Kit (NLTK) lengoaia naturalaren prozesamendua irakasteko eta garatzeko paketea da. Modulu horiekin PLNko hainbat tresna landu daitezke, dozenaka ariketa dauzka. Bere barruan hiru motako osagaiak biltzen ditu: Python moduluak, datu linguistikoak eta dokumentazioa.
NLTK paketea Windows, Mac OSX eta Linuxerako banaketak eskaintzen da. Programak, datu linguistikoak eta dokumentazioa (LNP irakasteko liburu oso bat barne) libre hartu daitezke NLTKko web gunean: http://www.nltk.org
Functionality: 
NLTK paketean euskara lantzeko Corpusak eta GramatikakFitxategi hauek 'data' karpetan, eta 'corpora' edo 'grammars' azpilkarpetetan kokatuta daude, beste hizkuntzetako corpus eta gramatikekin.
Corpusak honako hauek dira:
  • CONLL_07_eu euskararako (NLTKko webgune ofizialeko 'eus.test' eta 'eus.train' atalak)
  • CONLL_07_es espainierarako (NLTKko webgune ofizialeko 'esp.test' eta 'esp.train' atalak)
  • CESS_eu euskararako. NLTK barruan eskaintzen den CESS _es eta CESS _cat antzekoa da. http://clic.ub.edu/ancora/ web gunean kontsulta daitekeena.
  • CorpusHitz kopuruaPerpaus kopurua
    CESS_eu27.5212.428
    CONLL_07_eu50.1283.175
    CONLL_07_es95.0283.512

    NLTK paketean euskara lantzeko LNP zereginetarako 51 modulu Fitxategiak (nltk_eu_es/Listing_eu_es karpeta) zeregin horietako erabilera-adibideak dira. Bi azpikarpeta daude:

  • Espainerarako ariketak:
    (nltk_eu_es/Listing_eu_es/Herramientas_lingüísticas_castellano)

  • Euskararako ariketak
    (nltk_eu_es/Listing_eu_es/Tresna_linguistikoak_euskara).


  • Fitxategi horietan Python kodea eta beren exekuzioen adibideak aurkezten dira, NLTKko liburuan egiten den modura http://clic.ub.edu/ancora/
    51 modulu horien egokitzapenaren kalitatea beti ez da izan egileok nahi genuen bezain ona, batzuetan arazoak izan baititugu hitzen lematizazioa kontuan hartzen ez zelako, eta noski,hori euskararako testuak lantzeko arazo izan daiteke.
    License: 
    CC-Attribution-NonCommercial-NoDerivativeWorks Copyright : Euskal Herriko Unibertsitatea (EHU) / The University of the Basque Country