NLTK-eu

Deskribapen laburra: 
Hizkuntzaren prozesamendua irakasteko NLTK paketerako euskarazko eta espainerarako baliabideak
Egileak (ixakideak ez direnak): 
Iker Manterola
Esteka (orokorra): 
Esteka (beste batzuk): 
Harremanetarako: 
kepa.sarasola[abildua/at]ehu.es
Deskribapena: 



Ixa Taldeak corpus eta ariketa egokitu berriak sortu ditu NLTK paketeko hainbat tresnetan euskara ere erabili ahal izateko.
Natural Language Tool Kit (NLTK) lengoaia naturalaren prozesamendua irakasteko eta garatzeko paketea da. Modulu horiekin PLNko hainbat tresna landu daitezke, dozenaka ariketa dauzka. Bere barruan hiru motako osagaiak biltzen ditu: Python moduluak, datu linguistikoak eta dokumentazioa.
NLTK paketea Windows, Mac OSX eta Linuxerako banaketak eskaintzen da. Programak, datu linguistikoak eta dokumentazioa (LNP irakasteko liburu oso bat barne) libre hartu daitezke NLTKko web gunean: http://www.nltk.org

Funtzionalitatea: 



NLTK paketean euskara lantzeko Corpusak eta Gramatikak

Fitxategi hauek 'data' karpetan, eta 'corpora' edo 'grammars' azpilkarpetetan kokatuta daude, beste hizkuntzetako corpus eta gramatikekin.

Corpusak honako hauek dira:



  • CONLL_07_eu euskararako (NLTKko webgune ofizialeko 'eus.test' eta 'eus.train' atalak)


  • CONLL_07_es espainierarako (NLTKko webgune ofizialeko 'esp.test' eta 'esp.train' atalak)

  • CESS_eu euskararako. NLTK barruan eskaintzen den CESS _es eta CESS _cat antzekoa da. http://clic.ub.edu/ancora/ web gunean kontsulta daitekeena.













  • Corpus Hitz kopurua Perpaus kopurua
    CESS_eu 27.521 2.428
    CONLL_07_eu 50.128 3.175
    CONLL_07_es 95.028 3.512




    NLTK paketean euskara lantzeko LNP zereginetarako 51 modulu

    Fitxategiak (nltk_eu_es/Listing_eu_es karpeta) zeregin horietako erabilera-adibideak dira. Bi azpikarpeta daude:




  • Espainerarako ariketak:
    (nltk_eu_es/Listing_eu_es/Herramientas_lingüísticas_castellano)

  • Euskararako ariketak
    (nltk_eu_es/Listing_eu_es/Tresna_linguistikoak_euskara).


  • Fitxategi horietan Python kodea eta beren exekuzioen adibideak aurkezten dira, NLTKko liburuan egiten den modura http://clic.ub.edu/ancora/

    51 modulu horien egokitzapenaren kalitatea beti ez da izan egileok nahi genuen bezain ona, batzuetan arazoak izan baititugu hitzen lematizazioa kontuan hartzen ez zelako, eta noski,hori euskararako testuak lantzeko arazo izan daiteke.

    Lizentzia: 
    CC-Attribution-NonCommercial-NoDerivativeWorks Copyright : Euskal Herriko Unibertsitatea (EHU) / The University of the Basque Country
    Oharrak: 

    Konprobatu: produktuaren barruan deskribapena luzeegia??