HAP1

Subject: 
Metodo estatistikoak eta Testu-corpusak

Irakasgaia bi zatitan banatzen da:

i) Hizkuntzaren prozesaketan beharrezkoak diren oinarri estatistikoen sarrera. Estatistika deskribatzailearen zein inferentzialaren inguruko hainbat alderdi landuko dira bertan. Horrez gain, ikasketa automatikorako sarrera egingo da oinarrizko datu-prozesaketak eta ikasketa-algoritmoak ikusiko direlarik.

ii) Corpusetan oinarritutako linguistika. Corpus linguistikoen sarrera eskainiko da hasiera batean, corpusak adierazteko erabili ohi diren errepresentazio-eskemekin batera. Jarraian, corpusak aztertuz atera daitezkeen zenbait neurri estatistiko azalduko dira, eta corpusetan oinarritutako analisi ohikoenak ere, hala nola, metodo distribuzionalak eta patroietan oinarritutako teknikak. Adibide gisa, euskararako, gaztelerarako, katalanerako, ingeleserako eta gaztelerarako dauden corpus nagusiak aztertuko dira.

1. Estatistikako oinarrizko neurriak: Batezbestekoa, desbideratze estandarra,  Ki-karratua, Elkarrekiko Informazioa, Kappa, ...
2. Hipotesi probetarako sarrera: Independentzia  testa, Mc Nemar
3. IArako sarrera eta IA LNPrako
4. Oinarrizko algoritmoak WEKA softwarearekin: Naive Bayes, K-NN, Sailkapen Zuhaitzak, Erregelak
5. Sailkapen gainbegiratuaren ebaluazioa
6. Corpusean oinarritutako linguistika: sarrera
7. Corpus motak eta ezaugarriak
   - Corpus adibideak
8. Corpus-en gaineko anotazioa
   - Marka usuenak eta analisi mailak
   - informazio linguistikoa errepresentatzeko estandarrak (TEI, NAF, AWA)
9. XML

- Laborategiak:
  - Estatistiken kalkuluak
  - Sailkapen atazak
  - Unix tresnak
  - Hitz frekuentziak eta Zipf-en legea
  - Hitz Anitzeko Unitate Lexikalak
  - Terminoen erauzketa
  - XML eta XPath

ECTS: 
6 D
Language: 
EU
Four-month: 
1. lauhilekoa

Coordinator:

Subscribe to RSS - HAP1