Euskal RST Treebank

Deskribapen laburra: 
Euskal RSTko erlazio eta zuhaitz bankua
Harremanetarako: 
mikel.iruskieta@ehu.es
Deskribapena: 
Euskal RSTko Erlazio eta Zuhaitz Bankua euskarazko testuen
erlazio-egituraz aberasturiko corpusa da Mann eta Thompsonen (1988)
Egitura Erretorikoaren Teoriari (ingelesez, Rhetorical Structure
Theoryri edo RSTri) jarraituz eta RSTko sailkapen hedatuaren (Clasical
Mann and Thompson extended classification) euskal bertsioa erabiliz.
Etiketaturiko corpusak 60 laburpen testu ditu hiru domeinu
ezberdinetakoak: medikuntza, terminologia eta zientzia. Testuak
segmentatzeko eta erlazio-egitura eraikitzeko Etiketatzeko RSTTool
(O'Donnel 2000) ingurune grafikoa erabili izan da. Eta erlazioen
seinaleak etiketatzeko Rhetorical DataBase.



Euskal RSTko Erlazio eta Zuhaitz Bankuan hainbat gauza egin daitezke:




  1. Erlazio erretoriko jakin baten maiztasunak eta adibideak
    kontsultatu.

  2. Testu jakin baten erlazio-egitura osatzen duten erlazio
    erretorikoak kontsultatu edota testuaren zuhaitz-egitura ikusi.

  3. Erlazio erretorikoen seinaleak zeintzuk diren ikusi.

  4. Euskarazko Oinarrizko Diskurtso Unitateen (ingeleseko Elemmentary
    Discourse Unit edo EDU) estatistikak eskuratu.

  5. Zuhaitz bateko, Unitate Zentralari lotutako edo corpuseko Erlazio
    Erretorikoei buruzko estatistikak eskuratu.

  6. Euskal RSTko erlazio eta zuhaitz bankua ez da corpus arrunta,
    erlazio erretorikoen kontsulta eginez, RSTko etiketatzea sendotzeko eta
    etiketatzean egon daitezkeen akatsak edota desadostasunak ebaluatzeko
    tresna ere bada.

Funtzionalitatea: 
Corpus hau honako atazetan erabiliko dugu:


  1. Erlazio erretorikoak detektatzeko patroiak egiteko.

  2. Diskurtso-mailako segmentazioa automatikoa egiteko href=http://ixa2.si.ehu.es/EusEduSeg/EusEduSeg.pl>EusEduSeg.

  3. Laburpen automatikoa.

  4. Sentimenduen analisia.

  5. Galdera erantzun sistemak.

Teknologia: 
Erabili diren programak hauek dira: RSTTool, Rhetorical DataBase eta IXA taldeak garatu dituen hainbat programa
Berrikuntza: 
Rhetorical Structure Theoryn (RST) oinarrituta euskaraz erlaziozko diskurtso-egitura etiketatu duen lehen corpusa edo treebanka da. Ereduzko patroia da ikerketa linguistikoetan eta hizkuntzaren prozedamenduan.
Garapena: 
Corpus hau garatze bidean dago
Adibideak: 
href=http://ixa2.si.ehu.es/diskurtsoa/diskurtsoa_jpg/GMB0401-GS.jpg
target=>

In the href=http://ixa2.si.ehu.es/diskurtsoa/diskurtsoa_jpg/GMB0401-GS.jpg
target=>Figure, units below straight vertical lines represent
the nuclei
of hypotactic relations (2-2, 2-3, 7-7, 6-7, 6-10, 2-10 and 9-10) while
those units found underneath diagonal lines are the nuclei of
paratactic relations (4-4, 5-5, 9-9, and 10-10). Other elements are
satellites of hypotactic relations (1-1, 2-5, 3-3, 4-5, 6-6, 8-8, and
8-10). The span which covers the entire text (1-10) cannot be related
to any other span, and consequently, has no nuclearity.

Relations between segments are represented using arrows extending from
the satellite towards the nucleus; for example, the BACKGROUND relation
connects satellite segment 2-5 to its nucleus, 6-10.
As such, annotators interpret which units are most important for
understanding the text. The main concept—that is, the idea presenting
the most
important unit of tree structure (Mann and Thompson 1987)—is
represented with straight vertical lines if it is a hypotactic relation
or under diagonal vertical lines if it is a paratactic relation.

In our example, unit 7-7 is the main unit of the rhetorical
structure. There are eighteen cases of nuclearity in this example:

  1. eight units function as satellites: 1-1, 2-5, 3-3, 4-5, 6-6,
    8-8, 8-10 and 10-10,
  2. and the other ten units function as nuclei: 2-2, 2-3, 4-4,
    5-5, 7-7, 6-7, 6-10, 2-10, 9-9 and 9-10.

In this example, the
annotator interpreted the rhetorical relations presented in Figure 1 as
follows:
  1. PREPARATION for the article, by means of the title ([1-1 >
    2-10]);
  2. laying out the BACKGROUND of the issue to be considered: the
    profile of users using the emergency services ([2-5 > 6-10]);
  3. demonstrating why the study is interesting using the
    MOTIVATION relation ([6-6 > 7-7]), and
  4. highlighting the RESULTS ([6-7

Within the BACKGROUND relation there are three other relations
explaining how the number of urgent medical visits has risen: two
ELABORATIONS ([2-2 CONJUNCTION relation ([4-4 = 5-5]).
Similarly, the RESULT relation subsumes the PREPARATION relation ([8-8
> 9-10]) and the ELABORATION relation ([9-9



REFERENCES:

Mann, W. C. and Thompson, S. A. 1987. Rhetorical Structure Theory: A Theory of Text Organization. Text 8(3):243-281.
Jabetza: 
Ixa taldea
Oharrak: 
Harremanetarako: mikel.iruskieta@ehu.es