Euskal RST Treebank
Euskal RSTko erlazio eta zuhaitz bankua
Euskal RSTko Erlazio eta Zuhaitz Bankua euskarazko testuen
erlazio-egituraz aberasturiko corpusa da Mann eta Thompsonen (1988)
Egitura Erretorikoaren Teoriari (ingelesez, Rhetorical Structure
Theoryri edo RSTri) jarraituz eta RSTko sailkapen hedatuaren (Clasical
Mann and Thompson extended classification) euskal bertsioa erabiliz.
Etiketaturiko corpusak 60 laburpen testu ditu hiru domeinu
ezberdinetakoak: medikuntza, terminologia eta zientzia. Testuak
segmentatzeko eta erlazio-egitura eraikitzeko Etiketatzeko RSTTool
(O'Donnel 2000) ingurune grafikoa erabili izan da. Eta erlazioen
seinaleak etiketatzeko Rhetorical DataBase.
Euskal RSTko Erlazio eta Zuhaitz Bankuan hainbat gauza egin daitezke:
Euskal RSTko Erlazio eta Zuhaitz Bankuan hainbat gauza egin daitezke:
- Erlazio erretoriko jakin baten maiztasunak eta adibideak
kontsultatu. - Testu jakin baten erlazio-egitura osatzen duten erlazio
erretorikoak kontsultatu edota testuaren zuhaitz-egitura ikusi. - Erlazio erretorikoen seinaleak zeintzuk diren ikusi.
- Euskarazko Oinarrizko Diskurtso Unitateen (ingeleseko Elemmentary
Discourse Unit edo EDU) estatistikak eskuratu. - Zuhaitz bateko, Unitate Zentralari lotutako edo corpuseko Erlazio
Erretorikoei buruzko estatistikak eskuratu. - Euskal RSTko erlazio eta zuhaitz bankua ez da corpus arrunta,
erlazio erretorikoen kontsulta eginez, RSTko etiketatzea sendotzeko eta
etiketatzean egon daitezkeen akatsak edota desadostasunak ebaluatzeko
tresna ere bada.
Corpus hau honako atazetan erabiliko dugu:
- Erlazio erretorikoak detektatzeko patroiak egiteko.
- Diskurtso-mailako segmentazioa automatikoa egiteko href=>EusEduSeg.
- Laburpen automatikoa.
- Sentimenduen analisia.
- Galdera erantzun sistemak.
Erabili diren programak hauek dira: RSTTool, Rhetorical DataBase eta IXA taldeak garatu dituen hainbat programa
Rhetorical Structure Theoryn (RST) oinarrituta euskaraz erlaziozko diskurtso-egitura etiketatu duen lehen corpusa edo treebanka da. Ereduzko patroia da ikerketa linguistikoetan eta hizkuntzaren prozedamenduan.
Corpus hau garatze bidean dago
Argitalpenak (artikuluak):
In the href=
target=>Figure, units below straight vertical lines represent
the nuclei
of hypotactic relations (2-2, 2-3, 7-7, 6-7, 6-10, 2-10 and 9-10) while
those units found underneath diagonal lines are the nuclei of
paratactic relations (4-4, 5-5, 9-9, and 10-10). Other elements are
satellites of hypotactic relations (1-1, 2-5, 3-3, 4-5, 6-6, 8-8, and
8-10). The span which covers the entire text (1-10) cannot be related
to any other span, and consequently, has no nuclearity.
Relations between segments are represented using arrows extending from
the satellite towards the nucleus; for example, the BACKGROUND relation
connects satellite segment 2-5 to its nucleus, 6-10.
As such, annotators interpret which units are most important for
understanding the text. The main concept—that is, the idea presenting
the most
important unit of tree structure (Mann and Thompson 1987)—is
represented with straight vertical lines if it is a hypotactic relation
or under diagonal vertical lines if it is a paratactic relation.
In our example, unit 7-7 is the main unit of the rhetorical
structure. There are eighteen cases of nuclearity in this example:
In this example, the
annotator interpreted the rhetorical relations presented in Figure 1 as
Within the BACKGROUND relation there are three other relations
explaining how the number of urgent medical visits has risen: two
ELABORATIONS ([2-2 CONJUNCTION relation ([4-4 = 5-5]).
Similarly, the RESULT relation subsumes the PREPARATION relation ([8-8
> 9-10]) and the ELABORATION relation ([9-9
Mann, W. C. and Thompson, S. A. 1987. Rhetorical Structure Theory: A Theory of Text Organization. Text 8(3):243-281.
