Cross-lingual dependency transfer with harmonized Indian language treebanks
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F14%3A10289406" target="_blank" >RIV/00216208:11320/14:10289406 - isvavai.cz</a>
Výsledek na webu
<a href="http://tlt13.sfs.uni-tuebingen.de/tlt13-proceedings.pdf" target="_blank" >http://tlt13.sfs.uni-tuebingen.de/tlt13-proceedings.pdf</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Cross-lingual dependency transfer with harmonized Indian language treebanks
Popis výsledku v původním jazyce
One of the most important aspect of cross-lingual dependency transfer is how different annotation styles which often underestimate the parsing accuracy are handled. The emerging trend is that the annotation style of different language treebanks can be harmonized into one style and the cumbersome manual transformation rules thus can be avoided. In this paper, we use harmonized treebanks (POS tagsets and dependency structures of original treebanks mapped to a common style) for inducing dependencies in a cross-lingual setting. We transfer dependencies using delexicalized parsers that use harmonized version of the original treebanks. We apply this approach to five Indian languages (Hindi, Urdu, Telugu, Bengali and Tamil) and show that best performance canbe obtained in delexicalized parsing when the transfer takes place from Indian language (IL) to IL treebanks.
Název v anglickém jazyce
Cross-lingual dependency transfer with harmonized Indian language treebanks
Popis výsledku anglicky
One of the most important aspect of cross-lingual dependency transfer is how different annotation styles which often underestimate the parsing accuracy are handled. The emerging trend is that the annotation style of different language treebanks can be harmonized into one style and the cumbersome manual transformation rules thus can be avoided. In this paper, we use harmonized treebanks (POS tagsets and dependency structures of original treebanks mapped to a common style) for inducing dependencies in a cross-lingual setting. We transfer dependencies using delexicalized parsers that use harmonized version of the original treebanks. We apply this approach to five Indian languages (Hindi, Urdu, Telugu, Bengali and Tamil) and show that best performance canbe obtained in delexicalized parsing when the transfer takes place from Indian language (IL) to IL treebanks.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
IN - Informatika
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/LM2010013" target="_blank" >LM2010013: LINDAT-CLARIN: Institut pro analýzu, zpracování a distribuci lingvistických dat</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2014
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of 13th International Workshop on Treebanks and Linguistic Theories (TLT13)
ISBN
978-3-9809183-9-8
ISSN
—
e-ISSN
—
Počet stran výsledku
12
Strana od-do
160-171
Název nakladatele
University of Tübingen
Místo vydání
Tübingen, Germany
Místo konání akce
Tübingen, Germany
Datum konání akce
12. 12. 2014
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—