Using Low-Cost Annotation to Train a Reliable Czech Shallow Parser
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216224%3A14210%2F13%3A00069444" target="_blank" >RIV/00216224:14210/13:00069444 - isvavai.cz</a>
Výsledek na webu
<a href="http://dx.doi.org/10.1007/978-3-642-40585-3_72" target="_blank" >http://dx.doi.org/10.1007/978-3-642-40585-3_72</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-642-40585-3_72" target="_blank" >10.1007/978-3-642-40585-3_72</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Using Low-Cost Annotation to Train a Reliable Czech Shallow Parser
Popis výsledku v původním jazyce
Bushbank is a relatively new concept - a type of annotated corpus where annotation is driven by use of automatic tools and the task of human annotators is limited to accepting or rejecting parts of their output. This creates a possibility to obtain annotated corpora of considerable size at relatively low cost. In this paper we ask the question if the Czech Bushbank is reliable enough to be used for a NLP task instead of a traditional corpus with high annotation rigour. We perform evaluation of three different parsers using its shallow syntactic annotation, including a CRF chunker made originally for Polish. The results are very promising, showing that many practical applications could benefit from low-cost annotation.
Název v anglickém jazyce
Using Low-Cost Annotation to Train a Reliable Czech Shallow Parser
Popis výsledku anglicky
Bushbank is a relatively new concept - a type of annotated corpus where annotation is driven by use of automatic tools and the task of human annotators is limited to accepting or rejecting parts of their output. This creates a possibility to obtain annotated corpora of considerable size at relatively low cost. In this paper we ask the question if the Czech Bushbank is reliable enough to be used for a NLP task instead of a traditional corpus with high annotation rigour. We perform evaluation of three different parsers using its shallow syntactic annotation, including a CRF chunker made originally for Polish. The results are very promising, showing that many practical applications could benefit from low-cost annotation.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
AI - Jazykověda
OECD FORD obor
—
Návaznosti výsledku
Projekt
—
Návaznosti
N - Vyzkumna aktivita podporovana z neverejnych zdroju
Ostatní
Rok uplatnění
2013
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Text, Speech, and Dialogue
ISBN
9783642405846
ISSN
0302-9743
e-ISSN
—
Počet stran výsledku
8
Strana od-do
575-582
Název nakladatele
Springer Berling Heidelberg
Místo vydání
Plzeň
Místo konání akce
Plzeň
Datum konání akce
1. 1. 2013
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—