Víceúrovňová anotace českého žákovského korpusu
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F11%3A10107961" target="_blank" >RIV/00216208:11320/11:10107961 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/00216208:11210/11:10107961 RIV/46747885:24510/11:#0000905
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Víceúrovňová anotace českého žákovského korpusu
Popis výsledku v původním jazyce
Článek popisuje žákovský korpus češtiny, který je kompilací krátkých prací napsaných studenty češtiny jako druhého jazyka. Věnujeme se pozadí projektu, základním požadavkům, procesu sběru textů, přepisu a anotaci. Anotace spočívá v několika vzájemně propojených rovinách, které zachycujou široké spektrum druhů chyb v textu. Ruční anotace je doplněna automatickou identifikací některých chyb. Navíc původní i opravený text je otegován morfologickými značkami. Anotační schéma je otestováno na vzorku o velikosti cca 10.000 slov oanotovaném dvěma nezávislými skupinami anotátorů s vyhovující iaa.
Název v anglickém jazyce
Multilevel annotation of a Czech learner corpus
Popis výsledku anglicky
The paper describes a learner corpus of Czech, compiled from short essays written by students of Czech as a second or foreign language. We discuss the project's background assumptions, the process of text acquisition, transcription and mark-up, and finally focus on the annotation scheme, consisting of multiple interlinked levels to cope with a wide range of error types present in the input. Manual annotation is complemented by automatic error identification wherever possible and morphosyntactic tags forall word forms both in the emended and the original text. The annotation schema is tested on a doubly-annotated sample of approx. 10,000 words with fair inter-annotator agreement results.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
AI - Jazykověda
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/GPP406%2F10%2FP328" target="_blank" >GPP406/10/P328: Morfologická analýza a tagging s minimálními zdroji</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2011
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Korpusová lingvistika Praha 2011: 3 - Gramatika a značkování korpusů
ISBN
978-80-7422-116-3
ISSN
—
e-ISSN
—
Počet stran výsledku
18
Strana od-do
208-225
Název nakladatele
Nakladatelství Lidové noviny
Místo vydání
Praha, Czechia
Místo konání akce
Praha, Czechia
Datum konání akce
22. 9. 2011
Typ akce podle státní příslušnosti
CST - Celostátní akce
Kód UT WoS článku
—