Multilevel annotation of a Czech learner corpus
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F11%3A10107961" target="_blank" >RIV/00216208:11320/11:10107961 - isvavai.cz</a>
Alternative codes found
RIV/00216208:11210/11:10107961 RIV/46747885:24510/11:#0000905
Result on the web
—
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Víceúrovňová anotace českého žákovského korpusu
Original language description
Článek popisuje žákovský korpus češtiny, který je kompilací krátkých prací napsaných studenty češtiny jako druhého jazyka. Věnujeme se pozadí projektu, základním požadavkům, procesu sběru textů, přepisu a anotaci. Anotace spočívá v několika vzájemně propojených rovinách, které zachycujou široké spektrum druhů chyb v textu. Ruční anotace je doplněna automatickou identifikací některých chyb. Navíc původní i opravený text je otegován morfologickými značkami. Anotační schéma je otestováno na vzorku o velikosti cca 10.000 slov oanotovaném dvěma nezávislými skupinami anotátorů s vyhovující iaa.
Czech name
Víceúrovňová anotace českého žákovského korpusu
Czech description
Článek popisuje žákovský korpus češtiny, který je kompilací krátkých prací napsaných studenty češtiny jako druhého jazyka. Věnujeme se pozadí projektu, základním požadavkům, procesu sběru textů, přepisu a anotaci. Anotace spočívá v několika vzájemně propojených rovinách, které zachycujou široké spektrum druhů chyb v textu. Ruční anotace je doplněna automatickou identifikací některých chyb. Navíc původní i opravený text je otegován morfologickými značkami. Anotační schéma je otestováno na vzorku o velikosti cca 10.000 slov oanotovaném dvěma nezávislými skupinami anotátorů s vyhovující iaa.
Classification
Type
D - Article in proceedings
CEP classification
AI - Linguistics
OECD FORD branch
—
Result continuities
Project
<a href="/en/project/GPP406%2F10%2FP328" target="_blank" >GPP406/10/P328: Resource-light Morphological Analysis and Tagging</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2011
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Article name in the collection
Korpusová lingvistika Praha 2011: 3 - Gramatika a značkování korpusů
ISBN
978-80-7422-116-3
ISSN
—
e-ISSN
—
Number of pages
18
Pages from-to
208-225
Publisher name
Nakladatelství Lidové noviny
Place of publication
Praha, Czechia
Event location
Praha, Czechia
Event date
Sep 22, 2011
Type of event by nationality
CST - Celostátní akce
UT code for WoS article
—