Víceúrovňová anotace českého žákovského korpusu

Identifikátory výsledku

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F11%3A10107961" target="_blank" >RIV/00216208:11320/11:10107961 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/00216208:11210/11:10107961 RIV/46747885:24510/11:#0000905
Výsledek na webu
—
DOI - Digital Object Identifier
—

Alternativní jazyky

Jazyk výsledku
čeština
Název v původním jazyce
Víceúrovňová anotace českého žákovského korpusu
Popis výsledku v původním jazyce
Článek popisuje žákovský korpus češtiny, který je kompilací krátkých prací napsaných studenty češtiny jako druhého jazyka. Věnujeme se pozadí projektu, základním požadavkům, procesu sběru textů, přepisu a anotaci. Anotace spočívá v několika vzájemně propojených rovinách, které zachycujou široké spektrum druhů chyb v textu. Ruční anotace je doplněna automatickou identifikací některých chyb. Navíc původní i opravený text je otegován morfologickými značkami. Anotační schéma je otestováno na vzorku o velikosti cca 10.000 slov oanotovaném dvěma nezávislými skupinami anotátorů s vyhovující iaa.
Název v anglickém jazyce
Multilevel annotation of a Czech learner corpus
Popis výsledku anglicky
The paper describes a learner corpus of Czech, compiled from short essays written by students of Czech as a second or foreign language. We discuss the project's background assumptions, the process of text acquisition, transcription and mark-up, and finally focus on the annotation scheme, consisting of multiple interlinked levels to cope with a wide range of error types present in the input. Manual annotation is complemented by automatic error identification wherever possible and morphosyntactic tags forall word forms both in the emended and the original text. The annotation schema is tested on a doubly-annotated sample of approx. 10,000 words with fair inter-annotator agreement results.

Klasifikace

Druh
D - Stať ve sborníku
CEP obor
AI - Jazykověda
OECD FORD obor
—

Návaznosti výsledku

Projekt
<a href="/cs/project/GPP406%2F10%2FP328" target="_blank" >GPP406/10/P328: Morfologická analýza a tagging s minimálními zdroji</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

Rok uplatnění
2011
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

Název statě ve sborníku
Korpusová lingvistika Praha 2011: 3 - Gramatika a značkování korpusů
ISBN
978-80-7422-116-3
ISSN
—
e-ISSN
—
Počet stran výsledku
18
Strana od-do
208-225
Název nakladatele
Nakladatelství Lidové noviny
Místo vydání
Praha, Czechia
Místo konání akce
Praha, Czechia
Datum konání akce
22. 9. 2011
Typ akce podle státní příslušnosti
CST - Celostátní akce
Kód UT WoS článku
—

Podobné výsledky(10)

Korpusové chyby Evaluating and automating the annotation of a learner corpus Building a learner corpus

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Víceúrovňová anotace českého žákovského korpusu

Identifikátory výsledku

Alternativní jazyky

Klasifikace

Návaznosti výsledku

Ostatní

Údaje specifické pro druh výsledku

Podobné výsledky(10)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Popis výsledku

Identifikátory výsledku

Identifikátory výsledku

Alternativní jazyky

Alternativní jazyky

Klasifikace

Klasifikace

Návaznosti výsledku

Návaznosti výsledku

Ostatní

Ostatní

Údaje specifické pro druh výsledku

Údaje specifické pro druh výsledku

Podobné výsledky(10)