Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Víceúrovňová anotace českého žákovského korpusu

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F11%3A10107961" target="_blank" >RIV/00216208:11320/11:10107961 - isvavai.cz</a>

  • Nalezeny alternativní kódy

    RIV/00216208:11210/11:10107961 RIV/46747885:24510/11:#0000905

  • Výsledek na webu

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Víceúrovňová anotace českého žákovského korpusu

  • Popis výsledku v původním jazyce

    Článek popisuje žákovský korpus češtiny, který je kompilací krátkých prací napsaných studenty češtiny jako druhého jazyka. Věnujeme se pozadí projektu, základním požadavkům, procesu sběru textů, přepisu a anotaci. Anotace spočívá v několika vzájemně propojených rovinách, které zachycujou široké spektrum druhů chyb v textu. Ruční anotace je doplněna automatickou identifikací některých chyb. Navíc původní i opravený text je otegován morfologickými značkami. Anotační schéma je otestováno na vzorku o velikosti cca 10.000 slov oanotovaném dvěma nezávislými skupinami anotátorů s vyhovující iaa.

  • Název v anglickém jazyce

    Multilevel annotation of a Czech learner corpus

  • Popis výsledku anglicky

    The paper describes a learner corpus of Czech, compiled from short essays written by students of Czech as a second or foreign language. We discuss the project's background assumptions, the process of text acquisition, transcription and mark-up, and finally focus on the annotation scheme, consisting of multiple interlinked levels to cope with a wide range of error types present in the input. Manual annotation is complemented by automatic error identification wherever possible and morphosyntactic tags forall word forms both in the emended and the original text. The annotation schema is tested on a doubly-annotated sample of approx. 10,000 words with fair inter-annotator agreement results.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

    AI - Jazykověda

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/GPP406%2F10%2FP328" target="_blank" >GPP406/10/P328: Morfologická analýza a tagging s minimálními zdroji</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2011

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Korpusová lingvistika Praha 2011: 3 - Gramatika a značkování korpusů

  • ISBN

    978-80-7422-116-3

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    18

  • Strana od-do

    208-225

  • Název nakladatele

    Nakladatelství Lidové noviny

  • Místo vydání

    Praha, Czechia

  • Místo konání akce

    Praha, Czechia

  • Datum konání akce

    22. 9. 2011

  • Typ akce podle státní příslušnosti

    CST - Celostátní akce

  • Kód UT WoS článku