Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

CzeSL-man v1 searchable - korpus češtiny nerodilých mluvčích s ruční chybovou anotací podle zjednodušeného víceúrovňového schématu

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F20%3A10419879" target="_blank" >RIV/00216208:11210/20:10419879 - isvavai.cz</a>

  • Nalezeny alternativní kódy

    RIV/00216208:11320/20:10419879

  • Výsledek na webu

    <a href="http://utkl.ff.cuni.cz/~rosen/public/2020-czesl-man-v1s-cs.pdf" target="_blank" >http://utkl.ff.cuni.cz/~rosen/public/2020-czesl-man-v1s-cs.pdf</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    CzeSL-man v1 searchable - korpus češtiny nerodilých mluvčích s ruční chybovou anotací podle zjednodušeného víceúrovňového schématu

  • Popis výsledku v původním jazyce

    CzeSL-man v1 searchable obsahuje přepisy textů vytvořených nerodilými mluvčími češtiny. Je to ručně anotovaná část textů z automaticky anotovaného korpusu CzeSL-SGT. Ruční chybová anotace je zjednodušená verze dvoustupňového anotačního schématu, vytvořeného pro projekt CzeSL. Anotace obsahuje opravy zdrojového textu - cílovou hypotézu, typy chyby, morfosyntaktické kategorie a lemmata pro opravený text a závislostní syntaktickou strukturu a funkce opraveného textu. Morfologická a syntaktická anotace je provedena automaticky. Texty jsou vybaveny metadaty o autorovi a textu. Korpus lze prohledávat on-line pomocí vyhledávače KonText v Českém národním korpusu. Korpus lze získat také jako dataset ve formátu PML/feat (viz http://utkl.ff.cuni.cz/learncorp/ - CzeSL-man v1 downloadable). Kromě jiného formátu se verze searchable se liší od verze downloadable ve dvou aspektech: (i) neexistují žádné texty s alternativní chybovou anotací, každý text je anotován jen jedním anotátorem, a (ii) dvoustupňové anotační schéma je zjednodušeno tak, aby konvenovalo vyhledávacímu nástroji, který je orientován na anotaci po tokenech (slovech).

  • Název v anglickém jazyce

    CzeSL-man v1 searchable - a corpus of non-native Czech with manual error annotation in a simplified tiered scheme

  • Popis výsledku anglicky

    CzeSL-man v1 searchable contains transcripts of texts created by non-native speakers of Czech. It is a manually annotated part of texts from the automatically annotated corpus CzeSL-SGT. Manual error annotation is a simplified version of a two-stage annotation scheme designed for the CzeSL project. The annotation contains corrections of the source text - the target hypothesis, types of errors, morphosyntactic categories and lemmas for the corrected text and dependency syntactic structure and functions of the corrected text. Morphological and syntactic annotation is performed automatically. The texts are equipped with metadata about the author and the text. The corpus can be searched online using the KonText search engine in the Czech National Corpus. The corpus can also be obtained as a dataset in the PML/feat format (see http://utkl.ff.cuni.cz/learncorp/ - CzeSL-man v1 downloadable). In addition to a different format, the searchable version differs from the downloadable version in two respects: (i) there are no texts with alternative error annotation: each text is annotated by a single annotator (just one version of each doubly annotated text is included), and (ii) the two-tier annotation scheme is radically modified to fit the token-based setup of the search tool.

Klasifikace

  • Druh

    O - Ostatní výsledky

  • CEP obor

  • OECD FORD obor

    60203 - Linguistics

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/EF16_019%2F0000734" target="_blank" >EF16_019/0000734: Kreativita a adaptabilita jako předpoklad úspěchu Evropy v propojeném světě</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2020

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů