CzeSL-man v1 searchable - korpus češtiny nerodilých mluvčích s ruční chybovou anotací podle zjednodušeného víceúrovňového schématu
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F20%3A10419879" target="_blank" >RIV/00216208:11210/20:10419879 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/00216208:11320/20:10419879
Výsledek na webu
<a href="http://utkl.ff.cuni.cz/~rosen/public/2020-czesl-man-v1s-cs.pdf" target="_blank" >http://utkl.ff.cuni.cz/~rosen/public/2020-czesl-man-v1s-cs.pdf</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
CzeSL-man v1 searchable - korpus češtiny nerodilých mluvčích s ruční chybovou anotací podle zjednodušeného víceúrovňového schématu
Popis výsledku v původním jazyce
CzeSL-man v1 searchable obsahuje přepisy textů vytvořených nerodilými mluvčími češtiny. Je to ručně anotovaná část textů z automaticky anotovaného korpusu CzeSL-SGT. Ruční chybová anotace je zjednodušená verze dvoustupňového anotačního schématu, vytvořeného pro projekt CzeSL. Anotace obsahuje opravy zdrojového textu - cílovou hypotézu, typy chyby, morfosyntaktické kategorie a lemmata pro opravený text a závislostní syntaktickou strukturu a funkce opraveného textu. Morfologická a syntaktická anotace je provedena automaticky. Texty jsou vybaveny metadaty o autorovi a textu. Korpus lze prohledávat on-line pomocí vyhledávače KonText v Českém národním korpusu. Korpus lze získat také jako dataset ve formátu PML/feat (viz http://utkl.ff.cuni.cz/learncorp/ - CzeSL-man v1 downloadable). Kromě jiného formátu se verze searchable se liší od verze downloadable ve dvou aspektech: (i) neexistují žádné texty s alternativní chybovou anotací, každý text je anotován jen jedním anotátorem, a (ii) dvoustupňové anotační schéma je zjednodušeno tak, aby konvenovalo vyhledávacímu nástroji, který je orientován na anotaci po tokenech (slovech).
Název v anglickém jazyce
CzeSL-man v1 searchable - a corpus of non-native Czech with manual error annotation in a simplified tiered scheme
Popis výsledku anglicky
CzeSL-man v1 searchable contains transcripts of texts created by non-native speakers of Czech. It is a manually annotated part of texts from the automatically annotated corpus CzeSL-SGT. Manual error annotation is a simplified version of a two-stage annotation scheme designed for the CzeSL project. The annotation contains corrections of the source text - the target hypothesis, types of errors, morphosyntactic categories and lemmas for the corrected text and dependency syntactic structure and functions of the corrected text. Morphological and syntactic annotation is performed automatically. The texts are equipped with metadata about the author and the text. The corpus can be searched online using the KonText search engine in the Czech National Corpus. The corpus can also be obtained as a dataset in the PML/feat format (see http://utkl.ff.cuni.cz/learncorp/ - CzeSL-man v1 downloadable). In addition to a different format, the searchable version differs from the downloadable version in two respects: (i) there are no texts with alternative error annotation: each text is annotated by a single annotator (just one version of each doubly annotated text is included), and (ii) the two-tier annotation scheme is radically modified to fit the token-based setup of the search tool.
Klasifikace
Druh
O - Ostatní výsledky
CEP obor
—
OECD FORD obor
60203 - Linguistics
Návaznosti výsledku
Projekt
<a href="/cs/project/EF16_019%2F0000734" target="_blank" >EF16_019/0000734: Kreativita a adaptabilita jako předpoklad úspěchu Evropy v propojeném světě</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2020
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů