Koditex: korpus diverzifikovaných textů
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F18%3A10384867" target="_blank" >RIV/00216208:11210/18:10384867 - isvavai.cz</a>
Výsledek na webu
<a href="http://wiki.korpus.cz/doku.php/cnk:koditex" target="_blank" >http://wiki.korpus.cz/doku.php/cnk:koditex</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Koditex: korpus diverzifikovaných textů
Popis výsledku v původním jazyce
Koditex je synchronní, reprezentativní a referenční korpus, obsahující 9 milionů textových slov (tedy vyjma interpunkce), který byl vytvořen za účelem multidimenzionální analýzy (MDA) registrové variability češtiny. Při vytváření korpusu byl důraz kladen zejména na jeho pestré složení, které odráží variabilitu češtiny ve všech jejích módech (psaná, mluvená, internetová komunikace), a na bohatou anotaci (texty byly lemmatizovány, morfologicky označkovány dvěma různými systémy, dále v nich byly anotovány frazémy a tzv. pojmenované entity - named entities). Z hlediska psanosti a mluvenosti se tak jedná o korpus smíšený.
Název v anglickém jazyce
Koditex: A corpus of diversified texts
Popis výsledku anglicky
Koditex is a synchronic, representative and reference 9-million-word corpus (excl. punctuation) compiled for the purpose of conducting a multidimensional analysis (MDA) of Czech. When compiling the corpus, the primary goal was for it to be as diverse and representative as possible, reflecting the variability of Czech in all of its modes and ranges of use (written, spoken, online communication) and featuring rich annotation (the texts were lemmatized, morphologically tagged using two different systems, and furthermore they were annotated for phrasemes and so-called named entities). As far as writtenness and spokenness are concerned, the Koditex is a mixed corpus.
Klasifikace
Druh
S<sub>db</sub> - Specializovaná veřejná databáze
CEP obor
—
OECD FORD obor
60203 - Linguistics
Návaznosti výsledku
Projekt
—
Návaznosti
O - Projekt operacniho programu
Ostatní
Rok uplatnění
2018
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Číslo předpisu
LM2015044/Koditex
Označení certifikačního orgánu
Ministerstvo školství, mládeže a tělovýchovy České republiky, Karmelitská 529/5, 118 00 Praha 1
Datum certifikace
—