Koditex: korpus diverzifikovaných textů

Identifikátory výsledku

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F18%3A10384867" target="_blank" >RIV/00216208:11210/18:10384867 - isvavai.cz</a>
Výsledek na webu
<a href="http://wiki.korpus.cz/doku.php/cnk:koditex" target="_blank" >http://wiki.korpus.cz/doku.php/cnk:koditex</a>
DOI - Digital Object Identifier
—

Alternativní jazyky

Jazyk výsledku
čeština
Název v původním jazyce
Koditex: korpus diverzifikovaných textů
Popis výsledku v původním jazyce
Koditex je synchronní, reprezentativní a referenční korpus, obsahující 9 milionů textových slov (tedy vyjma interpunkce), který byl vytvořen za účelem multidimenzionální analýzy (MDA) registrové variability češtiny. Při vytváření korpusu byl důraz kladen zejména na jeho pestré složení, které odráží variabilitu češtiny ve všech jejích módech (psaná, mluvená, internetová komunikace), a na bohatou anotaci (texty byly lemmatizovány, morfologicky označkovány dvěma různými systémy, dále v nich byly anotovány frazémy a tzv. pojmenované entity - named entities). Z hlediska psanosti a mluvenosti se tak jedná o korpus smíšený.
Název v anglickém jazyce
Koditex: A corpus of diversified texts
Popis výsledku anglicky
Koditex is a synchronic, representative and reference 9-million-word corpus (excl. punctuation) compiled for the purpose of conducting a multidimensional analysis (MDA) of Czech. When compiling the corpus, the primary goal was for it to be as diverse and representative as possible, reflecting the variability of Czech in all of its modes and ranges of use (written, spoken, online communication) and featuring rich annotation (the texts were lemmatized, morphologically tagged using two different systems, and furthermore they were annotated for phrasemes and so-called named entities). As far as writtenness and spokenness are concerned, the Koditex is a mixed corpus.

Klasifikace

Druh
S<sub>db</sub> - Specializovaná veřejná databáze
CEP obor
—
OECD FORD obor
60203 - Linguistics

Návaznosti výsledku

Projekt
—
Návaznosti
O - Projekt operacniho programu

Ostatní

Rok uplatnění
2018
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

Číslo předpisu
LM2015044/Koditex
Označení certifikačního orgánu
Ministerstvo školství, mládeže a tělovýchovy České republiky, Karmelitská 529/5, 118 00 Praha 1
Datum certifikace
—

Podobné výsledky(10)

Morphological Tagging and Lemmatization of Spoken Corpora of Czech Contribution Towards a Corpus-Based Phraseology Minimum Jazykové korpusy z pohledu tvůrců a uživatelů

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Koditex: korpus diverzifikovaných textů

Identifikátory výsledku

Alternativní jazyky

Klasifikace

Návaznosti výsledku

Ostatní

Údaje specifické pro druh výsledku

Podobné výsledky(10)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Popis výsledku

Identifikátory výsledku

Identifikátory výsledku

Alternativní jazyky

Alternativní jazyky

Klasifikace

Klasifikace

Návaznosti výsledku

Návaznosti výsledku

Ostatní

Ostatní

Údaje specifické pro druh výsledku

Údaje specifické pro druh výsledku

Podobné výsledky(10)