Koditex: A corpus of diversified texts
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F18%3A10384867" target="_blank" >RIV/00216208:11210/18:10384867 - isvavai.cz</a>
Result on the web
<a href="http://wiki.korpus.cz/doku.php/cnk:koditex" target="_blank" >http://wiki.korpus.cz/doku.php/cnk:koditex</a>
DOI - Digital Object Identifier
—
Alternative languages
Result language
čeština
Original language name
Koditex: korpus diverzifikovaných textů
Original language description
Koditex je synchronní, reprezentativní a referenční korpus, obsahující 9 milionů textových slov (tedy vyjma interpunkce), který byl vytvořen za účelem multidimenzionální analýzy (MDA) registrové variability češtiny. Při vytváření korpusu byl důraz kladen zejména na jeho pestré složení, které odráží variabilitu češtiny ve všech jejích módech (psaná, mluvená, internetová komunikace), a na bohatou anotaci (texty byly lemmatizovány, morfologicky označkovány dvěma různými systémy, dále v nich byly anotovány frazémy a tzv. pojmenované entity - named entities). Z hlediska psanosti a mluvenosti se tak jedná o korpus smíšený.
Czech name
Koditex: korpus diverzifikovaných textů
Czech description
Koditex je synchronní, reprezentativní a referenční korpus, obsahující 9 milionů textových slov (tedy vyjma interpunkce), který byl vytvořen za účelem multidimenzionální analýzy (MDA) registrové variability češtiny. Při vytváření korpusu byl důraz kladen zejména na jeho pestré složení, které odráží variabilitu češtiny ve všech jejích módech (psaná, mluvená, internetová komunikace), a na bohatou anotaci (texty byly lemmatizovány, morfologicky označkovány dvěma různými systémy, dále v nich byly anotovány frazémy a tzv. pojmenované entity - named entities). Z hlediska psanosti a mluvenosti se tak jedná o korpus smíšený.
Classification
Type
S<sub>db</sub> - Public specialised database
CEP classification
—
OECD FORD branch
60203 - Linguistics
Result continuities
Project
—
Continuities
O - Projekt operacniho programu
Others
Publication year
2018
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Regulation ID
LM2015044/Koditex
Certification body name
Ministerstvo školství, mládeže a tělovýchovy České republiky, Karmelitská 529/5, 118 00 Praha 1
Date of certification
—