Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Koditex: korpus diverzifikovaných textů

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F18%3A10384867" target="_blank" >RIV/00216208:11210/18:10384867 - isvavai.cz</a>

  • Výsledek na webu

    <a href="http://wiki.korpus.cz/doku.php/cnk:koditex" target="_blank" >http://wiki.korpus.cz/doku.php/cnk:koditex</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Koditex: korpus diverzifikovaných textů

  • Popis výsledku v původním jazyce

    Koditex je synchronní, reprezentativní a referenční korpus, obsahující 9 milionů textových slov (tedy vyjma interpunkce), který byl vytvořen za účelem multidimenzionální analýzy (MDA) registrové variability češtiny. Při vytváření korpusu byl důraz kladen zejména na jeho pestré složení, které odráží variabilitu češtiny ve všech jejích módech (psaná, mluvená, internetová komunikace), a na bohatou anotaci (texty byly lemmatizovány, morfologicky označkovány dvěma různými systémy, dále v nich byly anotovány frazémy a tzv. pojmenované entity - named entities). Z hlediska psanosti a mluvenosti se tak jedná o korpus smíšený.

  • Název v anglickém jazyce

    Koditex: A corpus of diversified texts

  • Popis výsledku anglicky

    Koditex is a synchronic, representative and reference 9-million-word corpus (excl. punctuation) compiled for the purpose of conducting a multidimensional analysis (MDA) of Czech. When compiling the corpus, the primary goal was for it to be as diverse and representative as possible, reflecting the variability of Czech in all of its modes and ranges of use (written, spoken, online communication) and featuring rich annotation (the texts were lemmatized, morphologically tagged using two different systems, and furthermore they were annotated for phrasemes and so-called named entities). As far as writtenness and spokenness are concerned, the Koditex is a mixed corpus.

Klasifikace

  • Druh

    S<sub>db</sub> - Specializovaná veřejná databáze

  • CEP obor

  • OECD FORD obor

    60203 - Linguistics

Návaznosti výsledku

  • Projekt

  • Návaznosti

    O - Projekt operacniho programu

Ostatní

  • Rok uplatnění

    2018

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Číslo předpisu

    LM2015044/Koditex

  • Označení certifikačního orgánu

    Ministerstvo školství, mládeže a tělovýchovy České republiky, Karmelitská 529/5, 118 00 Praha 1

  • Datum certifikace