Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

SYN v10: korpus současné psané češtiny

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F22%3A10453042" target="_blank" >RIV/00216208:11210/22:10453042 - isvavai.cz</a>

  • Výsledek na webu

    <a href="https://wiki.korpus.cz/doku.php/cnk:syn:verze10" target="_blank" >https://wiki.korpus.cz/doku.php/cnk:syn:verze10</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    SYN v10: korpus současné psané češtiny

  • Popis výsledku v původním jazyce

    Synchronní korpus o celkovém rozsahu téměř 4,9 mld. textových slov (tj. 5,9 mld. tokens), který zachycuje psanou češtinu především z let 1990-2020. Obsahuje převážně texty publicistické, ačkoli zahrnuje také velké množství dalších textových typů (beletrii, oborovou literaturu). Korpus je lemmatizován a morfologicky označkován kombinací stochastických a pravidlových metod, u každého textu jsou uvedeny podrobné bibliografické a další údaje včetně jeho příslušnosti ke klasifikaci textů. Rozdíl oproti předchozí verzi, korpusu SYN v9, spočívá jednak v aktualizaci publicistiky (přidání textů z roku 2020 v rozsahu přes 150 mil. textových slov) a jednak ve vylepšení lemmatizace a morfologického značkování.

  • Název v anglickém jazyce

    SYN v10: corpus of contemporary written Czech

  • Popis výsledku anglicky

    Corpus of contemporary written Czech sized almost 4.9 billion running words (i.e. 5.9 billion tokens). It covers mostly the period of 1990-2020. SYN v10 features rich metadata including detailed bibliographical information, revised text-type classification etc. Although it contains a wide range of text types (fiction, non-fiction, newspapers), the newspapers prevail noticeably. The corpus is lemmatized and morphologically annotated by a combination of stochastic and rule-based methods. The main differences when compared to its predecessor, SYN v9, lie in the update of the newspaper part (added texts from 2020 sized more than 150 million running words), as well as in the improved lemmatization and morphological tagging.

Klasifikace

  • Druh

    R - Software

  • CEP obor

  • OECD FORD obor

    60203 - Linguistics

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/LM2018137" target="_blank" >LM2018137: Český národní korpus</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2022

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    SYN v10

  • Technické parametry

    https://wiki.korpus.cz/doku.php/cnk:syn:verze10

  • Ekonomické parametry

    Korpus je veřejně dostupný především přes rozhraní KonText na https://www.korpus.cz/kontext/ , průměrný počet uživatelských dotazů se pohybuje okolo 140 denně.

  • IČO vlastníka výsledku

    00216208

  • Název vlastníka

    Univerzita Karlova