SYN v7: korpus současné psané češtiny

Identifikátory výsledku

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F18%3A10384646" target="_blank" >RIV/00216208:11210/18:10384646 - isvavai.cz</a>
Výsledek na webu
<a href="https://wiki.korpus.cz/doku.php/cnk:syn:verze7" target="_blank" >https://wiki.korpus.cz/doku.php/cnk:syn:verze7</a>
DOI - Digital Object Identifier
—

Alternativní jazyky

Jazyk výsledku
čeština
Název v původním jazyce
SYN v7: korpus současné psané češtiny
Popis výsledku v původním jazyce
Synchronní korpus o celkovém rozsahu přes 4,2 mld. textových slov (tj. 5,1 mld. tokens), který zachycuje psanou češtinu především z let 1990-2017. Obsahuje převážně texty publicistické, ačkoli zahrnuje také velké množství dalších textových typů (beletrii, oborovou literaturu). Korpus je lemmatizován a morfologicky označkován kombinací stochastických a pravidlových metod, u každého textu jsou uvedeny podrobné bibliografické a další údaje včetně jeho příslušnosti k revidované klasifikaci textů. Rozdíl oproti předchozí verzi, korpusu SYN v6, spočívá zejména v aktualizaci publicistiky (přidání textů z roku 2017).
Název v anglickém jazyce
SYN v7: corpus of contemporary written Czech
Popis výsledku anglicky
Corpus of contemporary written Czech sized more than 4.2 billion running words (i.e. 5.1 billion tokens). It covers mostly the period of 1990-2017 and it features rich metadata including detailed bibliographical information, revised text-type classification etc. Although it contains a wide range of text types (fiction, non-fiction, newspapers), the newspapers prevail noticeably. The corpus is lemmatized and morphologically annotated by a combination of stochastic and rule-based methods. The main difference when compared to its predecessor, SYN v6, lies in the update of the newspaper part (publication year 2017 added).

Klasifikace

Druh
S<sub>db</sub> - Specializovaná veřejná databáze
CEP obor
—
OECD FORD obor
60203 - Linguistics

Návaznosti výsledku

Projekt
<a href="/cs/project/LM2015044" target="_blank" >LM2015044: Český národní korpus</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

Rok uplatnění
2018
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

Číslo předpisu
LM2015044/SYNv7
Označení certifikačního orgánu
Ministerstvo školství, mládeže a tělovýchovy České republiky, Karmelitská 529/5, 118 00 Praha 1
Datum certifikace
—

Podobné výsledky(10)

SYN v4: korpus současné psané češtiny SYN v5: korpus současné psané češtiny SYN v6: korpus současné psané češtiny

Co hledáte?

Rychlé hledání

Chytré vyhledávání

SYN v7: korpus současné psané češtiny

Identifikátory výsledku

Alternativní jazyky

Klasifikace

Návaznosti výsledku

Ostatní

Údaje specifické pro druh výsledku

Podobné výsledky(10)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Popis výsledku

Identifikátory výsledku

Identifikátory výsledku

Alternativní jazyky

Alternativní jazyky

Klasifikace

Klasifikace

Návaznosti výsledku

Návaznosti výsledku

Ostatní

Ostatní

Údaje specifické pro druh výsledku

Údaje specifické pro druh výsledku

Podobné výsledky(10)