SYN v9: korpus současné psané češtiny
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F21%3A10435718" target="_blank" >RIV/00216208:11210/21:10435718 - isvavai.cz</a>
Výsledek na webu
<a href="https://wiki.korpus.cz/doku.php/cnk:syn:verze9" target="_blank" >https://wiki.korpus.cz/doku.php/cnk:syn:verze9</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
SYN v9: korpus současné psané češtiny
Popis výsledku v původním jazyce
Synchronní korpus o celkovém rozsahu 4,7 mld. textových slov (tj. 5,7 mld. tokens), který zachycuje psanou češtinu především z let 1990-2019. Obsahuje převážně texty publicistické, ačkoli zahrnuje také velké množství dalších textových typů (beletrii, oborovou literaturu). Korpus je lemmatizován a morfologicky označkován kombinací stochastických a pravidlových metod, u každého textu jsou uvedeny podrobné bibliografické a další údaje včetně jeho příslušnosti ke klasifikaci textů. Rozdíl oproti předchozí verzi, korpusu SYN v8, spočívá jednak v aktualizaci publicistiky (přidání textů z roku 2019) a zejména v tom, že celé zpracování (strukturace, lemmatizace, morfologické značkován) bylo provedeno na úrovni korpusu SYN2020.
Název v anglickém jazyce
SYN v9: corpus of contemporary written Czech
Popis výsledku anglicky
Corpus of contemporary written Czech sized 4.7 billion running words (i.e. 5.7 billion tokens). It covers mostly the period of 1990-2019 and it features rich metadata including detailed bibliographical information, text-type classification etc. Although it contains a wide range of text types (fiction, non-fiction, newspapers), the newspapers prevail noticeably. The corpus is lemmatized and morphologically annotated by a combination of stochastic and rule-based methods. The main differences when compared to its predecessor, SYN v8, lie in the update of the newspaper part (publication year 2019 added) and in that all the processing (structural markup, lemmatization, morphological tagging) has been updated to correspond to the SYN2020 corpus.
Klasifikace
Druh
O - Ostatní výsledky
CEP obor
—
OECD FORD obor
60203 - Linguistics
Návaznosti výsledku
Projekt
<a href="/cs/project/LM2018137" target="_blank" >LM2018137: Český národní korpus</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2021
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů