SYN v10: corpus of contemporary written Czech

The result's identifiers

Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F22%3A10453042" target="_blank" >RIV/00216208:11210/22:10453042 - isvavai.cz</a>
Result on the web
<a href="https://wiki.korpus.cz/doku.php/cnk:syn:verze10" target="_blank" >https://wiki.korpus.cz/doku.php/cnk:syn:verze10</a>
DOI - Digital Object Identifier
—

Alternative languages

Result language
čeština
Original language name
SYN v10: korpus současné psané češtiny
Original language description
Synchronní korpus o celkovém rozsahu téměř 4,9 mld. textových slov (tj. 5,9 mld. tokens), který zachycuje psanou češtinu především z let 1990-2020. Obsahuje převážně texty publicistické, ačkoli zahrnuje také velké množství dalších textových typů (beletrii, oborovou literaturu). Korpus je lemmatizován a morfologicky označkován kombinací stochastických a pravidlových metod, u každého textu jsou uvedeny podrobné bibliografické a další údaje včetně jeho příslušnosti ke klasifikaci textů. Rozdíl oproti předchozí verzi, korpusu SYN v9, spočívá jednak v aktualizaci publicistiky (přidání textů z roku 2020 v rozsahu přes 150 mil. textových slov) a jednak ve vylepšení lemmatizace a morfologického značkování.
Czech name
SYN v10: korpus současné psané češtiny
Czech description
Synchronní korpus o celkovém rozsahu téměř 4,9 mld. textových slov (tj. 5,9 mld. tokens), který zachycuje psanou češtinu především z let 1990-2020. Obsahuje převážně texty publicistické, ačkoli zahrnuje také velké množství dalších textových typů (beletrii, oborovou literaturu). Korpus je lemmatizován a morfologicky označkován kombinací stochastických a pravidlových metod, u každého textu jsou uvedeny podrobné bibliografické a další údaje včetně jeho příslušnosti ke klasifikaci textů. Rozdíl oproti předchozí verzi, korpusu SYN v9, spočívá jednak v aktualizaci publicistiky (přidání textů z roku 2020 v rozsahu přes 150 mil. textových slov) a jednak ve vylepšení lemmatizace a morfologického značkování.

Classification

Type
R - Software
CEP classification
—
OECD FORD branch
60203 - Linguistics

Result continuities

Project
<a href="/en/project/LM2018137" target="_blank" >LM2018137: Czech National Corpus</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Others

Publication year
2022
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

Internal product ID
SYN v10
Technical parameters
https://wiki.korpus.cz/doku.php/cnk:syn:verze10
Economical parameters
Korpus je veřejně dostupný především přes rozhraní KonText na https://www.korpus.cz/kontext/ , průměrný počet uživatelských dotazů se pohybuje okolo 140 denně.
Owner IČO
00216208
Owner name
Univerzita Karlova

Similar results(10)

SYN v11: corpus of contemporary written Czech SYN v13: corpus of contemporary written Czech SYN v12: corpus of contemporary written Czech

What are you looking for?

Quick search

Smart search

SYN v10: corpus of contemporary written Czech

The result's identifiers

Alternative languages

Classification

Result continuities

Others

Data specific for result type

Similar results(10)

What are you looking for?

Quick search

Smart search

Result description

The result's identifiers

The result's identifiers

Alternative languages

Alternative languages

Classification

Classification

Result continuities

Result continuities

Others

Others

Data specific for result type

Data specific for result type

Similar results(10)