All
All

What are you looking for?

All
Projects
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

SYN v4: corpus of contemporary written Czech

Result description

Corpus of contemporary written Czech sized 3.6 billion running words (i.e. 4.3 billion tokens). It covers mostly the period of 1990-2014 and it features rich metadata including detailed bibliographical information, revised text-type classification etc. Although it contains a wide range of text types (fiction, non-fiction, newspapers), the newspapers prevail noticeably. The corpus is lemmatized and morphologically annotated by a combination of stochastic and rule-based methods.

Keywords

Czech languagelanguage corpus

The result's identifiers

Alternative languages

  • Result language

    čeština

  • Original language name

    SYN v4: korpus současné psané češtiny

  • Original language description

    Synchronní korpus o celkovém rozsahu 3,6 mld. textových slov (tj. 4,3 mld. tokens), který zachycuje psanou češtinu především z let 1990-2014. Obsahuje převážně texty publicistické, ačkoli zahrnuje také velké množství dalších textových typů (beletrii, oborovou literaturu). Korpus je lemmatizován a morfologicky označkován kombinací stochastických a pravidlových metod, u každého textu jsou uvedeny podrobné bibliografické a další údaje včetně jeho příslušnosti k revidované klasifikaci textů.

  • Czech name

    SYN v4: korpus současné psané češtiny

  • Czech description

    Synchronní korpus o celkovém rozsahu 3,6 mld. textových slov (tj. 4,3 mld. tokens), který zachycuje psanou češtinu především z let 1990-2014. Obsahuje převážně texty publicistické, ačkoli zahrnuje také velké množství dalších textových typů (beletrii, oborovou literaturu). Korpus je lemmatizován a morfologicky označkován kombinací stochastických a pravidlových metod, u každého textu jsou uvedeny podrobné bibliografické a další údaje včetně jeho příslušnosti k revidované klasifikaci textů.

Classification

  • Type

    R - Software

  • CEP classification

    AI - Linguistics

  • OECD FORD branch

Result continuities

Others

  • Publication year

    2016

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Data specific for result type

  • Internal product ID

    SYN v4

  • Technical parameters

    https://www.korpus.cz/toolbar/signup.php

  • Economical parameters

    Korpus je veřejně dostupný především přes rozhraní KonText na https://kontext.korpus.cz , průměrný počet uživatelských dotazů se pohybuje okolo 160 denně.

  • Owner IČO

    00216208

  • Owner name

    Univerzita Karlova

Basic information

Result type

R - Software

R

CEP

AI - Linguistics

Year of implementation

2016