Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Nová koncepce synchronních korpusů psané češtiny

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F16%3A10332724" target="_blank" >RIV/00216208:11210/16:10332724 - isvavai.cz</a>

  • Výsledek na webu

    <a href="http://sas.ujc.cas.cz/archiv.php?art=4324" target="_blank" >http://sas.ujc.cas.cz/archiv.php?art=4324</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Nová koncepce synchronních korpusů psané češtiny

  • Popis výsledku v původním jazyce

    Článek popisuje SYN2015, nejnovější korpus současné psané češtiny o rozsahu 100 millionů slov. Zabývá se také obecnými pojmy reprezentativnosti a vyváženosti jazykového korpusu, zejména vzhledem ke konceptu reprezentativnosti korpusu SYN2015. Na rozdíl od starších synchronních korpusů SYN2000, SYN2005 a SYN2010, jejichž složení vycházelo ze sociologických průzkumů recepce textů, je reprezentativnost SYN2015 založena na principu "texts-as-products" s arbitrárními poměry jednotlivých kategorií revidovaného klasifikačního schématu. Článek uvádí tři hlavní výhody tohoto řešení: 1) složení může být stejné i u budoucích korpusů, což umožní srovnatelnost, přestože se recepce neustále mění; 2) klade důraz na pestrost složení korpusu jako vzorku jazyka; 3) korpus SYN2015 tak může sloužit nejenom jako reprezentativní vzorek, ale také jako rozsáhlá zásobárna textů, z níž je možné vytvářet podmnožiny (subkorpusy) podle různých kritérií.

  • Název v anglickém jazyce

    A new design of synchronic corpora of written Czech

  • Popis výsledku anglicky

    The paper describes the new corpus SYN2015, the most recent 100 million word corpus of contemporary written Czech. General notions of corpus representativeness and balance are discussed in this context with a focus on the new concept of representativeness adopted for SYN2015. Unlike the previous synchronic corpora SYN2000, SYN2005 and SYN2010, which were balanced according to text reception (based on sociologic surveys), the composition of SYN2015 is based on "texts-as-products" principle with arbitrary proportions of the individual categories within a revised text classification scheme. The paper argues in favour of this solution by highlighting three major advantages: 1) this type of composition can be upheld constant in the future ensuring corpus comparability, while reception changes constantly; 2) it emphasizes diverse composition of the corpus as a sample of language; 3) corpus SYN2015 serves not only as a representative sample, but also as a large pool of texts from which different subsets (subcorpora) based on various linguist-specified criteria can be drawn.

Klasifikace

  • Druh

    J<sub>x</sub> - Nezařazeno - Článek v odborném periodiku (Jimp, Jsc a Jost)

  • CEP obor

    AI - Jazykověda

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

    <a href="/cs/project/LM2015044" target="_blank" >LM2015044: Český národní korpus</a><br>

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2016

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název periodika

    Slovo a slovesnost

  • ISSN

    0037-7031

  • e-ISSN

  • Svazek periodika

    77

  • Číslo periodika v rámci svazku

    2

  • Stát vydavatele periodika

    CZ - Česká republika

  • Počet stran výsledku

    19

  • Strana od-do

    83-101

  • Kód UT WoS článku

    000377308100001

  • EID výsledku v databázi Scopus