Nová koncepce synchronních korpusů psané češtiny
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11210%2F16%3A10332724" target="_blank" >RIV/00216208:11210/16:10332724 - isvavai.cz</a>
Výsledek na webu
<a href="http://sas.ujc.cas.cz/archiv.php?art=4324" target="_blank" >http://sas.ujc.cas.cz/archiv.php?art=4324</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Nová koncepce synchronních korpusů psané češtiny
Popis výsledku v původním jazyce
Článek popisuje SYN2015, nejnovější korpus současné psané češtiny o rozsahu 100 millionů slov. Zabývá se také obecnými pojmy reprezentativnosti a vyváženosti jazykového korpusu, zejména vzhledem ke konceptu reprezentativnosti korpusu SYN2015. Na rozdíl od starších synchronních korpusů SYN2000, SYN2005 a SYN2010, jejichž složení vycházelo ze sociologických průzkumů recepce textů, je reprezentativnost SYN2015 založena na principu "texts-as-products" s arbitrárními poměry jednotlivých kategorií revidovaného klasifikačního schématu. Článek uvádí tři hlavní výhody tohoto řešení: 1) složení může být stejné i u budoucích korpusů, což umožní srovnatelnost, přestože se recepce neustále mění; 2) klade důraz na pestrost složení korpusu jako vzorku jazyka; 3) korpus SYN2015 tak může sloužit nejenom jako reprezentativní vzorek, ale také jako rozsáhlá zásobárna textů, z níž je možné vytvářet podmnožiny (subkorpusy) podle různých kritérií.
Název v anglickém jazyce
A new design of synchronic corpora of written Czech
Popis výsledku anglicky
The paper describes the new corpus SYN2015, the most recent 100 million word corpus of contemporary written Czech. General notions of corpus representativeness and balance are discussed in this context with a focus on the new concept of representativeness adopted for SYN2015. Unlike the previous synchronic corpora SYN2000, SYN2005 and SYN2010, which were balanced according to text reception (based on sociologic surveys), the composition of SYN2015 is based on "texts-as-products" principle with arbitrary proportions of the individual categories within a revised text classification scheme. The paper argues in favour of this solution by highlighting three major advantages: 1) this type of composition can be upheld constant in the future ensuring corpus comparability, while reception changes constantly; 2) it emphasizes diverse composition of the corpus as a sample of language; 3) corpus SYN2015 serves not only as a representative sample, but also as a large pool of texts from which different subsets (subcorpora) based on various linguist-specified criteria can be drawn.
Klasifikace
Druh
J<sub>x</sub> - Nezařazeno - Článek v odborném periodiku (Jimp, Jsc a Jost)
CEP obor
AI - Jazykověda
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/LM2015044" target="_blank" >LM2015044: Český národní korpus</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2016
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
Slovo a slovesnost
ISSN
0037-7031
e-ISSN
—
Svazek periodika
77
Číslo periodika v rámci svazku
2
Stát vydavatele periodika
CZ - Česká republika
Počet stran výsledku
19
Strana od-do
83-101
Kód UT WoS článku
000377308100001
EID výsledku v databázi Scopus
—