STYX .1.0
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F17%3A10372329" target="_blank" >RIV/00216208:11320/17:10372329 - isvavai.cz</a>
Výsledek na webu
<a href="http://hdl.handle.net/11234/1-2391" target="_blank" >http://hdl.handle.net/11234/1-2391</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
STYX .1.0
Popis výsledku v původním jazyce
STYX 1.0 je korpus českých vět vybraných z Pražského závislostního korpusu (PDT, https://ufal.mff.cuni.cz/pdt2.0). Kritériem pro začlenění vět do STYX 1.0 byla jejich vhodnost pro procvičování větných rozborů žáky základních škol. Věty obsahují anotace z PDT a školní větné rozbory. Školní rozbory vznikly transformací z anotací PDT pomocí ručně navržených pravidel, dále viz (Kučera, 2006) a (Hladká, Kučera, 2008). Celkem je v korpusu STYX 1.0 11 655 vět. Pražský závislostní korpus je pro vývoj a ladění nástrojů rozdělen do tři částí, a sice trénovací, testovací pro vývoj a testovací pro evaluaci (více informací https://ufal.mff.cuni.cz/pdt2.0/doc/pdt-guide/cz/html/ch03.html#a-data-purpose). STYX 1.0 toto dělení zachovává (viz níže Data).
Název v anglickém jazyce
STYX .1.0
Popis výsledku anglicky
The STYX 1.0 corpus is a subset of the Prague Dependency Treebank (PDT, https://ufal.mff.cuni.cz/pdt2.0). The criterion for including sentences into STYX 1.0 was their suitability for practicing Czech morphology and syntax in elementary schools. The PDT data are divided into three groups: the training data, the development test data and the evaluation test data (see more info https://ufal.mff.cuni.cz/pdt2.0/doc/pdt-guide/cz/html/ch03.html#a-data-purpose). The STYX 1.0 corpus keeps this division (see Data below). The sentences in STYX are annotated according to both the PDT and the Czech school annotation system (sentence diagramming). The PDT annotation was transformed into the school annotation using manually designed rules, for more info see (Kucera, 2006) and (Hladka, Kucera, 2008). In total, there are 11,655 sentences in the STYX corpus.
Klasifikace
Druh
R - Software
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
—
Návaznosti
I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Ostatní
Rok uplatnění
2017
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
[http://hdl.handle.net/11234/1-2
Technické parametry
Výsledek volně dostupný na adrese http://hdl.handle.net/11234/1-2391.
Ekonomické parametry
5,000 CZK
IČO vlastníka výsledku
00216208
Název vlastníka
Univerzita Karlova v Praze