Pražský závislostní korpus mluvené češtiny (PDTSC 2.0)
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F17%3A10424542" target="_blank" >RIV/00216208:11320/17:10424542 - isvavai.cz</a>
Výsledek na webu
<a href="http://hdl.handle.net/11234/1-3189" target="_blank" >http://hdl.handle.net/11234/1-3189</a>
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
čeština
Název v původním jazyce
Pražský závislostní korpus mluvené češtiny (PDTSC 2.0)
Popis výsledku v původním jazyce
Pražský závislostní korpus mluvené češtiny 2.0 (PDTSC 2.0) je korpus mluveného jazyka o objemu 742 316 tokenů, 73 835 vět, což představuje 7 324 minut (více než 120 hodin) spontánních dialogů. Dialogy byly zaznamenány, přepsány a upraveny na několika vzájemně propojených rovinách: zvukový záznam, automatický a ruční přepis a ručně rekonstruovaný text. Tyto vrstvy byly součástí první verze korpusu (PDTSC 1.0). Verze 2.0 je rozšířena o automatickou analýzu závislostí (na analytické rovině) a především o manuální anotaci "hluboké" syntaxe na tektogramatické rovině, která obsahuje anotaci hloubkových vztahů, valence i anotaci koreference.
Název v anglickém jazyce
Prague Dependency Treebank of Spoken Czech 2.0 (PDTSC 2.0)
Popis výsledku anglicky
The Prague Dependency Treebank of Spoken Czech 2.0 (PDTSC 2.0) is a corpus of spoken language, consisting of 742,316 tokens and 73,835 sentences, representing 7,324 minutes (over 120 hours) of spontaneous dialogs. The dialogs have been recorded, transcribed and edited in several interlinked layers: audio recordings, automatic and manual transcripts and manually reconstructed text. These layers were part of the first version of the corpus (PDTSC 1.0). Version 2.0 is extended by an automatic dependency parser at the analytical and by the manual annotation of "deep" syntax at the tectogrammatical layer, which contains semantic roles and relations as well as annotation of coreference.
Klasifikace
Druh
R - Software
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2017
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Interní identifikační kód produktu
PDTSC20
Technické parametry
Výsledek volně dostupný na adrese http://hdl.handle.net/11234/1-3189.
Ekonomické parametry
6,000,000 CZK
IČO vlastníka výsledku
00216208
Název vlastníka
Univerzita Karlova