Pražský závislostní korpus mluvené češtiny (PDTSC 2.0)

Identifikátory výsledku

Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F17%3A10424542" target="_blank" >RIV/00216208:11320/17:10424542 - isvavai.cz</a>
Výsledek na webu
<a href="http://hdl.handle.net/11234/1-3189" target="_blank" >http://hdl.handle.net/11234/1-3189</a>
DOI - Digital Object Identifier
—

Alternativní jazyky

Jazyk výsledku
čeština
Název v původním jazyce
Pražský závislostní korpus mluvené češtiny (PDTSC 2.0)
Popis výsledku v původním jazyce
Pražský závislostní korpus mluvené češtiny 2.0 (PDTSC 2.0) je korpus mluveného jazyka o objemu 742 316 tokenů, 73 835 vět, což představuje 7 324 minut (více než 120 hodin) spontánních dialogů. Dialogy byly zaznamenány, přepsány a upraveny na několika vzájemně propojených rovinách: zvukový záznam, automatický a ruční přepis a ručně rekonstruovaný text. Tyto vrstvy byly součástí první verze korpusu (PDTSC 1.0). Verze 2.0 je rozšířena o automatickou analýzu závislostí (na analytické rovině) a především o manuální anotaci "hluboké" syntaxe na tektogramatické rovině, která obsahuje anotaci hloubkových vztahů, valence i anotaci koreference.
Název v anglickém jazyce
Prague Dependency Treebank of Spoken Czech 2.0 (PDTSC 2.0)
Popis výsledku anglicky
The Prague Dependency Treebank of Spoken Czech 2.0 (PDTSC 2.0) is a corpus of spoken language, consisting of 742,316 tokens and 73,835 sentences, representing 7,324 minutes (over 120 hours) of spontaneous dialogs. The dialogs have been recorded, transcribed and edited in several interlinked layers: audio recordings, automatic and manual transcripts and manually reconstructed text. These layers were part of the first version of the corpus (PDTSC 1.0). Version 2.0 is extended by an automatic dependency parser at the analytical and by the manual annotation of "deep" syntax at the tectogrammatical layer, which contains semantic roles and relations as well as annotation of coreference.

Klasifikace

Druh
R - Software
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Návaznosti výsledku

Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

Rok uplatnění
2017
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

Interní identifikační kód produktu
PDTSC20
Technické parametry
Výsledek volně dostupný na adrese http://hdl.handle.net/11234/1-3189.
Ekonomické parametry
6,000,000 CZK
IČO vlastníka výsledku
00216208
Název vlastníka
Univerzita Karlova

Podobné výsledky(10)

Prague Dependency Treebank - Consolidated 2.0 (PDT-C 2.0)Czech Academic Corpus 2.0 ParCzech PS7 2.0

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Pražský závislostní korpus mluvené češtiny (PDTSC 2.0)

Identifikátory výsledku

Alternativní jazyky

Klasifikace

Návaznosti výsledku

Ostatní

Údaje specifické pro druh výsledku

Podobné výsledky(10)

Co hledáte?

Rychlé hledání

Chytré vyhledávání

Popis výsledku

Identifikátory výsledku

Identifikátory výsledku

Alternativní jazyky

Alternativní jazyky

Klasifikace

Klasifikace

Návaznosti výsledku

Návaznosti výsledku

Ostatní

Ostatní

Údaje specifické pro druh výsledku

Údaje specifické pro druh výsledku

Podobné výsledky(10)