Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Pražský závislostní korpus mluvené češtiny (PDTSC 2.0)

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F17%3A10424542" target="_blank" >RIV/00216208:11320/17:10424542 - isvavai.cz</a>

  • Výsledek na webu

    <a href="http://hdl.handle.net/11234/1-3189" target="_blank" >http://hdl.handle.net/11234/1-3189</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    čeština

  • Název v původním jazyce

    Pražský závislostní korpus mluvené češtiny (PDTSC 2.0)

  • Popis výsledku v původním jazyce

    Pražský závislostní korpus mluvené češtiny 2.0 (PDTSC 2.0) je korpus mluveného jazyka o objemu 742 316 tokenů, 73 835 vět, což představuje 7 324 minut (více než 120 hodin) spontánních dialogů. Dialogy byly zaznamenány, přepsány a upraveny na několika vzájemně propojených rovinách: zvukový záznam, automatický a ruční přepis a ručně rekonstruovaný text. Tyto vrstvy byly součástí první verze korpusu (PDTSC 1.0). Verze 2.0 je rozšířena o automatickou analýzu závislostí (na analytické rovině) a především o manuální anotaci &quot;hluboké&quot; syntaxe na tektogramatické rovině, která obsahuje anotaci hloubkových vztahů, valence i anotaci koreference.

  • Název v anglickém jazyce

    Prague Dependency Treebank of Spoken Czech 2.0 (PDTSC 2.0)

  • Popis výsledku anglicky

    The Prague Dependency Treebank of Spoken Czech 2.0 (PDTSC 2.0) is a corpus of spoken language, consisting of 742,316 tokens and 73,835 sentences, representing 7,324 minutes (over 120 hours) of spontaneous dialogs. The dialogs have been recorded, transcribed and edited in several interlinked layers: audio recordings, automatic and manual transcripts and manually reconstructed text. These layers were part of the first version of the corpus (PDTSC 1.0). Version 2.0 is extended by an automatic dependency parser at the analytical and by the manual annotation of &quot;deep&quot; syntax at the tectogrammatical layer, which contains semantic roles and relations as well as annotation of coreference.

Klasifikace

  • Druh

    R - Software

  • CEP obor

  • OECD FORD obor

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Návaznosti výsledku

  • Projekt

    Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2017

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Interní identifikační kód produktu

    PDTSC20

  • Technické parametry

    Výsledek volně dostupný na adrese http://hdl.handle.net/11234/1-3189.

  • Ekonomické parametry

    6,000,000 CZK

  • IČO vlastníka výsledku

    00216208

  • Název vlastníka

    Univerzita Karlova