Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Free English and Czech telephone speech corpus shared under the CC-BY-SA 3.0 license

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216208%3A11320%2F14%3A10289384" target="_blank" >RIV/00216208:11320/14:10289384 - isvavai.cz</a>

  • Výsledek na webu

    <a href="http://www.lrec-conf.org/proceedings/lrec2014/index.html" target="_blank" >http://www.lrec-conf.org/proceedings/lrec2014/index.html</a>

  • DOI - Digital Object Identifier

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Free English and Czech telephone speech corpus shared under the CC-BY-SA 3.0 license

  • Popis výsledku v původním jazyce

    We present a dataset of telephone conversations in English and Czech, developed to train acoustic models for automatic speech recognition (ASR) in spoken dialogue systems (SDSs). The data comprise 45 hours of speech in English and over 18 hours in Czech.All audio data and a large part of transcriptions was collected using crowdsourcing; the rest was transcribed by hired transcribers. We release the data together with scripts for data re-processing and building acoustic models using the HTK and Kaldi ASR toolkits. We publish the trained models described in this paper as well. The data are released under the CC-BY-SA 3.0 license, the scripts are licensed under Apache 2.0. In the paper, we report on the methodology of collecting the data, on the size andproperties of the data, and on the scripts and their use. We verify the usability of the datasets by training and valuating acoustic models using the presented data and scripts.

  • Název v anglickém jazyce

    Free English and Czech telephone speech corpus shared under the CC-BY-SA 3.0 license

  • Popis výsledku anglicky

    We present a dataset of telephone conversations in English and Czech, developed to train acoustic models for automatic speech recognition (ASR) in spoken dialogue systems (SDSs). The data comprise 45 hours of speech in English and over 18 hours in Czech.All audio data and a large part of transcriptions was collected using crowdsourcing; the rest was transcribed by hired transcribers. We release the data together with scripts for data re-processing and building acoustic models using the HTK and Kaldi ASR toolkits. We publish the trained models described in this paper as well. The data are released under the CC-BY-SA 3.0 license, the scripts are licensed under Apache 2.0. In the paper, we report on the methodology of collecting the data, on the size andproperties of the data, and on the scripts and their use. We verify the usability of the datasets by training and valuating acoustic models using the presented data and scripts.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

    IN - Informatika

  • OECD FORD obor

Návaznosti výsledku

  • Projekt

    Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach

Ostatní

  • Rok uplatnění

    2014

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC 2014)

  • ISBN

    978-2-9517408-8-4

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    5

  • Strana od-do

    4423-4427

  • Název nakladatele

    European Language Resources Association

  • Místo vydání

    Reykjavík, Iceland

  • Místo konání akce

    Reykjavík, Iceland

  • Datum konání akce

    26. 5. 2014

  • Typ akce podle státní příslušnosti

    WRD - Celosvětová akce

  • Kód UT WoS článku