All

What are you looking for?

All
Projects
Results
Organizations

Quick search

  • Projects supported by TA ČR
  • Excellent projects
  • Projects with the highest public support
  • Current projects

Smart search

  • That is how I find a specific +word
  • That is how I leave the -word out of the results
  • “That is how I can find the whole phrase”

Russian Malach Speech Corpus

The result's identifiers

  • Result code in IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F05%3A00000020" target="_blank" >RIV/49777513:23520/05:00000020 - isvavai.cz</a>

  • Alternative codes found

    RIV/49777513:23520/05:00000021

  • Result on the web

  • DOI - Digital Object Identifier

Alternative languages

  • Result language

    angličtina

  • Original language name

    Russian Malach Speech Corpus

  • Original language description

    Visual History Foundation collected recently at least 52 thousand testimonies of holocaust survivors pronounced at 32 different languages. The Russian collection is created by about 7 050 testimonies with the total length of about 16,000 hours. The corresponding Russian Malach Speech Corpus was annotated with the goal to build the large vocabulary continuous speech recognition system. For this purpose it was selected and manually transcribed 400 15-minute speech segments of individual speakers (for training purposes) and whole testimonies of 10 different survivors (about 25 hours of speech) for tests. All manual annotations were performed in the orthographic form of the words.

  • Czech name

    Anotovaný korpus ruských výpovědí svědků holocaustu

  • Czech description

    Visual History Foundation shromáždila v minulých létech cca 52 tisíc výpovědí svědků holocaustu namluvených ve 32 jazycích. Ruských výpovědí je k dispozici cca 7 050 s celkovou délkou asi 16 000 hodin. Korpus ruských výpovědí projektu Malach byl připraven pro konstrukci systému automatického rozpoznávání spontánní řeči, který bude využit pro automatické hledání klíčových slov a topiků ve výpovědích. Pro trénování systému bylo zpracováno a speciálním způsobem anotováno celkem 400 patnáctiminutových segmentů výpovědí (celkem 100 hodin), pro testy bylo zpracováno 10 celých výpovědí od různých řečníků (celkem cca 25 hodin). Všechny manuální anotace byl

Classification

  • Type

    X - Unclassified

  • CEP classification

    JD - Use of computers, robotics and its application

  • OECD FORD branch

Result continuities

  • Project

    <a href="/en/project/LC536" target="_blank" >LC536: Integrated center for natural language processing</a><br>

  • Continuities

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>Z - Vyzkumny zamer (s odkazem do CEZ)

Others

  • Publication year

    2005

  • Confidentiality

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů