Russian Spontaneaous Speech – Acoustic&Language Models (MALACH)
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F05%3A00000058" target="_blank" >RIV/49777513:23520/05:00000058 - isvavai.cz</a>
Alternative codes found
RIV/49777513:23520/05:00000008
Result on the web
—
DOI - Digital Object Identifier
—
Alternative languages
Result language
angličtina
Original language name
Russian Spontaneaous Speech – Acoustic&Language Models (MALACH)
Original language description
The Visual History Foundation collected recently about 52 thousand testimonies of Holocaust survivors pronounced in 32 languages. There are approx. 7,050 Russian testimonies with a total length of 16,000 hours. It is not feasible to transcribe all thosetestimonies maually due to the enornous time and money demands. Thus the transcription is performed using the automatic speech recognition system – data forthe system development were acquired from the Russian Malach Speech Corpus. The basic AM unit is a triphone represented by a 5-state HMM, where every state is modeled as a GMM with 16 mixtures. The total number of states was reduced to 6969 using a phonetic clustering tree. The language model is designed as a combination of 2 bigram models.
Czech name
Akustický a jazykový model spontánní ruštiny
Czech description
Visual History Foundation shromáždila v minulých létech cca 52 tisíc výpovědí svědků holocaustu namluvených ve 32 jazycích. Ruských výpovědí je k dispozici cca 7 050 s celkovou délkou asi 16 000 hodin. Vzhledem k značné časové a finanční náročnosti nenímožné provést přepisy všech výpovědí manuálně. K přepisu bylo proto využito systému automatického rozpoznávání řeči. Data pro tvorbu modelů byla získána z Russian Malach Speech Corpusu. Základní jednotkou AM je trifón reprezentovaný 5ti stavovým HMM, kdekaždý stav je modelován 16ti složkovým GMM. Aplikací fonetického shlukovacího stromu byl počet stavů snížen na 6969. Jazykový model je tvořen kombinací 2 bigramov
Classification
Type
X - Unclassified
CEP classification
JD - Use of computers, robotics and its application
OECD FORD branch
—
Result continuities
Project
Result was created during the realization of more than one project. More information in the Projects tab.
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2005
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů