Various DNN-HMM architectures used in acoustic modeling with single-speaker and single-channel
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F21%3A43962798" target="_blank" >RIV/49777513:23520/21:43962798 - isvavai.cz</a>
Výsledek na webu
<a href="https://link.springer.com/chapter/10.1007/978-3-030-89579-2_8" target="_blank" >https://link.springer.com/chapter/10.1007/978-3-030-89579-2_8</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-030-89579-2_8" target="_blank" >10.1007/978-3-030-89579-2_8</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Various DNN-HMM architectures used in acoustic modeling with single-speaker and single-channel
Popis výsledku v původním jazyce
In this paper, we discuss some interesting features of training a special acoustic model for only one speaker with a constant acoustic background (acoustic channel). Currently, the LF-MMI method achieves the best results in many speech recognition tasks. A typical LF-MMI training procedure uses a special 1-state HMM topology that has different pdfs at the self-loop and forward transitions. We would like to discuss the replacement of this typical LF-MMI HMM by different types of HMM topologies (1-, 2- and 3-state HMM topologies that have outputs associated with states). Next, we discuss the advantages of using biphone context modeling over using the triphone context or even simpler context-free monophone. We also address the effect of the amount of training data and the context of DNN on WER, and all this with regard to a special acoustic model with one speaker and an almost constant acoustic channel.
Název v anglickém jazyce
Various DNN-HMM architectures used in acoustic modeling with single-speaker and single-channel
Popis výsledku anglicky
In this paper, we discuss some interesting features of training a special acoustic model for only one speaker with a constant acoustic background (acoustic channel). Currently, the LF-MMI method achieves the best results in many speech recognition tasks. A typical LF-MMI training procedure uses a special 1-state HMM topology that has different pdfs at the self-loop and forward transitions. We would like to discuss the replacement of this typical LF-MMI HMM by different types of HMM topologies (1-, 2- and 3-state HMM topologies that have outputs associated with states). Next, we discuss the advantages of using biphone context modeling over using the triphone context or even simpler context-free monophone. We also address the effect of the amount of training data and the context of DNN on WER, and all this with regard to a special acoustic model with one speaker and an almost constant acoustic channel.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
<a href="/cs/project/EF17_048%2F0007267" target="_blank" >EF17_048/0007267: VaV inteligentních komponent pokročilých technologií pro plzeňskou metropolitní oblast</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Ostatní
Rok uplatnění
2021
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Statistical Language and Speech Processing, 9th International Conference, SLSP 2021, Cardiff, UK, November 23–25, 2021, Proceedings
ISBN
978-3-030-89578-5
ISSN
0302-9743
e-ISSN
1611-3349
Počet stran výsledku
12
Strana od-do
85-96
Název nakladatele
Springer
Místo vydání
Cham
Místo konání akce
Cardiff, United Kingdom
Datum konání akce
23. 11. 2021
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—