Convolutional Neural Network for Refinement of Speaker Adaptation Transformation
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F14%3A43922932" target="_blank" >RIV/49777513:23520/14:43922932 - isvavai.cz</a>
Výsledek na webu
<a href="http://download.springer.com/static/pdf/914/chp%253A10.1007%252F978-3-319-11581-8_20.pdf?auth66=1413288171_5b620d005701573765a4641007670c58&ext=.pdf" target="_blank" >http://download.springer.com/static/pdf/914/chp%253A10.1007%252F978-3-319-11581-8_20.pdf?auth66=1413288171_5b620d005701573765a4641007670c58&ext=.pdf</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-319-11581-8_20" target="_blank" >10.1007/978-3-319-11581-8_20</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Convolutional Neural Network for Refinement of Speaker Adaptation Transformation
Popis výsledku v původním jazyce
The aim of this work is to propose a refinement of the shift-MLLR (shift Maximum Likelihood Linear Regression) adaptation of an acoustics model in the case of limited amount of adaptation data, which can lead to ill-conditioned transformations matrices.We try to suppress the influence of badly estimated transformation parameters utilizing the Artificial Neural Network (ANN), especially Convolutional Neural Network (CNN) with bottleneck layer on the end. The badly estimated shift-MLLR transformation ispropagated through an ANN (suitably trained beforehand), and the output of the net is used as the new refined transformation. To train the ANN the well and the badly conditioned shift-MLLR transformations are used as outputs and inputs of ANN, respectively.
Název v anglickém jazyce
Convolutional Neural Network for Refinement of Speaker Adaptation Transformation
Popis výsledku anglicky
The aim of this work is to propose a refinement of the shift-MLLR (shift Maximum Likelihood Linear Regression) adaptation of an acoustics model in the case of limited amount of adaptation data, which can lead to ill-conditioned transformations matrices.We try to suppress the influence of badly estimated transformation parameters utilizing the Artificial Neural Network (ANN), especially Convolutional Neural Network (CNN) with bottleneck layer on the end. The badly estimated shift-MLLR transformation ispropagated through an ANN (suitably trained beforehand), and the output of the net is used as the new refined transformation. To train the ANN the well and the badly conditioned shift-MLLR transformations are used as outputs and inputs of ANN, respectively.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JD - Využití počítačů, robotika a její aplikace
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/DF12P01OVV022" target="_blank" >DF12P01OVV022: Zpřístupnění rozsáhlého video archivu kulturního dědictví pomocí metod automatického rozpoznávání mluvené řeči a strojového překladu. (AMALACH)</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2014
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Speech and Computer, 16th International Conference, SPECOM 2014, Novi Sad, Serbia, October 5-9, 2014, Proceedings
ISBN
978-3-319-11580-1
ISSN
0302-9743
e-ISSN
—
Počet stran výsledku
8
Strana od-do
161-168
Název nakladatele
Springer
Místo vydání
Heidelberg
Místo konání akce
Novi Sad, Serbia
Datum konání akce
5. 10. 2014
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—