Region Dependent Linear Transforms in Multilingual Speech Recognition
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F12%3APU98188" target="_blank" >RIV/00216305:26230/12:PU98188 - isvavai.cz</a>
Výsledek na webu
<a href="http://dx.doi.org/10.1109/ICASSP.2012.6289014" target="_blank" >http://dx.doi.org/10.1109/ICASSP.2012.6289014</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1109/ICASSP.2012.6289014" target="_blank" >10.1109/ICASSP.2012.6289014</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Region Dependent Linear Transforms in Multilingual Speech Recognition
Popis výsledku v původním jazyce
In today's speech recognition systems, linear or nonlinear transformations are usually applied to post-process speech features forming input to HMM based acoustic models. In this work, we experiment with three popular transforms: HLDA,MPE-HLDA and RegionDependent Linear Transforms (RDLT), which are trained jointly with the acoustic model to extract maximum of the discriminative information from the raw features and to represent it in a form suitable for the following GMM-HMM based acoustic model. We focus on multi-lingual environments, where limited resources are available for training recognizers of many languages. Using data from GlobalPhone database, we show that, under such restrictive conditions, the feature transformations can be advantageouslyshared across languages and robustly trained using data from several languages.
Název v anglickém jazyce
Region Dependent Linear Transforms in Multilingual Speech Recognition
Popis výsledku anglicky
In today's speech recognition systems, linear or nonlinear transformations are usually applied to post-process speech features forming input to HMM based acoustic models. In this work, we experiment with three popular transforms: HLDA,MPE-HLDA and RegionDependent Linear Transforms (RDLT), which are trained jointly with the acoustic model to extract maximum of the discriminative information from the raw features and to represent it in a form suitable for the following GMM-HMM based acoustic model. We focus on multi-lingual environments, where limited resources are available for training recognizers of many languages. Using data from GlobalPhone database, we show that, under such restrictive conditions, the feature transformations can be advantageouslyshared across languages and robustly trained using data from several languages.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JC - Počítačový hardware a software
OECD FORD obor
—
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
Z - Vyzkumny zamer (s odkazem do CEZ)
Ostatní
Rok uplatnění
2012
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proc. International Conference on Acoustics, Speech, and Signal Processing 2012
ISBN
978-1-4673-0044-5
ISSN
—
e-ISSN
—
Počet stran výsledku
4
Strana od-do
4885-4888
Název nakladatele
IEEE Signal Processing Society
Místo vydání
Kyoto
Místo konání akce
Kyoto
Datum konání akce
25. 3. 2012
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000312381404239