The optimization of PLP feature extraction for LVCSR recognition of MP3 data
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F14%3A00219788" target="_blank" >RIV/68407700:21230/14:00219788 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
The optimization of PLP feature extraction for LVCSR recognition of MP3 data
Popis výsledku v původním jazyce
This paper analyses the contribution of optimized PLP feature extraction setup and application of feature normalization to improve the performance of automatic speech recognition system for data compressed by MP3 algorithm. The experimental study performed on loop-digit recognition and large vocabulary continues speech recognition task showed that proper setup can negate the effect of lower compression rates which can achieve results comparable with higher rates. The second finding is that the normalization techniques contribute significantly to overall performance, specially for shorter windows/shifts and lower compression rates. The acoustic models trained on 160kbits/s, 32kbits/s and 16kbits/s data performed at 34.17%, 41.88% and 36.4% WER respectively on LVCSR task. In comparison the noncompressed acoustic models performed at 28.56% WER.
Název v anglickém jazyce
The optimization of PLP feature extraction for LVCSR recognition of MP3 data
Popis výsledku anglicky
This paper analyses the contribution of optimized PLP feature extraction setup and application of feature normalization to improve the performance of automatic speech recognition system for data compressed by MP3 algorithm. The experimental study performed on loop-digit recognition and large vocabulary continues speech recognition task showed that proper setup can negate the effect of lower compression rates which can achieve results comparable with higher rates. The second finding is that the normalization techniques contribute significantly to overall performance, specially for shorter windows/shifts and lower compression rates. The acoustic models trained on 160kbits/s, 32kbits/s and 16kbits/s data performed at 34.17%, 41.88% and 36.4% WER respectively on LVCSR task. In comparison the noncompressed acoustic models performed at 28.56% WER.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JA - Elektronika a optoelektronika, elektrotechnika
OECD FORD obor
—
Návaznosti výsledku
Projekt
—
Návaznosti
S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2014
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
19th International Conference on Applied Electronics 2014
ISBN
978-80-261-0276-2
ISSN
1803-7232
e-ISSN
—
Počet stran výsledku
4
Strana od-do
55-58
Název nakladatele
University of West Bohemia
Místo vydání
Pilsen
Místo konání akce
Pilsen
Datum konání akce
9. 10. 2014
Typ akce podle státní příslušnosti
EUR - Evropská akce
Kód UT WoS článku
000343819700013