Compensation of Nonlinear Distortions in Speech for Automatic Recognition
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F46747885%3A24220%2F14%3A%230002972" target="_blank" >RIV/46747885:24220/14:#0002972 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Compensation of Nonlinear Distortions in Speech for Automatic Recognition
Popis výsledku v původním jazyce
This paper addresses improvement of automatic transcription of speech distorted already during recording or by consequent processing. We focus on distortions that cannot be represented by most often used models, that is, as an additive noise or a linearconvolutive channel distortion. We consider a) signals distorted through overgained microphone preamplifier and b) recordings exhibiting unnatural spectral sparseness, caused by application of excessive denoising or low-bit-rate compression. We demonstrate that these distortions deteriorate ASR accuracy significantly. To compensate, we propose to employ a combination of two general robust speech recognition techniques: a front-end feature normalization method and a channel/speaker adaptation technique.We present a significant improvement of transcription accuracy in the case of lectures distorted during recording, compressed broadcast data and utterances recorded with an inappropriately applied denoising.
Název v anglickém jazyce
Compensation of Nonlinear Distortions in Speech for Automatic Recognition
Popis výsledku anglicky
This paper addresses improvement of automatic transcription of speech distorted already during recording or by consequent processing. We focus on distortions that cannot be represented by most often used models, that is, as an additive noise or a linearconvolutive channel distortion. We consider a) signals distorted through overgained microphone preamplifier and b) recordings exhibiting unnatural spectral sparseness, caused by application of excessive denoising or low-bit-rate compression. We demonstrate that these distortions deteriorate ASR accuracy significantly. To compensate, we propose to employ a combination of two general robust speech recognition techniques: a front-end feature normalization method and a channel/speaker adaptation technique.We present a significant improvement of transcription accuracy in the case of lectures distorted during recording, compressed broadcast data and utterances recorded with an inappropriately applied denoising.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JC - Počítačový hardware a software
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/TA01011142" target="_blank" >TA01011142: Automatická transkripce a indexace přednášek</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2014
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proc. of Telecommunications and Signal Processing (TSP) conference
ISBN
978-80-214-4983-1
ISSN
—
e-ISSN
—
Počet stran výsledku
5
Strana od-do
419-423
Název nakladatele
IEEE
Místo vydání
Berlín, Německo
Místo konání akce
Berlín, Německo
Datum konání akce
1. 1. 2014
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—