Comparison of Depth-based Features for Lipreading
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F46747885%3A24220%2F15%3A%230003426" target="_blank" >RIV/46747885:24220/15:#0003426 - isvavai.cz</a>
Výsledek na webu
<a href="http://dx.doi.org/10.1109/TSP.2015.7296400" target="_blank" >http://dx.doi.org/10.1109/TSP.2015.7296400</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1109/TSP.2015.7296400" target="_blank" >10.1109/TSP.2015.7296400</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Comparison of Depth-based Features for Lipreading
Popis výsledku v původním jazyce
We examine the effect of depth information captured by Microsoft Kinect on the task of visual speech recognition. We propose depth-based active appearance model (AAM) features and show improved results over discrete cosine transform (DCT). The visual anddepth features are evaluated on a database of 54 speakers each uttering 50 isolated words. In order to exploit the speech dynamics, the features are enhanced by a simplified one-stage variant of hierarchical linear discriminant analysis (Hi-LDA). In theexperiments, we consider feature fusion via combined video-depth active appearance model as a form of early integration, and compare it to traditional multi-stream hidden Markov Model as a form of decision fusion. We also perform experiments on audio-visual recognition in noisy environments and show improved results of incorporating depth information over both traditional audio-video fusion and utilization of speech enhancement algorithms.
Název v anglickém jazyce
Comparison of Depth-based Features for Lipreading
Popis výsledku anglicky
We examine the effect of depth information captured by Microsoft Kinect on the task of visual speech recognition. We propose depth-based active appearance model (AAM) features and show improved results over discrete cosine transform (DCT). The visual anddepth features are evaluated on a database of 54 speakers each uttering 50 isolated words. In order to exploit the speech dynamics, the features are enhanced by a simplified one-stage variant of hierarchical linear discriminant analysis (Hi-LDA). In theexperiments, we consider feature fusion via combined video-depth active appearance model as a form of early integration, and compare it to traditional multi-stream hidden Markov Model as a form of decision fusion. We also perform experiments on audio-visual recognition in noisy environments and show improved results of incorporating depth information over both traditional audio-video fusion and utilization of speech enhancement algorithms.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JC - Počítačový hardware a software
OECD FORD obor
—
Návaznosti výsledku
Projekt
—
Návaznosti
I - Institucionalni podpora na dlouhodoby koncepcni rozvoj vyzkumne organizace
Ostatní
Rok uplatnění
2015
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
38th International Conference on Telecommunications and Signal Processing, TSP 2015
ISBN
978-1-4799-8498-5
ISSN
—
e-ISSN
—
Počet stran výsledku
4
Strana od-do
648-651
Název nakladatele
Institute of Electrical and Electronics Engineers Inc.
Místo vydání
Praha, Česká Republika
Místo konání akce
Praha
Datum konání akce
1. 1. 2015
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—