Online Speaker Adaptation of an Acoustic Model Using Face Recognition
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F13%3A00212560" target="_blank" >RIV/68407700:21230/13:00212560 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/49777513:23520/13:43920969
Výsledek na webu
<a href="http://dx.doi.org/10.1007/978-3-642-40585-3_48" target="_blank" >http://dx.doi.org/10.1007/978-3-642-40585-3_48</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-642-40585-3_48" target="_blank" >10.1007/978-3-642-40585-3_48</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Online Speaker Adaptation of an Acoustic Model Using Face Recognition
Popis výsledku v původním jazyce
We have proposed and evaluated a novel approach for online speaker adaptation of an acoustic model based on face recognition. Instead of traditionally used audio-based speaker identification we investigated video modality for the task of speaker detection. A simulated on-line transcription created by a Large-Vocabulary Continuous Speech Recognition (LVCSR) system for online subtitling is evaluated utilizing speaker independent acoustic models, gender dependent models and models of particular speakers. In the experiment, the speaker dependent acoustic models were trained offline, and are switched online based on the decision of the face recognizer, which reduced Word Error Rate (WER) by 12% relatively compared to speaker independent baseline system.
Název v anglickém jazyce
Online Speaker Adaptation of an Acoustic Model Using Face Recognition
Popis výsledku anglicky
We have proposed and evaluated a novel approach for online speaker adaptation of an acoustic model based on face recognition. Instead of traditionally used audio-based speaker identification we investigated video modality for the task of speaker detection. A simulated on-line transcription created by a Large-Vocabulary Continuous Speech Recognition (LVCSR) system for online subtitling is evaluated utilizing speaker independent acoustic models, gender dependent models and models of particular speakers. In the experiment, the speaker dependent acoustic models were trained offline, and are switched online based on the decision of the face recognizer, which reduced Word Error Rate (WER) by 12% relatively compared to speaker independent baseline system.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JD - Využití počítačů, robotika a její aplikace
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/GBP103%2F12%2FG084" target="_blank" >GBP103/12/G084: Centrum pro multi-modální interpretaci dat velkého rozsahu</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2013
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Text, Speech, and Dialogue: 16th International Conference, TSD 2013
ISBN
978-3-642-40584-6
ISSN
0302-9743
e-ISSN
—
Počet stran výsledku
8
Strana od-do
378-385
Název nakladatele
Springer
Místo vydání
Heidelberg
Místo konání akce
Pilsen
Datum konání akce
1. 9. 2013
Typ akce podle státní příslušnosti
EUR - Evropská akce
Kód UT WoS článku
—