Audio-Video Speaker Diarization for Unsupervised Speaker and Face Model Creation
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F68407700%3A21230%2F14%3A00223246" target="_blank" >RIV/68407700:21230/14:00223246 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/49777513:23520/14:43922925
Výsledek na webu
<a href="http://dx.doi.org/10.1007/978-3-319-10816-2_56" target="_blank" >http://dx.doi.org/10.1007/978-3-319-10816-2_56</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-319-10816-2_56" target="_blank" >10.1007/978-3-319-10816-2_56</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Audio-Video Speaker Diarization for Unsupervised Speaker and Face Model Creation
Popis výsledku v původním jazyce
Our goal is to create speaker models in audio domain and face models in video do main from a set of videos in an unsupervised manner. Such models can be used later for speaker identification in audio domain (answering the question "Who was speaking and when") and/or fo r face recognition ("Who was seen and when") for given videos that contain speaking persons. T he proposed system is based on an audio-video diarization system that tries to resolve the dis advantages of the individual modalities. Experiments on broadcasts of Czech parliament meeting s show that the proposed combination of individual audio and video diarization systems yields an improvement of the diarization error rate (DER).
Název v anglickém jazyce
Audio-Video Speaker Diarization for Unsupervised Speaker and Face Model Creation
Popis výsledku anglicky
Our goal is to create speaker models in audio domain and face models in video do main from a set of videos in an unsupervised manner. Such models can be used later for speaker identification in audio domain (answering the question "Who was speaking and when") and/or fo r face recognition ("Who was seen and when") for given videos that contain speaking persons. T he proposed system is based on an audio-video diarization system that tries to resolve the dis advantages of the individual modalities. Experiments on broadcasts of Czech parliament meeting s show that the proposed combination of individual audio and video diarization systems yields an improvement of the diarization error rate (DER).
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JD - Využití počítačů, robotika a její aplikace
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/GBP103%2F12%2FG084" target="_blank" >GBP103/12/G084: Centrum pro multi-modální interpretaci dat velkého rozsahu</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2014
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Text, Speech, and Dialogue. 17th International Conference, TSD 2014
ISBN
978-3-319-10815-5
ISSN
0302-9743
e-ISSN
—
Počet stran výsledku
8
Strana od-do
465-472
Název nakladatele
Springer
Místo vydání
Heidelberg
Místo konání akce
Brno
Datum konání akce
8. 9. 2014
Typ akce podle státní příslušnosti
EUR - Evropská akce
Kód UT WoS článku
—