Neural Network Speaker Descriptor in Speaker Diarization of Telephone Speech
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F17%3A43932647" target="_blank" >RIV/49777513:23520/17:43932647 - isvavai.cz</a>
Výsledek na webu
<a href="https://link.springer.com/chapter/10.1007%2F978-3-319-66429-3_55" target="_blank" >https://link.springer.com/chapter/10.1007%2F978-3-319-66429-3_55</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-319-66429-3_55" target="_blank" >10.1007/978-3-319-66429-3_55</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Neural Network Speaker Descriptor in Speaker Diarization of Telephone Speech
Popis výsledku v původním jazyce
In this paper, we have been investigating an approach to a speaker representation for a diarization system that clusters short telephone conversation segments (produced by the same speaker). The proposed approach applies a neural-network-based descriptor that replaces a usual i-vector descriptor in the state-of-the-art diarization systems. The comparison of these two techniques was done on the English part of the CallHome corpus. The final results indicate the superiority of the i-vector's approach although our proposed descriptor brings an additive information. Thus, the combined descriptor represents a speaker in a segment for diarization purpose with lower diarization error (almost 20% relative improvement compared with only i-vector application).
Název v anglickém jazyce
Neural Network Speaker Descriptor in Speaker Diarization of Telephone Speech
Popis výsledku anglicky
In this paper, we have been investigating an approach to a speaker representation for a diarization system that clusters short telephone conversation segments (produced by the same speaker). The proposed approach applies a neural-network-based descriptor that replaces a usual i-vector descriptor in the state-of-the-art diarization systems. The comparison of these two techniques was done on the English part of the CallHome corpus. The final results indicate the superiority of the i-vector's approach although our proposed descriptor brings an additive information. Thus, the combined descriptor represents a speaker in a segment for diarization purpose with lower diarization error (almost 20% relative improvement compared with only i-vector application).
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
<a href="/cs/project/DG16P02B048" target="_blank" >DG16P02B048: Systém pro trvalé uchování dokumentace a prezentaci historických pramenů z období totalitních režimů</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2017
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Speech and Computer 19th International Conference, SPECOM 2017, Hatfield, UK, September 12-16, 2017, Proceedings
ISBN
978-3-319-66428-6
ISSN
0302-9743
e-ISSN
neuvedeno
Počet stran výsledku
9
Strana od-do
555-563
Název nakladatele
Springer
Místo vydání
Cham
Místo konání akce
Hatfield, Hertfordshire, United Kingdom
Datum konání akce
12. 9. 2017
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—