Convolutional Neural Network in the Task of Speaker Change Detection
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F16%3A43929716" target="_blank" >RIV/49777513:23520/16:43929716 - isvavai.cz</a>
Výsledek na webu
<a href="http://link.springer.com/chapter/10.1007/978-3-319-43958-7_22" target="_blank" >http://link.springer.com/chapter/10.1007/978-3-319-43958-7_22</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-319-43958-7_22" target="_blank" >10.1007/978-3-319-43958-7_22</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Convolutional Neural Network in the Task of Speaker Change Detection
Popis výsledku v původním jazyce
This paper presents an approach to detect speaker changes in telephone conversations. The speaker change problem is presented as a classification problem. We use a Convolutional Neural Network to analyze short audio segments. The Network plays a role of a regressor. It outputs higher values for segments that are more likely to contain a speaker change. Upon thresholding the regressed value the decision about the segment is made. The experiment shows that the Convolutional Neural Network outperforms a baseline system based on the Bayesian Information Criterion. It behaves very well on previously unseen data produced by previously unheard speakers.
Název v anglickém jazyce
Convolutional Neural Network in the Task of Speaker Change Detection
Popis výsledku anglicky
This paper presents an approach to detect speaker changes in telephone conversations. The speaker change problem is presented as a classification problem. We use a Convolutional Neural Network to analyze short audio segments. The Network plays a role of a regressor. It outputs higher values for segments that are more likely to contain a speaker change. Upon thresholding the regressed value the decision about the segment is made. The experiment shows that the Convolutional Neural Network outperforms a baseline system based on the Bayesian Information Criterion. It behaves very well on previously unseen data produced by previously unheard speakers.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JD - Využití počítačů, robotika a její aplikace
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/GBP103%2F12%2FG084" target="_blank" >GBP103/12/G084: Centrum pro multi-modální interpretaci dat velkého rozsahu</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2016
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Speech and Computer 18th International Conference, SPECOM 2016, Budapest, Hungary, August 23-27, 2016, Proceedings
ISBN
978-3-319-43957-0
ISSN
0302-9743
e-ISSN
—
Počet stran výsledku
8
Strana od-do
191-198
Název nakladatele
Springer
Místo vydání
Heidelberg
Místo konání akce
Budapesť, Maďarsko
Datum konání akce
23. 8. 2016
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000389335600022