Study on the Use of Deep Neural Networks for Speech Activity Detection in Broadcast Recordings
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F46747885%3A24220%2F16%3A00000471" target="_blank" >RIV/46747885:24220/16:00000471 - isvavai.cz</a>
Výsledek na webu
<a href="http://dx.doi.org/10.5220/0005952700450051" target="_blank" >http://dx.doi.org/10.5220/0005952700450051</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.5220/0005952700450051" target="_blank" >10.5220/0005952700450051</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Study on the Use of Deep Neural Networks for Speech Activity Detection in Broadcast Recordings
Popis výsledku v původním jazyce
This paper deals with the task of Speech Activity Detection (SAD). Our goal is to develop a SAD module suitable for a system for broadcast data transcription. Various Deep Neural Networks (DNNs) are evaluated for this purpose. Training of DNNs is performed using speech and non-speech data as well as artificial data created by mixing of both these data types at a desired level of Signal-to-Noise Ratio (SNR). The output from each DNN is smoothed using a decoder based on Weighted Finite State Transducers (WFSTs). The presented experimental results show that the use of the resulting SAD module leads to a) a slight improvement in transcription accuracy and b) a significant reduction in the computation time needed for transcription.
Název v anglickém jazyce
Study on the Use of Deep Neural Networks for Speech Activity Detection in Broadcast Recordings
Popis výsledku anglicky
This paper deals with the task of Speech Activity Detection (SAD). Our goal is to develop a SAD module suitable for a system for broadcast data transcription. Various Deep Neural Networks (DNNs) are evaluated for this purpose. Training of DNNs is performed using speech and non-speech data as well as artificial data created by mixing of both these data types at a desired level of Signal-to-Noise Ratio (SNR). The output from each DNN is smoothed using a decoder based on Weighted Finite State Transducers (WFSTs). The presented experimental results show that the use of the resulting SAD module leads to a) a slight improvement in transcription accuracy and b) a significant reduction in the computation time needed for transcription.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JC - Počítačový hardware a software
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/TA04010199" target="_blank" >TA04010199: MULTILINMEDIA - Multilinguální platforma pro monitoring a analýzu multimédií</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)<br>S - Specificky vyzkum na vysokych skolach
Ostatní
Rok uplatnění
2016
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proc. of 13th International Conference on Signal Processing and Multimedia Applications (SIGMAP 2016)
ISBN
978-989-758-196-0
ISSN
—
e-ISSN
—
Počet stran výsledku
7
Strana od-do
45-51
Název nakladatele
SciTePress
Místo vydání
Lisabon, Portugalsko
Místo konání akce
Lisabon, Portugalsko
Datum konání akce
1. 1. 2016
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000391091400004