Deep Learning and Online Speech Activity Detection for Czech Radio Broadcasting
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F18%3A43952599" target="_blank" >RIV/49777513:23520/18:43952599 - isvavai.cz</a>
Výsledek na webu
<a href="https://link.springer.com/chapter/10.1007%2F978-3-030-00794-2_46" target="_blank" >https://link.springer.com/chapter/10.1007%2F978-3-030-00794-2_46</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-030-00794-2_46" target="_blank" >10.1007/978-3-030-00794-2_46</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Deep Learning and Online Speech Activity Detection for Czech Radio Broadcasting
Popis výsledku v původním jazyce
In this paper, enhancements of online speech activity detection (SAD) is presented. Our proposed approach combines standard signal processing methods and modern deep-learning methods which allows simultaneous training of the detector’s parts that are usually trained or designed separately. In our SAD, an NN-based early score computation system, an NN-based score smoothing system and proposed online decoding system were incorporated in a training process. Besides the CNN and DNN, spectral flux and spectral variance features are also investigated. The proposed approach was tested on a Czech Radio broadcasting corpus. The corpus was used for investigation supervised and also semisupervised machine learning.
Název v anglickém jazyce
Deep Learning and Online Speech Activity Detection for Czech Radio Broadcasting
Popis výsledku anglicky
In this paper, enhancements of online speech activity detection (SAD) is presented. Our proposed approach combines standard signal processing methods and modern deep-learning methods which allows simultaneous training of the detector’s parts that are usually trained or designed separately. In our SAD, an NN-based early score computation system, an NN-based score smoothing system and proposed online decoding system were incorporated in a training process. Besides the CNN and DNN, spectral flux and spectral variance features are also investigated. The proposed approach was tested on a Czech Radio broadcasting corpus. The corpus was used for investigation supervised and also semisupervised machine learning.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
<a href="/cs/project/EF15_003%2F0000466" target="_blank" >EF15_003/0000466: Umělá inteligence a uvažování</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2018
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Text, Speech, and Dialogue 21st International Conference, TSD 2018, Brno, Czech Republic, September 11-14, 2018, Proceedings
ISBN
978-3-030-00793-5
ISSN
0302-9743
e-ISSN
1611-3349
Počet stran výsledku
8
Strana od-do
428-435
Název nakladatele
Springer Nature Switzerland AG
Místo vydání
Cham
Místo konání akce
Brno, Czech Republic
Datum konání akce
11. 9. 2018
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—