A Comparison of Convolutional Neural Networks for Glottal Closure Instant Detection from Raw Speech
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F21%3A43962806" target="_blank" >RIV/49777513:23520/21:43962806 - isvavai.cz</a>
Výsledek na webu
<a href="https://ieeexplore.ieee.org/document/9413675" target="_blank" >https://ieeexplore.ieee.org/document/9413675</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1109/ICASSP39728.2021.9413675" target="_blank" >10.1109/ICASSP39728.2021.9413675</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
A Comparison of Convolutional Neural Networks for Glottal Closure Instant Detection from Raw Speech
Popis výsledku v původním jazyce
In this paper, we continue to investigate the use of machine learning for the automatic detection of glottal closure instants (GCIs) from raw speech. We compare several deep one-dimensional convolutional neural network architectures on the same data and show that the InceptionV3 model yields the best results on the test set. On publicly available databases, the proposed 1D InceptionV3 outperforms XGBoost, a non-deep machine learning model, as well as other traditional GCI detection algorithms.
Název v anglickém jazyce
A Comparison of Convolutional Neural Networks for Glottal Closure Instant Detection from Raw Speech
Popis výsledku anglicky
In this paper, we continue to investigate the use of machine learning for the automatic detection of glottal closure instants (GCIs) from raw speech. We compare several deep one-dimensional convolutional neural network architectures on the same data and show that the InceptionV3 model yields the best results on the test set. On publicly available databases, the proposed 1D InceptionV3 outperforms XGBoost, a non-deep machine learning model, as well as other traditional GCI detection algorithms.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
<a href="/cs/project/GA19-19324S" target="_blank" >GA19-19324S: Plně trénovatelná syntéza české řeči z textu s využitím hlubokých neuronových sítí</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2021
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2021)
ISBN
978-1-72817-605-5
ISSN
1520-6149
e-ISSN
2379-190X
Počet stran výsledku
5
Strana od-do
6938-6942
Název nakladatele
IEEE
Místo vydání
New York
Místo konání akce
Toronto, ON, Canada
Datum konání akce
6. 6. 2021
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000704288407043