USING EXTREME GRADIENT BOOSTING TO DETECT GLOTTAL CLOSURE INSTANTS IN SPEECH SIGNAL
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F19%3A43956321" target="_blank" >RIV/49777513:23520/19:43956321 - isvavai.cz</a>
Výsledek na webu
<a href="https://ieeexplore.ieee.org/document/8683889" target="_blank" >https://ieeexplore.ieee.org/document/8683889</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1109/ICASSP.2019.8683889" target="_blank" >10.1109/ICASSP.2019.8683889</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
USING EXTREME GRADIENT BOOSTING TO DETECT GLOTTAL CLOSURE INSTANTS IN SPEECH SIGNAL
Popis výsledku v původním jazyce
In this paper, we continue to investigate the use of classifiers for the automatic detection of glottal closure instants (GCIs) from the speech signal. We focus on extreme gradient boosting (XGB), a fast and powerful implementation of a gradient boosting algorithm. We show that XGB outperforms other classifiers, achieving GCI detection accuracy F 1 = 98.55% and AUC = 99.90%. The proposed XGB model is also shown to outperform other existing GCI detection algorithms on publicly available databases. Despite using much less training data, the performance of XGB is comparable to a deep convolutional neural network based approach, especially when it is tested on voices that were not included in the training data.
Název v anglickém jazyce
USING EXTREME GRADIENT BOOSTING TO DETECT GLOTTAL CLOSURE INSTANTS IN SPEECH SIGNAL
Popis výsledku anglicky
In this paper, we continue to investigate the use of classifiers for the automatic detection of glottal closure instants (GCIs) from the speech signal. We focus on extreme gradient boosting (XGB), a fast and powerful implementation of a gradient boosting algorithm. We show that XGB outperforms other classifiers, achieving GCI detection accuracy F 1 = 98.55% and AUC = 99.90%. The proposed XGB model is also shown to outperform other existing GCI detection algorithms on publicly available databases. Despite using much less training data, the performance of XGB is comparable to a deep convolutional neural network based approach, especially when it is tested on voices that were not included in the training data.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
<a href="/cs/project/GA19-19324S" target="_blank" >GA19-19324S: Plně trénovatelná syntéza české řeči z textu s využitím hlubokých neuronových sítí</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2019
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2019)
ISBN
978-1-4799-8131-1
ISSN
1520-6149
e-ISSN
2379-190X
Počet stran výsledku
5
Strana od-do
6515-6519
Název nakladatele
IEEE
Místo vydání
New York
Místo konání akce
Brighton, United Kingdom
Datum konání akce
12. 5. 2019
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000482554006149