Investigation of Specaugment for Deep Speaker Embedding Learning
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F20%3APU136464" target="_blank" >RIV/00216305:26230/20:PU136464 - isvavai.cz</a>
Výsledek na webu
<a href="https://ieeexplore.ieee.org/document/9053481/authors#authors" target="_blank" >https://ieeexplore.ieee.org/document/9053481/authors#authors</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1109/ICASSP40776.2020.9053481" target="_blank" >10.1109/ICASSP40776.2020.9053481</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Investigation of Specaugment for Deep Speaker Embedding Learning
Popis výsledku v původním jazyce
SpecAugment is a newly proposed data augmentation method for speech recognition. By randomly masking bands in the log Mel spectogram this method leads to impressive performance improvements. In this paper, we investigate the usage of SpecAugment for speaker verification tasks. Two different models, namely 1-D convolutional TDNN and 2-D convolutional ResNet34, trained with either Softmax or AAM-Softmax loss, are used to analyze SpecAugments effectiveness. Experiments are carried out on the Voxceleb and NIST SRE 2016 dataset. By applying SpecAugment to the original clean data in an on-the-fly manner without complex off-line data augmentation methods, we obtained 3.72% and 11.49% EER for NIST SRE 2016 Cantonese and Tagalog, respectively. For Voxceleb1 evaluation set, we obtained 1.47% EER.
Název v anglickém jazyce
Investigation of Specaugment for Deep Speaker Embedding Learning
Popis výsledku anglicky
SpecAugment is a newly proposed data augmentation method for speech recognition. By randomly masking bands in the log Mel spectogram this method leads to impressive performance improvements. In this paper, we investigate the usage of SpecAugment for speaker verification tasks. Two different models, namely 1-D convolutional TDNN and 2-D convolutional ResNet34, trained with either Softmax or AAM-Softmax loss, are used to analyze SpecAugments effectiveness. Experiments are carried out on the Voxceleb and NIST SRE 2016 dataset. By applying SpecAugment to the original clean data in an on-the-fly manner without complex off-line data augmentation methods, we obtained 3.72% and 11.49% EER for NIST SRE 2016 Cantonese and Tagalog, respectively. For Voxceleb1 evaluation set, we obtained 1.47% EER.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2020
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
ISBN
978-1-5090-6631-5
ISSN
—
e-ISSN
—
Počet stran výsledku
5
Strana od-do
7139-7143
Název nakladatele
IEEE Signal Processing Society
Místo vydání
Barcelona
Místo konání akce
Barcelona
Datum konání akce
4. 5. 2020
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000615970407081