End-to-End DNN Based Speaker Recognition Inspired by i-Vector and PLDA
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F18%3APU130738" target="_blank" >RIV/00216305:26230/18:PU130738 - isvavai.cz</a>
Výsledek na webu
<a href="http://www.fit.vutbr.cz/research/pubs/all.php?id=11724" target="_blank" >http://www.fit.vutbr.cz/research/pubs/all.php?id=11724</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1109/ICASSP.2018.8461958" target="_blank" >10.1109/ICASSP.2018.8461958</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
End-to-End DNN Based Speaker Recognition Inspired by i-Vector and PLDA
Popis výsledku v původním jazyce
Recently, several end-to-end speaker verification systems based on deep neural networks (DNNs) have been proposed. These systems have been proven to be competitive for text-dependent tasks as well as for text-independent tasks with short utterances. However, for text-independent tasks with longer utterances, end-to-end systems are still outperformed by standard i-vector + PLDA systems. In this work, we develop an end-to-end speaker verification system that is initialized to mimic an i-vector + PLDA baseline. The system is then further trained in an end-to-end manner but regularized so that it does not deviate too far from the initial system. In this way we mitigate overfitting which normally limits the performance of endto- end systems. The proposed system outperforms the i-vector + PLDA baseline on both long and short duration utterances.
Název v anglickém jazyce
End-to-End DNN Based Speaker Recognition Inspired by i-Vector and PLDA
Popis výsledku anglicky
Recently, several end-to-end speaker verification systems based on deep neural networks (DNNs) have been proposed. These systems have been proven to be competitive for text-dependent tasks as well as for text-independent tasks with short utterances. However, for text-independent tasks with longer utterances, end-to-end systems are still outperformed by standard i-vector + PLDA systems. In this work, we develop an end-to-end speaker verification system that is initialized to mimic an i-vector + PLDA baseline. The system is then further trained in an end-to-end manner but regularized so that it does not deviate too far from the initial system. In this way we mitigate overfitting which normally limits the performance of endto- end systems. The proposed system outperforms the i-vector + PLDA baseline on both long and short duration utterances.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2018
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of ICASSP
ISBN
978-1-5386-4658-8
ISSN
—
e-ISSN
—
Počet stran výsledku
5
Strana od-do
4874-4878
Název nakladatele
IEEE Signal Processing Society
Místo vydání
Calgary
Místo konání akce
Calgary
Datum konání akce
15. 4. 2018
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000446384605009