13 years of speaker recognition research at BUT, with longitudinal analysis of NIST SRE
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F20%3APU135811" target="_blank" >RIV/00216305:26230/20:PU135811 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/00216305:26230/19:PU135811
Výsledek na webu
<a href="https://www.sciencedirect.com/science/article/pii/S0885230819302797?via%3Dihub" target="_blank" >https://www.sciencedirect.com/science/article/pii/S0885230819302797?via%3Dihub</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1016/j.csl.2019.101035" target="_blank" >10.1016/j.csl.2019.101035</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
13 years of speaker recognition research at BUT, with longitudinal analysis of NIST SRE
Popis výsledku v původním jazyce
In this paper, we present a brief history and a "longitudinal study" of all important milestone modelling techniques used in text independent speaker recognition since Brno University of Technology (BUT) first participated in the NIST Speaker Recognition Evaluation (SRE) in 2006-GMM MAP, GMM MAP with eigen-channel adaptation, Joint Factor Analysis, i-vector and DNN embedding (x-vector). To emphasize the historical context, the techniques are evaluated on all NIST SRE sets since 2004 on a time-machine principle, i.e. a system is always trained using all data available up till the year of evaluation. Moreover, as user-contributed audiovisual content dominates nowadays Internet, we representatively include the Speakers In The Wild (SITW) and VOiCES challenge datasets in the evaluation of our systems. Not only we present a comparison of the modelling techniques, but we also show the effect of sampling frequency.
Název v anglickém jazyce
13 years of speaker recognition research at BUT, with longitudinal analysis of NIST SRE
Popis výsledku anglicky
In this paper, we present a brief history and a "longitudinal study" of all important milestone modelling techniques used in text independent speaker recognition since Brno University of Technology (BUT) first participated in the NIST Speaker Recognition Evaluation (SRE) in 2006-GMM MAP, GMM MAP with eigen-channel adaptation, Joint Factor Analysis, i-vector and DNN embedding (x-vector). To emphasize the historical context, the techniques are evaluated on all NIST SRE sets since 2004 on a time-machine principle, i.e. a system is always trained using all data available up till the year of evaluation. Moreover, as user-contributed audiovisual content dominates nowadays Internet, we representatively include the Speakers In The Wild (SITW) and VOiCES challenge datasets in the evaluation of our systems. Not only we present a comparison of the modelling techniques, but we also show the effect of sampling frequency.
Klasifikace
Druh
J<sub>imp</sub> - Článek v periodiku v databázi Web of Science
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
<a href="/cs/project/VI20152020025" target="_blank" >VI20152020025: Dolování infoRmAcí z řeči Pořízené vzdÁlenými miKrofony - DRAPÁK</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2020
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
COMPUTER SPEECH AND LANGUAGE
ISSN
0885-2308
e-ISSN
1095-8363
Svazek periodika
2020
Číslo periodika v rámci svazku
63
Stát vydavatele periodika
GB - Spojené království Velké Británie a Severního Irska
Počet stran výsledku
15
Strana od-do
1-15
Kód UT WoS článku
000534481900003
EID výsledku v databázi Scopus
2-s2.0-85080857173