Analysis of Speaker Diarization based on Bayesian HMM with Eigenvoice Priors
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F19%3APU134972" target="_blank" >RIV/00216305:26230/19:PU134972 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/00216305:26230/20:PU134972
Výsledek na webu
<a href="https://ieeexplore.ieee.org/document/8910412" target="_blank" >https://ieeexplore.ieee.org/document/8910412</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1109/TASLP.2019.2955293" target="_blank" >10.1109/TASLP.2019.2955293</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Analysis of Speaker Diarization based on Bayesian HMM with Eigenvoice Priors
Popis výsledku v původním jazyce
In our previous work, we introduced our Bayesian Hidden Markov Model with eigenvoice priors, which has been recently recognized as the state-of-the-art model for Speaker Diarization. In this paper we present a more complete analysis of the Diarization system. The inference of the model is fully described and derivations of all update formulas are provided for a complete understanding of the algorithm. An extensive analysis on the effect, sensitivity and interactions of all model parameters is provided, which might be used as a guide for their optimal setting. The newly introduced speaker regularization coefficient allows us to control the number of speakers inferred in an utterance. A naive speaker model merging strategy is also presented, which allows to drive the variational inference out of local optima. Experiments for the different diarization scenarios are presented on CALLHOME and DIHARD datasets.
Název v anglickém jazyce
Analysis of Speaker Diarization based on Bayesian HMM with Eigenvoice Priors
Popis výsledku anglicky
In our previous work, we introduced our Bayesian Hidden Markov Model with eigenvoice priors, which has been recently recognized as the state-of-the-art model for Speaker Diarization. In this paper we present a more complete analysis of the Diarization system. The inference of the model is fully described and derivations of all update formulas are provided for a complete understanding of the algorithm. An extensive analysis on the effect, sensitivity and interactions of all model parameters is provided, which might be used as a guide for their optimal setting. The newly introduced speaker regularization coefficient allows us to control the number of speakers inferred in an utterance. A naive speaker model merging strategy is also presented, which allows to drive the variational inference out of local optima. Experiments for the different diarization scenarios are presented on CALLHOME and DIHARD datasets.
Klasifikace
Druh
J<sub>SC</sub> - Článek v periodiku v databázi SCOPUS
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2019
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH AND LANGUAGE PROCESSING
ISSN
2329-9290
e-ISSN
2329-9304
Svazek periodika
28
Číslo periodika v rámci svazku
1
Stát vydavatele periodika
US - Spojené státy americké
Počet stran výsledku
14
Strana od-do
355-368
Kód UT WoS článku
—
EID výsledku v databázi Scopus
2-s2.0-85075649332