Discriminative Training of VBx Diarization
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F24%3APU152297" target="_blank" >RIV/00216305:26230/24:PU152297 - isvavai.cz</a>
Výsledek na webu
<a href="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446119" target="_blank" >https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446119</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1109/ICASSP48485.2024.10446119" target="_blank" >10.1109/ICASSP48485.2024.10446119</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Discriminative Training of VBx Diarization
Popis výsledku v původním jazyce
Bayesian HMM clustering of x-vector sequences (VBx) has be- come a widely adopted diarization baseline model in publications and challenges. It uses an HMM to model speaker turns, a gen- eratively trained probabilistic linear discriminant analysis (PLDA) for speaker distribution modeling, and Bayesian inference to esti- mate the assignment of x-vectors to speakers. This paper presents a new framework for updating the VBx parameters using discrim- inative training, which directly optimizes a predefined loss. We also propose a new loss that better correlates with the diarization error rate compared to binary cross-entropy - the default choice for diarization end-to-end systems. Proof-of-concept results across three datasets (AMI, CALLHOME, and DIHARD II) demonstrate the method's capability of automatically finding hyperparameters, achieving comparable performance to those found by extensive grid search, which typically requires additional hyperparameter behavior knowledge. Moreover, we show that discriminative fine-tuning of PLDA can further improve the model's performance. We release the source code with this publication.
Název v anglickém jazyce
Discriminative Training of VBx Diarization
Popis výsledku anglicky
Bayesian HMM clustering of x-vector sequences (VBx) has be- come a widely adopted diarization baseline model in publications and challenges. It uses an HMM to model speaker turns, a gen- eratively trained probabilistic linear discriminant analysis (PLDA) for speaker distribution modeling, and Bayesian inference to esti- mate the assignment of x-vectors to speakers. This paper presents a new framework for updating the VBx parameters using discrim- inative training, which directly optimizes a predefined loss. We also propose a new loss that better correlates with the diarization error rate compared to binary cross-entropy - the default choice for diarization end-to-end systems. Proof-of-concept results across three datasets (AMI, CALLHOME, and DIHARD II) demonstrate the method's capability of automatically finding hyperparameters, achieving comparable performance to those found by extensive grid search, which typically requires additional hyperparameter behavior knowledge. Moreover, we show that discriminative fine-tuning of PLDA can further improve the model's performance. We release the source code with this publication.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2024
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings
ISBN
979-8-3503-4485-1
ISSN
—
e-ISSN
—
Počet stran výsledku
5
Strana od-do
11871-11875
Název nakladatele
IEEE Signal Processing Society
Místo vydání
Seoul
Místo konání akce
Seoul
Datum konání akce
14. 4. 2024
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—