Vše

Co hledáte?

Vše
Projekty
Výsledky výzkumu
Subjekty

Rychlé hledání

  • Projekty podpořené TA ČR
  • Významné projekty
  • Projekty s nejvyšší státní podporou
  • Aktuálně běžící projekty

Chytré vyhledávání

  • Takto najdu konkrétní +slovo
  • Takto z výsledků -slovo zcela vynechám
  • “Takto můžu najít celou frázi”

Discriminative Training of VBx Diarization

Identifikátory výsledku

  • Kód výsledku v IS VaVaI

    <a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F24%3APU152297" target="_blank" >RIV/00216305:26230/24:PU152297 - isvavai.cz</a>

  • Výsledek na webu

    <a href="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446119" target="_blank" >https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10446119</a>

  • DOI - Digital Object Identifier

    <a href="http://dx.doi.org/10.1109/ICASSP48485.2024.10446119" target="_blank" >10.1109/ICASSP48485.2024.10446119</a>

Alternativní jazyky

  • Jazyk výsledku

    angličtina

  • Název v původním jazyce

    Discriminative Training of VBx Diarization

  • Popis výsledku v původním jazyce

    Bayesian HMM clustering of x-vector sequences (VBx) has be- come a widely adopted diarization baseline model in publications and challenges. It uses an HMM to model speaker turns, a gen- eratively trained probabilistic linear discriminant analysis (PLDA) for speaker distribution modeling, and Bayesian inference to esti- mate the assignment of x-vectors to speakers. This paper presents a new framework for updating the VBx parameters using discrim- inative training, which directly optimizes a predefined loss. We also propose a new loss that better correlates with the diarization error rate compared to binary cross-entropy - the default choice for diarization end-to-end systems. Proof-of-concept results across three datasets (AMI, CALLHOME, and DIHARD II) demonstrate the method's capability of automatically finding hyperparameters, achieving comparable performance to those found by extensive grid search, which typically requires additional hyperparameter behavior knowledge. Moreover, we show that discriminative fine-tuning of PLDA can further improve the model's performance. We release the source code with this publication.

  • Název v anglickém jazyce

    Discriminative Training of VBx Diarization

  • Popis výsledku anglicky

    Bayesian HMM clustering of x-vector sequences (VBx) has be- come a widely adopted diarization baseline model in publications and challenges. It uses an HMM to model speaker turns, a gen- eratively trained probabilistic linear discriminant analysis (PLDA) for speaker distribution modeling, and Bayesian inference to esti- mate the assignment of x-vectors to speakers. This paper presents a new framework for updating the VBx parameters using discrim- inative training, which directly optimizes a predefined loss. We also propose a new loss that better correlates with the diarization error rate compared to binary cross-entropy - the default choice for diarization end-to-end systems. Proof-of-concept results across three datasets (AMI, CALLHOME, and DIHARD II) demonstrate the method's capability of automatically finding hyperparameters, achieving comparable performance to those found by extensive grid search, which typically requires additional hyperparameter behavior knowledge. Moreover, we show that discriminative fine-tuning of PLDA can further improve the model's performance. We release the source code with this publication.

Klasifikace

  • Druh

    D - Stať ve sborníku

  • CEP obor

  • OECD FORD obor

    10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)

Návaznosti výsledku

  • Projekt

    Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.

  • Návaznosti

    P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)

Ostatní

  • Rok uplatnění

    2024

  • Kód důvěrnosti údajů

    S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů

Údaje specifické pro druh výsledku

  • Název statě ve sborníku

    ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings

  • ISBN

    979-8-3503-4485-1

  • ISSN

  • e-ISSN

  • Počet stran výsledku

    5

  • Strana od-do

    11871-11875

  • Název nakladatele

    IEEE Signal Processing Society

  • Místo vydání

    Seoul

  • Místo konání akce

    Seoul

  • Datum konání akce

    14. 4. 2024

  • Typ akce podle státní příslušnosti

    WRD - Celosvětová akce

  • Kód UT WoS článku