Extracting speaker and emotion information from self-supervised speech models via channel-wise correlations
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F00216305%3A26230%2F23%3APU149387" target="_blank" >RIV/00216305:26230/23:PU149387 - isvavai.cz</a>
Výsledek na webu
<a href="https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10023345" target="_blank" >https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10023345</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1109/SLT54892.2023.10023345" target="_blank" >10.1109/SLT54892.2023.10023345</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Extracting speaker and emotion information from self-supervised speech models via channel-wise correlations
Popis výsledku v původním jazyce
Self-supervised learning of speech representations from large amounts of unlabeled data has enabled state-of-the-art results in several speech processing tasks. Aggregating these speech representations across time is typically approached by using descriptive statistics, and in particular, using the first- and second-order statistics of representation coefficients. In this paper, we examine an alternative way of extracting speaker and emotion information from self-supervised trained models, based on the correlations between the coefficients of the representations - correlation pooling. We show improvements over mean pooling and further gains when the pooling methods are combined via fusion. The code is available at github.com/Lamomal/s3prl_correlation.
Název v anglickém jazyce
Extracting speaker and emotion information from self-supervised speech models via channel-wise correlations
Popis výsledku anglicky
Self-supervised learning of speech representations from large amounts of unlabeled data has enabled state-of-the-art results in several speech processing tasks. Aggregating these speech representations across time is typically approached by using descriptive statistics, and in particular, using the first- and second-order statistics of representation coefficients. In this paper, we examine an alternative way of extracting speaker and emotion information from self-supervised trained models, based on the correlations between the coefficients of the representations - correlation pooling. We show improvements over mean pooling and further gains when the pooling methods are combined via fusion. The code is available at github.com/Lamomal/s3prl_correlation.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2023
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
2022 IEEE Spoken Language Technology Workshop, SLT 2022 - Proceedings
ISBN
978-1-6654-7189-3
ISSN
—
e-ISSN
—
Počet stran výsledku
8
Strana od-do
1136-1143
Název nakladatele
IEEE Signal Processing Society
Místo vydání
Doha
Místo konání akce
Doha
Datum konání akce
9. 1. 2023
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000968851900153