VITS: Quality vs. Speed Analysis
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F23%3A43969619" target="_blank" >RIV/49777513:23520/23:43969619 - isvavai.cz</a>
Výsledek na webu
<a href="https://link.springer.com/chapter/10.1007/978-3-031-40498-6_19" target="_blank" >https://link.springer.com/chapter/10.1007/978-3-031-40498-6_19</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-031-40498-6_19" target="_blank" >10.1007/978-3-031-40498-6_19</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
VITS: Quality vs. Speed Analysis
Popis výsledku v původním jazyce
In this paper, we analyze the performance of a modern end-to-end speech synthesis model called Variational Inference with adversarial learning for end-to-end Text-to-Speech (VITS). We build on the original VITS model and examine how different modifications to its architecture affect synthetic speech quality and computational complexity. Experiments with two Czech voices, a male and a female, were carried out. To assess the quality of speech synthesized by the different modified models, MUSHRA listening tests were performed. The computational complexity was measured in terms of synthesis speed over real time. While the original VITS model is still preferred regarding speech quality, we present a modification of the original structure with a significantly better response yet providing acceptable output quality. Such a configuration can be used when system response latency is critical.
Název v anglickém jazyce
VITS: Quality vs. Speed Analysis
Popis výsledku anglicky
In this paper, we analyze the performance of a modern end-to-end speech synthesis model called Variational Inference with adversarial learning for end-to-end Text-to-Speech (VITS). We build on the original VITS model and examine how different modifications to its architecture affect synthetic speech quality and computational complexity. Experiments with two Czech voices, a male and a female, were carried out. To assess the quality of speech synthesized by the different modified models, MUSHRA listening tests were performed. The computational complexity was measured in terms of synthesis speed over real time. While the original VITS model is still preferred regarding speech quality, we present a modification of the original structure with a significantly better response yet providing acceptable output quality. Such a configuration can be used when system response latency is critical.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
<a href="/cs/project/TL05000546" target="_blank" >TL05000546: Využití multimediálního výkladového slovníku pro moderní výuku češtiny</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2023
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Text, Speech, and Dialogue 26th International Conference, TSD 2023, Pilsen, Czech Republic, September 4–6, 2023, Proceedings
ISBN
978-3-031-40497-9
ISSN
0302-9743
e-ISSN
1611-3349
Počet stran výsledku
12
Strana od-do
214-225
Název nakladatele
Springer International Publishing
Místo vydání
Cham
Místo konání akce
Pilsen, Czech Republic
Datum konání akce
4. 9. 2023
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—