How Much End-to-End is Tacotron 2 End-to-End TTS System
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F21%3A43962412" target="_blank" >RIV/49777513:23520/21:43962412 - isvavai.cz</a>
Výsledek na webu
<a href="https://link.springer.com/chapter/10.1007%2F978-3-030-83527-9_44" target="_blank" >https://link.springer.com/chapter/10.1007%2F978-3-030-83527-9_44</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-030-83527-9_44" target="_blank" >10.1007/978-3-030-83527-9_44</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
How Much End-to-End is Tacotron 2 End-to-End TTS System
Popis výsledku v původním jazyce
In recent years, the concept of end-to-end text-to-speech synthesis has begun to attract the attention of researchers. The motivation is simple – replacing the individual modules that TTS traditionally built on with a powerful deep neural network simplifies the architecture of the entire system. However, how capable are such end-to-end systems of dealing with classic tasks such as G2P, text normalisation, homograph disambiguation and other issues inseparably linked to text-to-speech systems? In the present paper, we explore three free implementations of the Tacotron 2-based speech synthesizers, focusing on their abilities to transform the input text into correct pronunciation, not only in terms of G2P conversion but also in han- dling issues related to text analysis and the prosody patterns used.
Název v anglickém jazyce
How Much End-to-End is Tacotron 2 End-to-End TTS System
Popis výsledku anglicky
In recent years, the concept of end-to-end text-to-speech synthesis has begun to attract the attention of researchers. The motivation is simple – replacing the individual modules that TTS traditionally built on with a powerful deep neural network simplifies the architecture of the entire system. However, how capable are such end-to-end systems of dealing with classic tasks such as G2P, text normalisation, homograph disambiguation and other issues inseparably linked to text-to-speech systems? In the present paper, we explore three free implementations of the Tacotron 2-based speech synthesizers, focusing on their abilities to transform the input text into correct pronunciation, not only in terms of G2P conversion but also in han- dling issues related to text analysis and the prosody patterns used.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
<a href="/cs/project/GA19-19324S" target="_blank" >GA19-19324S: Plně trénovatelná syntéza české řeči z textu s využitím hlubokých neuronových sítí</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2021
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Text, Speech, and Dialogue 24th International Conference, TSD 2021, Olomouc, Czech Republic, September 6–9, 2021, Proceedings
ISBN
978-3-030-83526-2
ISSN
0302-9743
e-ISSN
1611-3349
Počet stran výsledku
12
Strana od-do
511-522
Název nakladatele
Springer International Publishing
Místo vydání
Cham
Místo konání akce
Olomouc, Czech Republic
Datum konání akce
6. 9. 2021
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—