WaveNet-Based Speech Synthesis Applied to Czech - A Comparison with the Traditional Synthesis Methods
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F18%3A43952601" target="_blank" >RIV/49777513:23520/18:43952601 - isvavai.cz</a>
Výsledek na webu
<a href="https://link.springer.com/chapter/10.1007%2F978-3-030-00794-2_48" target="_blank" >https://link.springer.com/chapter/10.1007%2F978-3-030-00794-2_48</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.1007/978-3-030-00794-2_48" target="_blank" >10.1007/978-3-030-00794-2_48</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
WaveNet-Based Speech Synthesis Applied to Czech - A Comparison with the Traditional Synthesis Methods
Popis výsledku v původním jazyce
WaveNet is a recently-developed deep neural network for generating high-quality synthetic speech. It produces directly raw audio samples. This paper describes the first application of WaveNet-based speech synthesis for the Czech language. We used the basic WaveNet architecture. The duration of particular phones and the required fundamental frequency used for local conditioning were estimated by additional LSTM networks. We conducted a MUSHRA listening test to compare WaveNet with 2 traditional synthesis methods: unit selection and HMM-based synthesis. Experiments were performed on 4 large speech corpora. Though our implementation of WaveNet did not outperform the unit selection method as reported in other studies, there is still a lot of scope for improvement, while the unit selection TTS have probably reached its quality limit.
Název v anglickém jazyce
WaveNet-Based Speech Synthesis Applied to Czech - A Comparison with the Traditional Synthesis Methods
Popis výsledku anglicky
WaveNet is a recently-developed deep neural network for generating high-quality synthetic speech. It produces directly raw audio samples. This paper describes the first application of WaveNet-based speech synthesis for the Czech language. We used the basic WaveNet architecture. The duration of particular phones and the required fundamental frequency used for local conditioning were estimated by additional LSTM networks. We conducted a MUSHRA listening test to compare WaveNet with 2 traditional synthesis methods: unit selection and HMM-based synthesis. Experiments were performed on 4 large speech corpora. Though our implementation of WaveNet did not outperform the unit selection method as reported in other studies, there is still a lot of scope for improvement, while the unit selection TTS have probably reached its quality limit.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
<a href="/cs/project/GA16-04420S" target="_blank" >GA16-04420S: Kombinované využití fonetických a korpusově založených postupů při odstraňování rušivých jevů v řečové syntéze</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2018
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Text, Speech, and Dialogue 21st International Conference, TSD 2018, Brno, Czech Republic, September 11-14, 2018, Proceedings
ISBN
978-3-030-00793-5
ISSN
0302-9743
e-ISSN
1611-3349
Počet stran výsledku
8
Strana od-do
445-452
Název nakladatele
Springer Nature Switzerland AG
Místo vydání
Cham
Místo konání akce
Brno, Czech Republic
Datum konání akce
11. 9. 2018
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
—