Google’s Next-Generation Real-Time Unit-Selection Synthesizer using Sequence-To-Sequence LSTM-based Autoencoders
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F17%3A43932652" target="_blank" >RIV/49777513:23520/17:43932652 - isvavai.cz</a>
Výsledek na webu
<a href="http://dx.doi.org/10.21437/Interspeech.2017-1107" target="_blank" >http://dx.doi.org/10.21437/Interspeech.2017-1107</a>
DOI - Digital Object Identifier
<a href="http://dx.doi.org/10.21437/Interspeech.2017-1107" target="_blank" >10.21437/Interspeech.2017-1107</a>
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Google’s Next-Generation Real-Time Unit-Selection Synthesizer using Sequence-To-Sequence LSTM-based Autoencoders
Popis výsledku v původním jazyce
A neural network model that significant improves unit- selection-based Text-To-Speech synthesis is presented. The model employs a sequence-to-sequence LSTM-based autoen- coder that compresses the acoustic and linguistic features of each unit to a fixed-size vector referred to as an embedding. Unit-selection is facilitated by formulating the target cost as an L2 distance in the embedding space. In open-domain speech synthesis the method achieves a 0.2 improvement in the MOS, while for limited-domain it reaches the cap of 4.5 MOS. Fur- thermore, the new TTS system halves the gap between the pre- vious unit-selection system and WaveNet in terms of quality while retaining low computational cost and latency.
Název v anglickém jazyce
Google’s Next-Generation Real-Time Unit-Selection Synthesizer using Sequence-To-Sequence LSTM-based Autoencoders
Popis výsledku anglicky
A neural network model that significant improves unit- selection-based Text-To-Speech synthesis is presented. The model employs a sequence-to-sequence LSTM-based autoen- coder that compresses the acoustic and linguistic features of each unit to a fixed-size vector referred to as an embedding. Unit-selection is facilitated by formulating the target cost as an L2 distance in the embedding space. In open-domain speech synthesis the method achieves a 0.2 improvement in the MOS, while for limited-domain it reaches the cap of 4.5 MOS. Fur- thermore, the new TTS system halves the gap between the pre- vious unit-selection system and WaveNet in terms of quality while retaining low computational cost and latency.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
—
OECD FORD obor
20205 - Automation and control systems
Návaznosti výsledku
Projekt
<a href="/cs/project/LO1506" target="_blank" >LO1506: Podpora udržitelnosti centra NTIS - Nové technologie pro informační společnost</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2017
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Proceedings of the 18th Annual Conference of the International Speech Communication Association (Interspeech 2017)
ISBN
978-1-5108-4876-4
ISSN
—
e-ISSN
—
Počet stran výsledku
5
Strana od-do
1143-1147
Název nakladatele
Curran Associates, Inc.
Místo vydání
Red Hook, NY
Místo konání akce
Stockholm, Sweden
Datum konání akce
20. 8. 2017
Typ akce podle státní příslušnosti
WRD - Celosvětová akce
Kód UT WoS článku
000457505000239