Fully Trainable Deep Neural Network Based Czech Text-to-Speech Synthesis
Project goals
The project aims at basic research into speech synthesis. Its main goal is to propose a unified fully trainable statistical framework for generating high-quality speech from text, with the focus on the Czech language. The main focus will be given on WaveNet, a powerful convolutional deep neural network (DNN) for generating high-quality speech in a sample-by-sample manner. Other goals concern selection and statistical modeling of appropriate linguistic and prosodic features and a way WaveNet can be appropriately conditioned by these features. Firstly, linguistic/phonetic and prosodic contexts will be used as an intermediate representation between the input text and output speech, modeled separately by different DNNs and used to condition WaveNet-based speech generation. Secondly, a fully trainable end-to-end system transforming input text directly to output speech without a need to use the explicit phonetic and/or prosodic representation will be proposed. Beside the improvement of the synthetic speech, the trainable framework allows speeding up the creation of new synthetic voices.
Keywords
speech synthesistext-to-speechdeep neural networksWaveNetend-to-end
Public support
Provider
Czech Science Foundation
Programme
Standard projects
Call for proposals
Standardní projekty 23 (SGA0201900001)
Main participants
Západočeská univerzita v Plzni / Fakulta aplikovaných věd
Contest type
VS - Public tender
Contract ID
19-19324S
Alternative language
Project name in Czech
Plně trénovatelná syntéza české řeči z textu s využitím hlubokých neuronových sítí
Annotation in Czech
Projekt se zaměřuje na základní výzkum problematiky počítačové syntézy řeči. Jeho hlavním cílem je navrhnout jednotný plně trénovatelný statistický framework pro generování vysoce kvalitní řeči z textu se zaměřením na český jazyk. Hlavní pozornost bude věnována modelu WaveNet, výkonné konvoluční hluboké neuronové síti, která umožňuje generovat řeč přímo vzorek po vzorku. Další cíle se týkají výběru a statistického modelování vhodných lingvistických a prozodických vlastností řeči a způsobu, jakým je WaveNet může využívat. Nejdříve budou lingvistické, resp. fonetické a prozodické kontexty použity jako mezičlánek mezi vstupním textem a výstupní řečí, budou modelovány odděleně odlišnými hlubokými neuronovými sítěmi a použity k řízení generování řeči v modelu WaveNet. Poté bude navržen plně trénovatelný end-to-end systém, který bude vstupní text transformovat přímo na výstupní řeč bez nutnosti použití explicitní fonetické anebo prozodické reprezentace. Navrhovaný framework umožní kromě zvýšení kvality syntetické řeči i urychlení tvorby nových syntetických hlasů.
Scientific branches
R&D category
ZV - Basic research
OECD FORD - main branch
10201 - Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
OECD FORD - secondary branch
—
OECD FORD - another secondary branch
—
AF - Documentation, librarianship, work with information
BC - Theory and management systems
BD - Information theory
IN - Informatics
Solution timeline
Realization period - beginning
Jan 1, 2019
Realization period - end
Jun 30, 2022
Project status
—
Latest support payment
Apr 1, 2022
Data delivery to CEP
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data delivery code
CEP23-GA0-GA-R
Data delivery date
Jun 26, 2023
Finance
Total approved costs
6,037 thou. CZK
Public financial support
5,698 thou. CZK
Other public sources
339 thou. CZK
Non public and foreign sources
0 thou. CZK
Recognised costs
6 037 CZK thou.
Public support
5 698 CZK thou.
0%
Provider
Czech Science Foundation
OECD FORD
Computer sciences, information science, bioinformathics (hardware development to be 2.2, social aspect to be 5.8)
Solution period
01. 01. 2019 - 30. 06. 2022