On modelling syllables in text-to-speech synthesis
The result's identifiers
Result code in IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F05%3A00000035" target="_blank" >RIV/49777513:23520/05:00000035 - isvavai.cz</a>
Result on the web
—
DOI - Digital Object Identifier
—
Alternative languages
Result language
angličtina
Original language name
On modelling syllables in text-to-speech synthesis
Original language description
In this paper, an attempt to use syllables as alternative acoustic units to phones in text-to-speech tasks is presented. We proposed, examined and evaluated several options of syllable modelling within the scope of the statistical approach (using HMMs) to the acoustic unit inventory creation. To be able to synthesize an arbitrary text, the inventory has to be extended with triphones, resulting in a hybrid syllable/triphone inventory. First, we did not reflect the phonetic contexts of the syllables, because we supposed that the most of co-articulation is included inside syllables. Next, we also tried to model the context-dependent syllables. However, it is not viable to take each individual phone as a context. Therefore, each context was formed by a group of acoustically similar phones. Several listening tests were performed to rate the quality of the resulting synthetic speech.
Czech name
Modelování slabik v syntéze řeči z textu
Czech description
V tomto článku ukazujeme možnosti využití slabik jako alternativních akustických jednotek k fonémům v úloze syntézy řeči z textu. Navrhujeme, realizujeme a vyhodnocujeme několik možností modelování slabik v rámci statistického přístupu k vytváření inventáře řečových jednotek (s využitím HMM). Abychom bylo možné syntetizovat libovolný text, inventář musel být rozšířen o trifóny; výsledkem je hybridní slabiko-trifónový inventář. Nejprve jsme uvažovali slabiky jako kontextově nezávislé, vycházeje z předpokladu, že nejsilnější koartikulace je uzavřena právě uvnitř slabiky. Dále jsme zkusili modelovat slabiky včetně kontextu, jelikož ale není možné brát jednotliv
Classification
Type
J<sub>x</sub> - Unclassified - Peer-reviewed scientific article (Jimp, Jsc and Jost)
CEP classification
JD - Use of computers, robotics and its application
OECD FORD branch
—
Result continuities
Project
<a href="/en/project/1ET101470416" target="_blank" >1ET101470416: Multimodal human sign language and speech processing for man-machine communication</a><br>
Continuities
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Others
Publication year
2005
Confidentiality
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Data specific for result type
Name of the periodical
Studientexte zur Sprachkommunikation
ISSN
0940-6832
e-ISSN
—
Volume of the periodical
—
Issue of the periodical within the volume
—
Country of publishing house
DE - GERMANY
Number of pages
8
Pages from-to
438
UT code for WoS article
—
EID of the result in the Scopus database
—