Modelování slabik v syntéze řeči z textu
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F05%3A00000035" target="_blank" >RIV/49777513:23520/05:00000035 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
On modelling syllables in text-to-speech synthesis
Popis výsledku v původním jazyce
In this paper, an attempt to use syllables as alternative acoustic units to phones in text-to-speech tasks is presented. We proposed, examined and evaluated several options of syllable modelling within the scope of the statistical approach (using HMMs) to the acoustic unit inventory creation. To be able to synthesize an arbitrary text, the inventory has to be extended with triphones, resulting in a hybrid syllable/triphone inventory. First, we did not reflect the phonetic contexts of the syllables, because we supposed that the most of co-articulation is included inside syllables. Next, we also tried to model the context-dependent syllables. However, it is not viable to take each individual phone as a context. Therefore, each context was formed by a group of acoustically similar phones. Several listening tests were performed to rate the quality of the resulting synthetic speech.
Název v anglickém jazyce
On modelling syllables in text-to-speech synthesis
Popis výsledku anglicky
In this paper, an attempt to use syllables as alternative acoustic units to phones in text-to-speech tasks is presented. We proposed, examined and evaluated several options of syllable modelling within the scope of the statistical approach (using HMMs) to the acoustic unit inventory creation. To be able to synthesize an arbitrary text, the inventory has to be extended with triphones, resulting in a hybrid syllable/triphone inventory. First, we did not reflect the phonetic contexts of the syllables, because we supposed that the most of co-articulation is included inside syllables. Next, we also tried to model the context-dependent syllables. However, it is not viable to take each individual phone as a context. Therefore, each context was formed by a group of acoustically similar phones. Several listening tests were performed to rate the quality of the resulting synthetic speech.
Klasifikace
Druh
J<sub>x</sub> - Nezařazeno - Článek v odborném periodiku (Jimp, Jsc a Jost)
CEP obor
JD - Využití počítačů, robotika a její aplikace
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/1ET101470416" target="_blank" >1ET101470416: Multimodální zpracování lidské znakové a mluvené řeči počítačem pro komunikaci člověk-stroj</a><br>
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2005
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název periodika
Studientexte zur Sprachkommunikation
ISSN
0940-6832
e-ISSN
—
Svazek periodika
—
Číslo periodika v rámci svazku
—
Stát vydavatele periodika
DE - Spolková republika Německo
Počet stran výsledku
8
Strana od-do
438
Kód UT WoS článku
—
EID výsledku v databázi Scopus
—