Minimalizace velikosti databáze řečových jednotek v úloze konkatenační syntézy řeči
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F06%3A00000536" target="_blank" >RIV/49777513:23520/06:00000536 - isvavai.cz</a>
Nalezeny alternativní kódy
RIV/49777513:23520/06:00000105
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
On Minimizing the Size of Speech Unit Database in Concatenative Speech Synthesis
Popis výsledku v původním jazyce
In this paper, minimization of speech unit database is researched in order to have a compact speech unit database yielding a "good enough" synthetic speech usable also for low-resource devices. We focused mainly on HMM-based speech unit database preparation, a process which prepares a set of context-dependent phones (triphones) by means of HMM modelling, CART-based clustering, and HMM-based segmentation in a fully automatic way. Three experiments are described in the paper: the first one concerns the size of the source speech corpus, the second one deals with the triphone clustering process, and the last one concerns the modelling of the cross-word dependencies. The final minimised system exploits techniques used in all three experiments. The size of the resulting speech unit database decreased from 28.1 to 1.6 MB. The resulting synthetic speech was then judged by means of CCR listening tests and evaluated as "slightly worse" than speech generated by the baseline system.
Název v anglickém jazyce
On Minimizing the Size of Speech Unit Database in Concatenative Speech Synthesis
Popis výsledku anglicky
In this paper, minimization of speech unit database is researched in order to have a compact speech unit database yielding a "good enough" synthetic speech usable also for low-resource devices. We focused mainly on HMM-based speech unit database preparation, a process which prepares a set of context-dependent phones (triphones) by means of HMM modelling, CART-based clustering, and HMM-based segmentation in a fully automatic way. Three experiments are described in the paper: the first one concerns the size of the source speech corpus, the second one deals with the triphone clustering process, and the last one concerns the modelling of the cross-word dependencies. The final minimised system exploits techniques used in all three experiments. The size of the resulting speech unit database decreased from 28.1 to 1.6 MB. The resulting synthetic speech was then judged by means of CCR listening tests and evaluated as "slightly worse" than speech generated by the baseline system.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JD - Využití počítačů, robotika a její aplikace
OECD FORD obor
—
Návaznosti výsledku
Projekt
Výsledek vznikl pri realizaci vícero projektů. Více informací v záložce Projekty.
Návaznosti
P - Projekt vyzkumu a vyvoje financovany z verejnych zdroju (s odkazem do CEP)
Ostatní
Rok uplatnění
2006
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Speech Processing
ISBN
80-86269-15-9
ISSN
—
e-ISSN
—
Počet stran výsledku
7
Strana od-do
70-76
Název nakladatele
Institute of Radio Engineering and Electronics AS CR
Místo vydání
Prague
Místo konání akce
Praha
Datum konání akce
1. 1. 2006
Typ akce podle státní příslušnosti
EUR - Evropská akce
Kód UT WoS článku
—