Czech time-domain TTS system with sample-by-sample harmonically pitch-normalized speech segment database
Identifikátory výsledku
Kód výsledku v IS VaVaI
<a href="https://www.isvavai.cz/riv?ss=detail&h=RIV%2F49777513%3A23520%2F02%3A00076269" target="_blank" >RIV/49777513:23520/02:00076269 - isvavai.cz</a>
Výsledek na webu
—
DOI - Digital Object Identifier
—
Alternativní jazyky
Jazyk výsledku
angličtina
Název v původním jazyce
Czech time-domain TTS system with sample-by-sample harmonically pitch-normalized speech segment database
Popis výsledku v původním jazyce
Monotonously recorded speech corpus is required to achieve high segmental quality in TTS systems. We record our own speech corpora with professional speakers. But, for the speaker, it is usually not easy to satisfy the requirement of monotonicity. The easier and cheaper way to obtain speech corpus for TTS system would be to use some of publicly available speech records or speech corpora available on the market. But those cannot be expected to be recorded monotonously. This paper proposes our effort to cope with it.We try techniques similar to "spectral reharmonization". The off-line algorithm is applied pitch-synchronously on every segment in the speech segment database. We use the FFT algorithm to obtain a set of harmonic parameters for every sub-segment defined by the time instants of neighboring pitch-marks. Described pitch-normalization algorithm is performed on voiced parts of the segment only.
Název v anglickém jazyce
Czech time-domain TTS system with sample-by-sample harmonically pitch-normalized speech segment database
Popis výsledku anglicky
Monotonously recorded speech corpus is required to achieve high segmental quality in TTS systems. We record our own speech corpora with professional speakers. But, for the speaker, it is usually not easy to satisfy the requirement of monotonicity. The easier and cheaper way to obtain speech corpus for TTS system would be to use some of publicly available speech records or speech corpora available on the market. But those cannot be expected to be recorded monotonously. This paper proposes our effort to cope with it.We try techniques similar to "spectral reharmonization". The off-line algorithm is applied pitch-synchronously on every segment in the speech segment database. We use the FFT algorithm to obtain a set of harmonic parameters for every sub-segment defined by the time instants of neighboring pitch-marks. Described pitch-normalization algorithm is performed on voiced parts of the segment only.
Klasifikace
Druh
D - Stať ve sborníku
CEP obor
JD - Využití počítačů, robotika a její aplikace
OECD FORD obor
—
Návaznosti výsledku
Projekt
<a href="/cs/project/GA102%2F02%2F0124" target="_blank" >GA102/02/0124: Hlasové technologie v podpoře informační společnosti</a><br>
Návaznosti
Z - Vyzkumny zamer (s odkazem do CEZ)
Ostatní
Rok uplatnění
2002
Kód důvěrnosti údajů
S - Úplné a pravdivé údaje o projektu nepodléhají ochraně podle zvláštních právních předpisů
Údaje specifické pro druh výsledku
Název statě ve sborníku
Czech time-domain TTS system with sample-by-sample harmonically pitch-normalized speech segment database
ISBN
8086269094
ISSN
—
e-ISSN
—
Počet stran výsledku
3
Strana od-do
44
Název nakladatele
Academy of Sciences of Czech Republic
Místo vydání
Prague
Místo konání akce
Prague
Datum konání akce
1. 1. 2002
Typ akce podle státní příslušnosti
CST - Celostátní akce
Kód UT WoS článku
—